În data de 29.09.2007, Catalin Francu <[EMAIL PROTECTED]> a scris: > > Salut, > > Sunt iniţiatorul proiectului DEX online (http://dexonline.ro). Recent, > am adăugat la DEX online formele flexionare ale limbii române > (conjugările verbelor şi declinările substantivelor, adjectivelor, > pronumelor şi numeralelor). Ca şi restul bazei de date, formele > flexionare sunt disponibile sub licenţa GNU GPL. > > M-am gândit că poate putem folosi aceste date pentru un corector > ortografic pentru OpenOffice. Eu folosesc Fedora 7 şi n-am descoperit > un RPM pentru limba română. Am găsit un dicţionar la adresa > > http://diacritice.sourceforge.net/lexicoane.html > > , dar nu pare să fie parte integrantă din OpenOffice, ci doar o > contribuţie suplimentară. M-am uitat prin acele fişiere şi sunt > relativ mici: dicţionarul conţine circa 33.000 cuvinte, care includ şi > nişte forme flexionare. DEX online are 120.000 de termeni, din care > pentru circa 70.000 avem şi formele flexionare (proiectul este încă în > lucru). Cu totul, lista formelor flexionare are circa 900,000 de > elemente. La capitolul nume proprii stăm prost, pentru că DEX online > este un dicţionar explicativ şi nu conţine deloc nume proprii. > > OpenOffice parcă folosește Hunspell, MySpell fiind un derivat folosind în mozilla. Există un pachet myspell făcut de un român sportiv, disponibil pentru descărcare aici: https://addons.mozilla.org/ro/firefox/downloads/file/11512/romanian_dictionary-1.0.0-fx+zm+tb.xpi
Fișierul xpi este de fapt un zip. Dacă te uiți în cele două fișiere ro.affși ro.dic îți dai seama cam despre ce e vorba. Pe scurt, cel mai simplu lucru (evident) este de a pune absolut toate cuvintele posibile în ro.dic, lucru aproape imposibil de realizat, comprimarea acestuia se face printr-o minuțioasă treabă în ro.aff. Dacă reușești să faci dicționarul în forma myspell (ușor de testat în Firefox) se poate trece ușor la forma hunspell pentru a fi folosit în OpenOffice. Dicționarul existent este bunicel, dar baza de cuvinte e cam mică (63000 de cuvinte) și nici flexionarea nu e prea bună. =Cred= că ar trebui ca dicționarul să permită deocamdată și cuvintele scrise cu ș,ț cu sedilă și cele cu virgulă altfel vor fi niște utilizatori foarte iritați pentru că sunt puține sisteme de operare care permit introducerea caracterelor cu sedilă, dar mai ales vizualizarea lor (Windows Vista, Linux (cu efort)). Iar altă problemă este la forme noi introduse ca „nicio". Dacă ai nevoie de detalii despre subiectul ăsta, poți să mă contactezi, eu sunt interesat de baza de cuvinte și de formele flexionare pentru Firefox și pentru aspell. -- Alexandru Szasz
