Din răspunsurile primite fac următoarele concluzii:
1. modul în care se lucrează asupra ro.aff e cam euristic, lipseşte o metodologie. Acest fapt nu ne permite să estimăm de cît timp va fi nevoie pentru obţinerea unui corector cumsecade al limbii române. În plus, am presimţirea că cu cît ro.dic şi ro.aff vor avansa, eficienţa lucrului va scădea, fiindcă trebuie evitate formele incorecte ale cuvintelor generate pentru care sunt indicaţi indicatorii din ro.aff. 2. adăugarea indicatorului de afixe la cuvintele din ro.dic se face manual am înţeles. Acest proces ar trebui automatizat. E nevoie de o rezervă imensă de rabdare pentru a adăuga indicatoarele pentru toate cuvintele din dicţionar.
Acest lucru trebuie să-l facă calculatorul.

Am de gînd să fac următoarele:

INFORMAŢIE DE INTRARE:
Pe scurt:
În teza dnei Cojocaru Svetlana care poate fi descărcată de pe http://www.cnaa.acad.md/thesis/5844/ este suficientă informaţie pentru a ne permite să generăm seturile de afixe şi să ataşăm indicatorii pentru cuvinte.
Pe lung:
dna Cojocaru activează în cadrul grupului de procesare a limbajului natural al Institutului de Matematică şi Informatică. Unul din rezultatele obţinute de acest grup este spellcheckerul pentru MSWord.
Începutul a fost următorul (pag. 40 din teză):
"...Aşadar, propunîndu-ne drept scop realizarea modelului sintetic de flexionare, va trebui
să elaborăm un formalism, care ar include două procedee:
- efectuarea alternantelor în rădăcină,
- concatenarea flectivului.
Punctul de pornire al abordării noastre l-a constituit dictionarul [100],
în care cuvintele flective ale limbii române sunt clasificate în corespundere cu
modul de formare a flexiunilor. Au fost stabilite 100 grupuri de flexionare
pentru substantivele masculine, 273 pentru verbe etc. şi alcătuit un dicţionar
de circa 30000 cuvinte cu specificarea numărului de grup..."
Referinţa 100 - A.Lombard, C.Gadei. Dictionnaire morphologique de la langue roumaine. Bucureşti, Editura Academiei, 1981, 232 p.

În final, în pagina 43 citim:
"Integral gramatica de flexionare pentru limba română constă din 866 de reguli gramaticale
şi 320 seturi de flective."
În anexa tezei sunt enumerate toate seturile de flective (sufixe).

Aceasta a permis generarea automată sau semi-automată uneori, a unui dicţionar de aproape un milion de forme flexionate,
care a şi fost folosit la crearea spellcheckerului.

Faceţi click pe linkul "Word Forms" de pe http://imi201.math.md/elrr/, introduceţi un cuvînt şi veţi obţine toate
formele sale flexionate.

PROCEDEUL:
în teză este descris un algoritm care determină seturile de sufixe şi grupul de flexionare. Cu alte cuvinte: dacă avem un cuvînt (e important să cunoaştem partea de vorbire: adjectiv, verb...) atunci în dependenţă de terminaţia acestuia, putem determina grupul său de flexionare. Dacă implementez algoritmul şi am un dicţionar de cuvinte în care sunt specificate părţile de vorbire,
atunci, în baza celor 866 de reguli şi 320 seturi de flective,
voi putea genera ro.aff (nu în mod automat) şi ro.dic (în mod automat).
Dicţionarul de cuvinte îl iau din DEX.

INFORMAŢIE DE IEŞIRE:
ro.dic, ro.aff care vor putea fi folosite pentru OpenOffice, FireFox, Thunderbird.

Cel mai important este că pentru cuvintele noi care vor fi adăugate se vor determina în mod automat
regulile din ro.aff.

THE END.

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Raspunde prin e-mail lui