Din răspunsurile primite fac următoarele concluzii:
1. modul în care se lucrează asupra ro.aff e cam euristic, lipseşte o
metodologie.
Acest fapt nu ne permite să estimăm de cît timp va fi nevoie pentru
obţinerea unui corector cumsecade al limbii române.
În plus, am presimţirea că cu cît ro.dic şi ro.aff vor avansa, eficienţa
lucrului va scădea, fiindcă trebuie evitate formele
incorecte ale cuvintelor generate pentru care sunt indicaţi indicatorii
din ro.aff.
2. adăugarea indicatorului de afixe la cuvintele din ro.dic se face
manual am înţeles. Acest proces ar trebui automatizat.
E nevoie de o rezervă imensă de rabdare pentru a adăuga indicatoarele
pentru toate cuvintele din dicţionar.
Acest lucru trebuie să-l facă calculatorul.
Am de gînd să fac următoarele:
INFORMAŢIE DE INTRARE:
Pe scurt:
În teza dnei Cojocaru Svetlana care poate fi descărcată de pe
http://www.cnaa.acad.md/thesis/5844/
este suficientă informaţie pentru a ne permite să generăm seturile de
afixe şi să ataşăm indicatorii pentru cuvinte.
Pe lung:
dna Cojocaru activează în cadrul grupului de procesare a limbajului
natural al Institutului de Matematică şi Informatică.
Unul din rezultatele obţinute de acest grup este spellcheckerul pentru
MSWord.
Începutul a fost următorul (pag. 40 din teză):
"...Aşadar, propunîndu-ne drept scop realizarea modelului sintetic de
flexionare, va trebui
să elaborăm un formalism, care ar include două procedee:
- efectuarea alternantelor în rădăcină,
- concatenarea flectivului.
Punctul de pornire al abordării noastre l-a constituit dictionarul [100],
în care cuvintele flective ale limbii române sunt clasificate în
corespundere cu
modul de formare a flexiunilor. Au fost stabilite 100 grupuri de flexionare
pentru substantivele masculine, 273 pentru verbe etc. şi alcătuit un
dicţionar
de circa 30000 cuvinte cu specificarea numărului de grup..."
Referinţa 100 - A.Lombard, C.Gadei. Dictionnaire morphologique de la
langue roumaine. Bucureşti, Editura Academiei, 1981, 232 p.
În final, în pagina 43 citim:
"Integral gramatica de flexionare pentru limba română constă din 866 de
reguli gramaticale
şi 320 seturi de flective."
În anexa tezei sunt enumerate toate seturile de flective (sufixe).
Aceasta a permis generarea automată sau semi-automată uneori, a unui
dicţionar de aproape un milion de forme flexionate,
care a şi fost folosit la crearea spellcheckerului.
Faceţi click pe linkul "Word Forms" de pe http://imi201.math.md/elrr/,
introduceţi un cuvînt şi veţi obţine toate
formele sale flexionate.
PROCEDEUL:
în teză este descris un algoritm care determină seturile de sufixe şi
grupul de flexionare.
Cu alte cuvinte: dacă avem un cuvînt (e important să cunoaştem partea de
vorbire: adjectiv, verb...) atunci
în dependenţă de terminaţia acestuia, putem determina grupul său de
flexionare.
Dacă implementez algoritmul şi am un dicţionar de cuvinte în care sunt
specificate părţile de vorbire,
atunci, în baza celor 866 de reguli şi 320 seturi de flective,
voi putea genera ro.aff (nu în mod automat) şi ro.dic (în mod automat).
Dicţionarul de cuvinte îl iau din DEX.
INFORMAŢIE DE IEŞIRE:
ro.dic, ro.aff care vor putea fi folosite pentru OpenOffice, FireFox,
Thunderbird.
Cel mai important este că pentru cuvintele noi care vor fi adăugate se
vor determina în mod automat
regulile din ro.aff.
THE END.
---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]