Descarcă http://lingucomponent.openoffice.org/MySpell-3.zip şi caută în
>>pachet "munch". Este scris în C. Nu l-am studiat, dar cred că conţine >> algoritmul de compresie.
Da, funcţionează. Din fişierul iniţial de 6M am obţinut un fişier de 2,6M. A fost nevoie însă de un fişier .aff - l-am folosit pe cel existent (cel de la http://www.cuvinte.ro/ooo). Din câte am observat funcţionează bine - nu sunt pierderi de cuvinte şi nici adăugiri. Deci suntem pe drumul cel bun. Pentru cei interesaşi, am publicat dicţionarul la adresa http://www.archeus.ro/Download/OpenOffice/CorectorOrtografic/1.1/ro_RO.zip On 30/04/07, Adrian Stoica <[EMAIL PROTECTED]> wrote:
----- Original Message ----- From: "Ionut Paduraru" <[EMAIL PROTECTED]> To: <[email protected]> Sent: Friday, April 27, 2007 9:11 PM Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell dictionaries) >>> >> Dintr-o listă completă de cuvinte care conţine şi formele fexionate >>> >> se > pot >>> >> obţine pe bază de algoritm reguli bazate strict pe ideea de >>> >> compresie. >>> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare, > aici însă rezultatele ar fi departe de aşteptări > Dacă mă gândesc mai bine... poate că mă înşel... Despre ce algoritm este > vorba? Este deja implementat sau este încă la nivel teoretic. Adrian, îmi > poţi da mai multe detalii? Descarcă http://lingucomponent.openoffice.org/MySpell-3.zip şi caută în pachet "munch". Este scris în C. Nu l-am studiat, dar cred că conţine algoritmul de compresie. Eu nu am folosit decât "unmunch" pentru verificare.Pentru unmunch, sintaxa este "unmunch ro_RO.dic ro_RO.aff > ro_RO.txt", unde primul parametru este dicţionarul (sau partea din dicţionar pe care vrei să o verifici), al doilea parametru definiţiile de afixe. Rezultatul este lista de cuvinte. Munch procedează invers: având lista completă de cuvinte încearcă să comprime dicţionarul creând definiţii de afixe. Definiţiile astfel create nu au o logică gramaticală ci încearcă doar să facă un dicţionar mai mic decât lista completă de cuvinte. Presupun că dacă îi dau o listă de cuvinte de genul: pom, pomi, stejar, stejari, salcâm, salcâmi, va genera un dicţionar de 3 cuvinte pom, stejar, salcâm şi un sufix i pentru cele 3 cuvinte de bază. Nu am verificat asta. Este doar o presupunere. Oricum programul există şi dacă şti C, îl poţi studia. În cazul în care ai lista completă de cuvinte, compilează-l şi foloseşte-l. Dacă nu, atunci cred că e mai bună varianta pe care am mers eu, cea cu crearea aff-ului manual. > > > On 27/04/07, Ionut Paduraru <[EMAIL PROTECTED]> wrote: >> >> >> Dintr-o listă completă de cuvinte care conţine şi formele fexionate se >> pot >> >> obţine pe bază de algoritm reguli bazate strict pe ideea de compresie. >> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare, >> aici >> însă rezultatele ar fi departe de aşteptări. >> >> On 27/04/07, Adrian Stoica <[EMAIL PROTECTED]> wrote: >> > >> > Dintr-o listă completă de cuvinte care conţine şi formele fexionate se >> > pot >> > obţine pe bază de algoritm reguli bazate strict pe ideea de compresie. >> > În lipsa formelor flexionate însă, regulile gramaticale ajută la >> > mărirea >> > >> > considerabilă a numărului de cuvinte din dicţionar. >> > >> > ----- Original Message ----- >> > From: "Ionut Paduraru" <[EMAIL PROTECTED]> >> > To: < [email protected]> >> > Sent: Friday, April 27, 2007 3:29 PM >> > Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell >> > dictionaries) >> > >> > >> > > Dispun de o listă destul de completă de cuvinte din limba română >> > (inclusiv >> > > forme flexionare). Cum pot ajunge de la această listă la un dicţionar >> > > ortografic? Trebuie să elimin intrările care se pot determina pe baza >> > > regulilor? Şi dacă da, cum obţin regulile? >> > > Nu ştiu cum funcţionează corectorul ortografic, dar bănuiesc că o >> > listă de >> > > câteva sute de mii de cuvinte ar întreuna foarte mult viteza de >> > procesare. >> > > Mă poate ajuta cineva? >> > > >> > > Ionuţ Păduraru. >> > > >> > > >> > > >> > > On 27/04/07, Sorin Sbarnea < [EMAIL PROTECTED]> wrote: >> > >> >> > >> Salutari, >> > >> >> > >> M-am gandit sa va dau cateva hinturi legate de dictionarul >> > ortografic: >> > >> affix-urile sunt folosite doar pentru a compresa dictionarul si nu >> > >> trebuie sa replice toate regulile gramaticale ci este doar un >> > "algoritm" >> > >> de compresie a unui dictionar ortografic sortat. (20 de reguli sunt >> > >> arhi-suficiente pentru compresie). >> > >> >> > >> Numarul de reguli introduse nu trebuie sa fie prea mare deoarece va >> > >> scadea exponential viteza de cautare in dictionar. >> > >> >> > >> PS. Realizarea unui dictionar folosind colectii de texte ar fi o >> > >> mare >> > >> > >> greseala deoarece greselile identice sunt frecvente si nu vor putea >> > fi >> > >> identificare prin metode statistice. >> > >> >> > >> Acum daca colectia de texte ar fi un dictionar ortografic al limbii >> > >> romane ar putea fi un punct de pornire ;) >> > >> >> > >> Sorin Sbarnea >> > >> >> > >> >> > > >> > >> > --------------------------------------------------------------------- >> > To unsubscribe, e-mail: [EMAIL PROTECTED] >> > For additional commands, e-mail: [EMAIL PROTECTED] >> > >> > >> > --------------------------------------------------------------------- To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]
