Re: [ro-dev] Corectorul ortografic (myspell/hunspell dictionaries)

Ionut Paduraru Wed, 02 May 2007 09:08:25 -0700

Descarcă http://lingucomponent.openoffice.org/MySpell-3.zip şi caută în

>>pachet "munch". Este scris în C. Nu l-am studiat, dar cred că conţine
>> algoritmul de compresie.


Da, funcţionează. Din fişierul iniţial de 6M am obţinut un fişier de 2,6M. A
fost nevoie însă de un fişier .aff - l-am folosit pe cel existent (cel de la
http://www.cuvinte.ro/ooo).
Din câte am observat funcţionează bine - nu sunt pierderi de cuvinte şi nici
adăugiri. Deci suntem pe drumul cel bun.

Pentru cei interesaşi, am publicat dicţionarul la adresa
http://www.archeus.ro/Download/OpenOffice/CorectorOrtografic/1.1/ro_RO.zip


On 30/04/07, Adrian Stoica <[EMAIL PROTECTED]> wrote:


----- Original Message -----
From: "Ionut Paduraru" <[EMAIL PROTECTED]>
To: <[email protected]>
Sent: Friday, April 27, 2007 9:11 PM
Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell
dictionaries)


>>> >> Dintr-o listă completă de cuvinte care conţine şi formele fexionate
>>> >> se
> pot
>>> >> obţine pe bază de algoritm reguli bazate strict pe ideea de
>>> >> compresie.
>>> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare,
> aici însă rezultatele ar fi departe de aşteptări
> Dacă mă gândesc mai bine... poate că mă înşel... Despre ce algoritm este
> vorba? Este deja implementat sau este încă la nivel teoretic. Adrian,
îmi
> poţi da mai multe detalii?

Descarcă http://lingucomponent.openoffice.org/MySpell-3.zip şi caută în
pachet "munch". Este scris în C. Nu l-am studiat, dar cred că conţine
algoritmul de compresie.
Eu nu am folosit decât "unmunch" pentru verificare.Pentru unmunch, sintaxa
este "unmunch ro_RO.dic ro_RO.aff > ro_RO.txt", unde primul parametru este
dicţionarul (sau partea din dicţionar pe care vrei să o verifici), al
doilea
parametru definiţiile de afixe. Rezultatul este lista de cuvinte. Munch
procedează invers: având lista completă de cuvinte încearcă să comprime
dicţionarul creând definiţii de afixe. Definiţiile astfel create nu au o
logică gramaticală ci încearcă doar să facă un dicţionar mai mic decât
lista
completă de cuvinte. Presupun că dacă îi dau o listă de cuvinte de genul:
pom, pomi, stejar, stejari, salcâm, salcâmi, va genera un dicţionar de 3
cuvinte pom, stejar, salcâm şi un sufix i pentru cele 3 cuvinte de bază.
Nu
am verificat asta. Este doar o presupunere. Oricum programul există şi
dacă
şti C, îl poţi studia.
În cazul în care ai lista completă de cuvinte, compilează-l şi
foloseşte-l.
Dacă nu, atunci cred că e mai bună varianta pe care am mers eu, cea cu
crearea aff-ului manual.

>
>
> On 27/04/07, Ionut Paduraru <[EMAIL PROTECTED]> wrote:
>>
>> >> Dintr-o listă completă de cuvinte care conţine şi formele fexionate
se
>> pot
>> >> obţine pe bază de algoritm reguli bazate strict pe ideea de
compresie.
>> Nu sunt de-acord. Compresia este bună în cazul motoarelor de căutare,
>> aici
>> însă rezultatele ar fi departe de aşteptări.
>>
>> On 27/04/07, Adrian Stoica <[EMAIL PROTECTED]> wrote:
>> >
>> > Dintr-o listă completă de cuvinte care conţine şi formele fexionate
se
>> > pot
>> > obţine pe bază de algoritm reguli bazate strict pe ideea de
compresie.
>> > În lipsa formelor flexionate însă, regulile gramaticale ajută la
>> > mărirea
>> >
>> > considerabilă a numărului de cuvinte din dicţionar.
>> >
>> > ----- Original Message -----
>> > From: "Ionut Paduraru" <[EMAIL PROTECTED]>
>> > To: < [email protected]>
>> > Sent: Friday, April 27, 2007 3:29 PM
>> > Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell
>> > dictionaries)
>> >
>> >
>> > > Dispun de o listă destul de completă de cuvinte din limba română
>> > (inclusiv
>> > > forme flexionare). Cum pot ajunge de la această listă la un
dicţionar
>> > > ortografic? Trebuie să elimin intrările care se pot determina pe
baza
>> > > regulilor? Şi dacă da, cum obţin regulile?
>> > > Nu ştiu cum funcţionează corectorul ortografic, dar bănuiesc că o
>> > listă de
>> > > câteva sute de mii de cuvinte ar întreuna foarte mult viteza de
>> > procesare.
>> > > Mă poate ajuta cineva?
>> > >
>> > > Ionuţ Păduraru.
>> > >
>> > >
>> > >
>> > > On 27/04/07, Sorin Sbarnea < [EMAIL PROTECTED]> wrote:
>> > >>
>> > >> Salutari,
>> > >>
>> > >> M-am gandit sa va dau cateva hinturi legate de dictionarul
>> > ortografic:
>> > >> affix-urile sunt folosite doar pentru a compresa dictionarul si nu
>> > >> trebuie sa replice toate regulile gramaticale ci este doar un
>> > "algoritm"
>> > >> de compresie a unui dictionar ortografic sortat. (20 de reguli
sunt
>> > >> arhi-suficiente pentru compresie).
>> > >>
>> > >> Numarul de reguli introduse nu trebuie sa fie prea mare deoarece
va
>> > >> scadea exponential viteza de cautare in dictionar.
>> > >>
>> > >> PS. Realizarea unui dictionar folosind colectii de texte ar fi o
>> > >> mare
>> >
>> > >> greseala deoarece greselile identice sunt frecvente si nu vor
putea
>> > fi
>> > >> identificare prin metode statistice.
>> > >>
>> > >> Acum daca colectia de texte ar fi un dictionar ortografic al
limbii
>> > >> romane ar putea fi un punct de pornire ;)
>> > >>
>> > >> Sorin Sbarnea
>> > >>
>> > >>
>> > >
>> >
>> > ---------------------------------------------------------------------
>> > To unsubscribe, e-mail: [EMAIL PROTECTED]
>> > For additional commands, e-mail: [EMAIL PROTECTED]
>> >
>> >
>>
>

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Re: [ro-dev] Corectorul ortografic (myspell/hunspell dictionaries)

Raspunde prin e-mail lui