Dintr-o listă completă de cuvinte care conţine şi formele fexionate se pot
obţine pe bază de algoritm reguli bazate strict pe ideea de compresie.
În lipsa formelor flexionate însă, regulile gramaticale ajută la mărirea
considerabilă a numărului de cuvinte din dicţionar.
----- Original Message -----
From: "Ionut Paduraru" <[EMAIL PROTECTED]>
To: <[email protected]>
Sent: Friday, April 27, 2007 3:29 PM
Subject: Re: [ro-dev] Corectorul ortografic (myspell/hunspell dictionaries)
Dispun de o listă destul de completă de cuvinte din limba română (inclusiv
forme flexionare). Cum pot ajunge de la această listă la un dicţionar
ortografic? Trebuie să elimin intrările care se pot determina pe baza
regulilor? Şi dacă da, cum obţin regulile?
Nu ştiu cum funcţionează corectorul ortografic, dar bănuiesc că o listă de
câteva sute de mii de cuvinte ar întreuna foarte mult viteza de procesare.
Mă poate ajuta cineva?
Ionuţ Păduraru.
On 27/04/07, Sorin Sbarnea <[EMAIL PROTECTED]> wrote:
Salutari,
M-am gandit sa va dau cateva hinturi legate de dictionarul ortografic:
affix-urile sunt folosite doar pentru a compresa dictionarul si nu
trebuie sa replice toate regulile gramaticale ci este doar un "algoritm"
de compresie a unui dictionar ortografic sortat. (20 de reguli sunt
arhi-suficiente pentru compresie).
Numarul de reguli introduse nu trebuie sa fie prea mare deoarece va
scadea exponential viteza de cautare in dictionar.
PS. Realizarea unui dictionar folosind colectii de texte ar fi o mare
greseala deoarece greselile identice sunt frecvente si nu vor putea fi
identificare prin metode statistice.
Acum daca colectia de texte ar fi un dictionar ortografic al limbii
romane ar putea fi un punct de pornire ;)
Sorin Sbarnea
---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]