Nu, în DEX '98 erau vreo 65.000 de definiţii. DEX online conţine cu
totul 360.000 de definiţii, dar evident multe sunt pentru acelaşi
cuvânt, din dicţionare diferite.

Lista pe care am publicat-o e făcută cu un query la repezeală şi nu
filtrează nişte lexeme care ar trebui filtrate. Bunăoară, oricine
poate trimite o definiţie la mişto pentru cuvântul "bibibububobo", caz
în care noi creăm lexemul, dar el nu este asociat cu nici o definiţie
activă, ci doar cu una temporară (nemoderată). Ulterior, definiţia
este respinsă (ştearsă), iar lexemul, nemaifiind asociat cu nici o
definiţie, poate fi şters. Deci lista respectivă ar trebui filtrată
după criteriul "lexeme asociate cu definiţii active", care ar mai tăia
vreo mie de lexeme.

Cătălin

On 10/2/07, Alexandru Szasz <[EMAIL PROTECTED]> wrote:
> Şi sunt multe „cuvinte" ciudate pe acolo, cum ar fi „aagăţaremorca"
> scris întocmail „ab ovo" (cu spaţiu), care par mai degrabă expresii.
>
> În data de 03.10.2007, Alexandru Szasz <[EMAIL PROTECTED]> a scris:
> > De ce în lexems sunt doar 136336 de cuvinte? Parcă în DEX98 erau vreo
> > 200 de mii şi ceva, sau mă înşel ?
> >
> > În data de 02.10.2007, Catalin Francu <[EMAIL PROTECTED]> a scris:
> > > Salut,
> > >
> > > Am tăcut mâlc vreo două zile :) Dacă aveți mysql instalat, puteți
> > > downloada baza de date de la
> > > http://dexonline.ro/download/dex-database.sql.gz . Structura
> > > tabelelor, foarte pe scurt, este:
> > >
> > > - lexems: cuvintele în forma de bază
> > > - wordlist: formele flexionare
> > > - inflection: diversele flexiuni existente, de exemplu "substantiv
> > > neutru, nominativ-acuzativ, singular, nearticulat"
> > > - LexemDefinitionMap: mapează lexeme la definiții (many-to-many)
> > >
> > > Câmpul lexem_model_type indică tipul lexemului: A = adjectiv, M/F/N =
> > > substantiv masc./fem./neutru, V = verb, VT = verb tranzitiv
> > > (participiul se declină ca adjectiv), I = invariabil, P =
> > > pronume/numeral, T = temporar (încă neetichetat).
> > >
> > > De exemplu, lista completă de lexeme ar fi
> > >
> > > select lexem_neaccentuat from lexems;
> > >
> > > iar lista completă de flexiuni, cu forme de bază și modul de derivare ar 
> > > fi:
> > >
> > > select wl_neaccentuat, lexem_neaccentuat, infl_descr from wordlist,
> > > lexems, inflections where wl_lexem = lexem_id and wl_analyse = infl_id
> > > order by wl_neaccentuat;
> > >
> > > Dacă nu aveți mysql, am pus aceste liste la
> > > http://voronet.francu.com/~cata/cuvinte.txt și respectiv
> > > http://voronet.francu.com/~cata/flexiuni.zip . De remarcat că acolo
> > > sunt incluse și cuvinte trimise, dar încă nemoderate (circa 1000). Se
> > > pot filtra și alea, cu niște query-uri mai complexe un pic.
> > >
> > > Cum vi se pare? Chiar sunt curios, eu am așteptări mari de la acest
> > > generator. :)
> > >
> > > Cătălin
> > >
> > > On 10/1/07, Alexandru Szasz <[EMAIL PROTECTED]> wrote:
> > > > În data de 01.10.2007, Alexandru Szasz <[EMAIL PROTECTED]> a scris:
> > > > > În data de 30.09.2007, struct bylighting <[EMAIL PROTECTED]> a scris:
> > > > > > ...
> > > > > >
> > > > > > Pentru commabelow trebuie schimbat in iso8859-16
> > > > > >
> > > > >
> > > > > N-aș vrea să folosesc ISO-8859-16, n-aș vrea să folosesc niciun iso,
> > > > > nu sunt de acord cu posibilitatea de a afișa doar o limbă la un moment
> > > > > dat, deci aș folosi UTF-8, crezi că e vreo problemă în aspell? În
> > > > > myspell/hunspell am văzut că nu este.
> > > > >
> > > > > O să încerc să pun la punct o interfață cât pot de repede unde se
> > > > > poate vizualiza/edita/adăuga la lista de cuvinte, dar ar fi excelent
> > > > > dacă aș putea conecta-o la lista de cuvinte a dexonline-ului fără a
> > > > > descărca întreaga bază de date mereu să văd dacă au apărut schimbări.
> > > > >
> > > > > --
> > > > > Alexandru Szasz
> > > > >
> > > >
> > > > Am realizat interfaţa de care vorbeam, o s-o fac publică în curând.
> > > > Dintre listele care le-am folosit până acum, cea a lui Ionuţ Păduraru
> > > > are problema că este mult prea mare datorită faptului că nu prea a
> > > > folosit fişierul .aff .
> > > > Lista lui Lucian conţine nişte cuvinte cu - care din câte am testat eu
> > > > nu sunt necesare.
> > > >
> > > > Dacă Cătălin mai e prin preajmă şi poate trimite o listă completă de
> > > > cuvinte (fără definiţii) din DEX98 ar fi excelent. Ultima dată când am
> > > > încercat eu să extrag aşa ceva din DEX98 am găsit nişte cuvinte scrise
> > > > greşit pe care nu le-am putut izola după nişte parametrii.
> > > >
> > > > Dacă mai are altcineva alte liste separate cu nume proprii, nume de
> > > > oraşe, ţări, etc. poate să mi le trimită pe e-mail să mai testez
> > > > interfaţa cu ele.
> > > >
> > > > --
> > > > Alexandru Szasz
> > > >
> > >
> >
> >
> > --
> > Alexandru Szasz
> >
>
>
> --
> Alexandru Szasz
>

Raspunde prin e-mail lui