[ro-dev] Thesaurus

Adrian Stoica Wed, 29 Mar 2006 04:03:02 -0800

Încerc să îmi aduc aminte ce citisem la vremea aceea despre formatul lexiconului.

Sunt două fişiere:

- th_ro_RO.dat care conţine cuvintele şi sinonimele lor

- th_ro_RO.idx care conţine indexul înregistrărilor

th_ro_RO.dat

Se poate edita cu Writer-ul. La deschidere trebuie specificat setul de caractere Eastern European (ISO-8859-2), fontul, limba română şi sfârşitul de paragraf tip LF.

Primul rând este setul de caractere.

Pe următoarele rânduri se scriu datele. În exemplul meu avem aşa:

- "aba|1", adică pentru cuvântul aba urmează un rând de sinonime

- apoi sinonimele pentru aba; sunt separate cu |

- apoi asemănător pentru abac, abai, abajur, abaldă şi abandon

- apoi "abandona|3", adică pentru cuvântul abandona urmează 3 rânduri de sinonime; fiecare din cele 3 rânduri se referă parcă la sensuri diferite ale verbului a abandona

ş.a.m.d.

th_ro_RO.idx

Primul rând este setul de caractere.

Al doilea rând este numărul de înregistrări.

Apoi urmează cuvintele şi poziţia lor în fişierul th_ro_RO.dat. Deci datele pentru aba încep la poziţia 10 din fişierul th_ro_RO.dat, pentru abac la poziţia 62 ş.a.m.d. Poziţia se calculează prin numărarea tuturor caracterelor, inclusiv a caracterelor de sfârşit de paragraf (LF).

Pentru fişierul .dat este suficient Writer-ul.

Fişierul .idx este de asemenea un fişier text, însă la un număr mare de înregistrări nu poate fi editat manual pentru că trebuie calculată poziţia înregistrărilor din .dat. Nu-mi mai aduc aminte dacă există o unelată de creare a fişierelor .idx sau am improivizat eu ceva. O să verific când ajung acasă.

Alex, îţi propun să adaugi câteva înregistrări în fişierul .dat şi să mi-l trimiţi la [EMAIL PROTECTED]. Eu îi confecţionez .idx-ul şi ţi-l trimit înapoi. O să-ţi spun şi cum l-am făcut.

[ro-dev] Thesaurus

Raspunde prin e-mail lui