|
Încerc să îmi aduc aminte ce citisem la vremea aceea despre formatul
lexiconului.
Sunt două fişiere:
- th_ro_RO.dat care conţine cuvintele şi sinonimele
lor
- th_ro_RO.idx care conţine indexul
înregistrărilor
th_ro_RO.dat
Se poate edita cu Writer-ul. La deschidere trebuie specificat setul de
caractere Eastern European (ISO-8859-2), fontul, limba română şi sfârşitul de
paragraf tip LF.
Primul rând este setul de caractere.
Pe următoarele rânduri se scriu datele. În exemplul meu avem aşa:
- "aba|1", adică pentru cuvântul aba urmează un rând de sinonime
- apoi sinonimele pentru aba; sunt separate cu |
- apoi asemănător pentru abac, abai, abajur, abaldă şi abandon
- apoi "abandona|3", adică pentru cuvântul abandona urmează 3 rânduri de
sinonime; fiecare din cele 3 rânduri se referă parcă la sensuri diferite ale
verbului a abandona
ş.a.m.d.
th_ro_RO.idx
Primul rând este setul de caractere.
Al doilea rând este numărul de înregistrări.
Apoi urmează cuvintele şi poziţia lor în fişierul th_ro_RO.dat. Deci datele
pentru aba încep la poziţia 10 din fişierul th_ro_RO.dat, pentru abac la poziţia
62 ş.a.m.d. Poziţia se calculează prin numărarea tuturor caracterelor, inclusiv
a caracterelor de sfârşit de paragraf (LF).
Pentru fişierul .dat este suficient Writer-ul.
Fişierul .idx este de asemenea un fişier text, însă la un număr mare de
înregistrări nu poate fi editat manual pentru că trebuie calculată poziţia
înregistrărilor din .dat. Nu-mi mai aduc aminte dacă există o unelată de
creare a fişierelor .idx sau am improivizat eu ceva. O să verific când ajung
acasă.
Alex, îţi propun să adaugi câteva înregistrări în fişierul .dat şi să mi-l
trimiţi la [EMAIL PROTECTED]. Eu îi
confecţionez .idx-ul şi ţi-l trimit înapoi. O să-ţi spun şi cum l-am
făcut. |
- [ro-dev] Thesaurus Adrian Stoica
- [ro-dev] thesaurus Lucian Constantin
