Привет отново!

 >Ако всичко е набутано в разни dll-и и други двоични файлове

E. :-)

 >и ако имаш някакъв успех, пиши.

Имам *някакъв*. Мисля, че успях да извлека по-голямата част от низовете на ГПИ 
(може дори да са всички, ама с тия двоични файлове знае ли човек…). С помощта 
не ми се получава засега, ако успея да постигна някакъв резултат с разумни 
усилия, ще пиша допълнително.

От обединяването на извлечените текстови файлове за ГПИ се получиха 79 732 
реда. Изглежда низовете са по един на ред (доколкото видях, използват „\n“ за 
нов ред вътре в низ, ако е необходимо). Приблизителният брой на думите е около 
567 700, а на знаците – около 3,77 млн. с интервалите и 3,27 млн. – без тях.

Допълнително има малко HTML и XML файлове с около 350 преведени низа в тях (тук 
оценката е доста груба, понеже просто разкарах всичко, което не е кирилица и 
интервали, и преброих каквото остана). Думите на кирилица в тези файлове 
възлизат на около 1980 (~11 200 знака, ~13 000 с интервалите).

Може би огромният обем на пакета се дължи до известна степен на помощта, макар 
че като че ли не може да оправдае 247 МБ в декомпресиран вид… Има голямо 
количество DLL файлове, в които не успях да открия български текст, но може да 
е компресиран или шифрован.

Ще опитам да измисля нещо за помощта.
_______________________________________________
Dict mailing list
[email protected]
http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict

Raspunde prin e-mail lui