Първи резултати, http://bgoffice.svn.sourceforge.net/viewvc/bgoffice/trunk/words_frequency/
Под игото и Вазов май доста са понатежали. ;) Интересно около 5000-та най-употребявана дума е Наташа. Явно доста си падаме по девочките или съм сканирал някакъв руски роман без да забележа. ;))) А някой да знае какво е чоки? Защото също се среща около 5000-та най-употребявана дума. ;) Има и нещо грешно. Сигурно изходните данни са били грешни тук таме. Но почти всяка буква се среща като дума. Примерно думата "д". Айде за "и", "е", "а" ясно, ама "д". ;) Сканирах и един новинарски сайт с новини на различна тематика и реших да включа и коментарите - явно от там идват тези бози. За автоматично дописване като гледам има няколко стъпки още да се довършат. 1. Да се извадят първите N на брой думите, който са по-дълги от 3 (или 4) букви. Да кажем четирибуквени и нагоре думи. Даже може петбуквени и нагоре. 2. Да се пуснат през проверка на правописа и тези, които не се правилни да се отстранят (въпреки че ме съмнява, че ще има такива). Тези които са с главна буква да се оправят. За да ми е по-лесно съм работил с малки букви само и България, София и разни имена се срещат с първи малки букви. Но това се оправя лесно. 2009/9/7 Radostin Radnev <[email protected]>: > Има напредък ;) > > Сканирах няколко сайта за български думички. Няма да казвам кой, за да > не ме бият, че съм им товарил хостовете. ;) > > Събирал съм думи избирателно, защото често в заглавната част, в > долната част и в менютата една и съща дума се повтаря многократно. Та > е сканирано всичко, което е съдържание. Проста проверка да е в между > <p> и </p> върши отлична работа. ;) > > Имам около 20 милиона думички. Днеска мисля да пусна скриптове да ги > обработват и да имам някакъв резултат към края на деня. ;) > > > ItaEst се разпространява свободно, но кодът и данните не са свободни. > Трябва да се декомпилира (деасемблира), за да се изкарат някакви > данни. Предпочитам да си събера думичките сам. ;) > > > Лек ден, > > > > > 2009/9/7 Nick <[email protected]>: >> On 09/07/2009 04:05 AM, Валерий Вутов wrote: >> >>> Здравейте, >> >>> ... >>> Ако някои си има на идея дали има такова нещо някъде под свободен лиценз да >>> свирка. >>> ... >> >>> В "джам" среда (всички версии) има един коректор (свободен лиценз) за >>> проверка и корекция на правопис ItaEst >> >> само дето последния път, когато инсталирах ItaEst, той все още беше само >> за офисния пакет на Microsoft. бях предложил на авторите да го направят >> и за OpenOffice (тогава май нямаше читаво сричкопренасяне там), но не >> знам дали са го направили. >> >> -- >> the lunatics are in my head >> --------------------------- >> Nick Angelow >> _______________________________________________ >> Dict mailing list >> [email protected] >> http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict >> > _______________________________________________ Dict mailing list [email protected] http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict
