Здравей, Значи списъка трябва за Т9 за Андроит на Гугъла. И трябва да бъде от 5000 най-често употребявани думи. Като предложенията започват след 2-та буква. Ако изключим трибуквените думи (понеже имат само още една буква след втората), можем да вземем 4 буквените и нагоре. Това е оригиналното задание.
Имам 2 корпуса (и аз да науча една думичка от БАН). ;) 1. Slovoto.bg (дано не ме бият, че им товарих сървъра в рамките на няколко часа) - 11 милиона думи. Нямам на идея кои произведения са сканирани, ама чорбаджия и Огнянов ги има. ;))) 2. Един новинарски сайт с новини във всички области, а не само политика - 10 милиона думи + коментарите след новините. Резултатите са от двата корпуса. Имам ги отделно все още корпусите де. Проблемът с основните форми и граматически модул, който да предсказва коя форма ти трябва е доста сложен. Първо такъв модул няма. Даже и БАН нямат, май. Теоретично може да се напише. Данните ги има. Но нямам време и чак такива задълбочени знанията как да стане. Другият проблем в тази област е, че при ограничението от 5000 думи може предната дума да я няма в списъка и да не знаеш коя форма на думата да предложиш. Т.е. ако ще има такъв модул, то му трябват значително повече от 5000 думи. Може би мин 20 000 думи. За основната форма и производните и аз го мислих как е най-практично да бъде. И те това измислих: На част от съществителните и прилагателните производните им форми се образуват само чрез добавяне на наставки след основната форма - красив (а, о, и, ия, ият, ата, ото, ите). Тези може да ги добавим само в основна форма и да оставим на потребителя да си допише правилната наставка , ако не го мързи. ;) За останалите си нямам на идея кое е по-добре - да добавим формата според честота и или да добавим основната форма. За такива, които са прилагателни и наречия забелязвам, че наречията (пр. ср.р. ед.ч.) са доста по-напред в списъка (краен, крайно, примерно). Което допълнително усложнява нещата с още едно условие - ако е наречие, влиза така. Айде това е лесно. Но остава проблемът с другите форми и типове - един класически казус - български, българска, българско... се срещат почти всички форми с различна честото, но влизат в 5000 списъка. От друга страна пък някои глаголи в 3 л. ед.ч. са доста по-често срещани - каза с/у казвам. А други пък се срещат по-често в 1 л. ед.ч. Та тези май ще се карат по честота на срещане в корпусите. ;) И в крайна сметка, ако запазим нещата простички - пускаме първите 5000 от списъка и това е. Поздрави, 2009/9/7 Ivan Ivanov <[email protected]>: > На Mon, 7 Sep 2009 15:01:32 +0300 > Radostin Radnev <[email protected]> написа: > >> Първи резултати, >> >> http://bgoffice.svn.sourceforge.net/viewvc/bgoffice/trunk/words_frequency/ >> > Здравей! > > Още като пусна запитването тук, ми стана интересно, но за съжаление до > края на месеца съм много зает и по никакъв начин не бих могъл да се > включа да помагам… > > Струва ми се обаче, че за такъв списък е редно да взимаш само основните > форми на думите (лема). Т.е. трябва да направиш допълнителен филтър, с > който да разакараш формите за множествено число, определителните > членове, да вземеш предвид родовете, формите за минало време… > > Виждам също, че като дума имаш „й“ (подозирам, че това е ѝ), но нали се > сещаш, че такава дума нямаме :) Ако ще минаваш през филтър за > правописа, отиде в киреча тази прекрасна съкратена форма за женски род. > > Също по принцип се използват предварително подбрани текстови корпуси по > различни критерии, с което ще си осигуриш по-голяма достоверност. > Защото сега всъщност един вид нямаш много ясна идея откъде си ги взел > тези думи. > > Сега препрочетох първото ти писмо и видях, че списъка ти трябва за T9 > функционалност. > > При това положение, трябва да имаш предвид, че формите наистина ти > трябват, но това коя форма на дадената дума ще се използва е много > рисковано да се прави на принцип честотата на употреба. Трябва да се > заложи в приложението една основна граматика, чрез която да се правят > съгласуванията на база на вече въведения текст, примерно: > > „Аз отив(ам) да ям, докато ти си свър(шиш) работата“ > (в кавички съм сложил пример за това, което системата допълва) > Преценката за формата идва от местоимението, което е въведено преди > това. А това на коя дума ще вземеш формата за първо лице единствено > число (отивам) се решава чрез честотата. > > Що се отнася до споменатите текстови корпуси, ако вземеш за източник > Под игото, определено няма да върши работа на тийнчетата, които ще се > възползват от системата. Най-добре е да вземеш текстове, писани след > 90, още по-добре ако имаш избор – след 2000 година, най-вече > по-разговорни текстове – вестникарски статии, списания, с > художествената литература по-скоро трябва да се внимава. > > БАН имат разни текстови корпуси, но не знам до колко биха ти позволили > свободно да ги използваш. > > http://dcl.bas.bg/ ето това е сайта (обновили са го…) на секцията по > компютърна лингвистика, която се занимава с това, с което и ти вмомента. > Може да се опиташ да ги изнудиш за съдействие, но по-скоро няма надежда > да ти помогнат… > > Съжалявам, че вместо да помогна, ти давам акъл за повече работа :) Ако > след месец не си приключил с проекта, може да ударя едно рамо. > > Поздрави! > > Ванката > _______________________________________________ > Dict mailing list > [email protected] > http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict > _______________________________________________ Dict mailing list [email protected] http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict
