На Mon, 7 Sep 2009 15:01:32 +0300 Radostin Radnev <[email protected]> написа:
> Първи резултати, > > http://bgoffice.svn.sourceforge.net/viewvc/bgoffice/trunk/words_frequency/ > Здравей! Още като пусна запитването тук, ми стана интересно, но за съжаление до края на месеца съм много зает и по никакъв начин не бих могъл да се включа да помагам… Струва ми се обаче, че за такъв списък е редно да взимаш само основните форми на думите (лема). Т.е. трябва да направиш допълнителен филтър, с който да разакараш формите за множествено число, определителните членове, да вземеш предвид родовете, формите за минало време… Виждам също, че като дума имаш „й“ (подозирам, че това е ѝ), но нали се сещаш, че такава дума нямаме :) Ако ще минаваш през филтър за правописа, отиде в киреча тази прекрасна съкратена форма за женски род. Също по принцип се използват предварително подбрани текстови корпуси по различни критерии, с което ще си осигуриш по-голяма достоверност. Защото сега всъщност един вид нямаш много ясна идея откъде си ги взел тези думи. Сега препрочетох първото ти писмо и видях, че списъка ти трябва за T9 функционалност. При това положение, трябва да имаш предвид, че формите наистина ти трябват, но това коя форма на дадената дума ще се използва е много рисковано да се прави на принцип честотата на употреба. Трябва да се заложи в приложението една основна граматика, чрез която да се правят съгласуванията на база на вече въведения текст, примерно: „Аз отив(ам) да ям, докато ти си свър(шиш) работата“ (в кавички съм сложил пример за това, което системата допълва) Преценката за формата идва от местоимението, което е въведено преди това. А това на коя дума ще вземеш формата за първо лице единствено число (отивам) се решава чрез честотата. Що се отнася до споменатите текстови корпуси, ако вземеш за източник Под игото, определено няма да върши работа на тийнчетата, които ще се възползват от системата. Най-добре е да вземеш текстове, писани след 90, още по-добре ако имаш избор – след 2000 година, най-вече по-разговорни текстове – вестникарски статии, списания, с художествената литература по-скоро трябва да се внимава. БАН имат разни текстови корпуси, но не знам до колко биха ти позволили свободно да ги използваш. http://dcl.bas.bg/ ето това е сайта (обновили са го…) на секцията по компютърна лингвистика, която се занимава с това, с което и ти вмомента. Може да се опиташ да ги изнудиш за съдействие, но по-скоро няма надежда да ти помогнат… Съжалявам, че вместо да помогна, ти давам акъл за повече работа :) Ако след месец не си приключил с проекта, може да ударя едно рамо. Поздрави! Ванката _______________________________________________ Dict mailing list [email protected] http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict
