Re: [Dict] Честота на употреба на думи

Radostin Radnev Mon, 07 Sep 2009 08:20:11 -0700

Здравей,

Значи списъка трябва за Т9 за Андроит на Гугъла. И трябва да бъде от
5000 най-често употребявани думи. Като предложенията започват след
2-та буква. Ако изключим трибуквените думи (понеже имат само още една
буква след втората), можем да вземем 4 буквените и нагоре. Това е
оригиналното задание.


Имам 2 корпуса (и аз да науча една думичка от БАН). ;)
1. Slovoto.bg (дано не ме бият, че им товарих сървъра в рамките на
няколко часа) - 11 милиона думи. Нямам на идея кои произведения са
сканирани, ама чорбаджия и Огнянов ги има. ;)))
2. Един новинарски сайт с новини във всички области, а не само
политика - 10 милиона думи + коментарите след новините.

Резултатите са от двата корпуса. Имам ги отделно все още корпусите де.

Проблемът с основните форми и граматически модул, който да предсказва
коя форма ти трябва е доста сложен. Първо такъв модул няма. Даже и БАН
нямат, май. Теоретично може да се напише. Данните ги има. Но нямам
време и чак такива задълбочени знанията как да стане. Другият проблем
в тази област е, че при ограничението от 5000 думи може предната дума
да я няма в списъка и да не знаеш коя форма на думата да предложиш.
Т.е. ако ще има такъв модул, то му трябват значително повече от 5000
думи. Може би мин 20 000 думи.

За основната форма и производните и аз го мислих как е най-практично
да бъде. И те това измислих:

На част от съществителните и прилагателните производните им форми се
образуват само чрез добавяне на наставки след основната форма - красив
(а, о, и, ия, ият, ата, ото, ите). Тези може да ги добавим само в
основна форма и да оставим на потребителя да си допише правилната
наставка , ако не го мързи. ;)

За останалите си нямам на идея кое е по-добре - да добавим формата
според честота и или да добавим основната форма. За такива, които са
прилагателни и наречия забелязвам, че наречията (пр. ср.р. ед.ч.) са
доста по-напред в списъка (краен, крайно, примерно). Което
допълнително усложнява нещата с още едно условие - ако е наречие,
влиза така. Айде това е лесно. Но остава проблемът с другите форми и
типове - един класически казус - български, българска, българско... се
срещат почти всички форми с различна честото, но влизат в 5000
списъка.

От друга страна пък някои глаголи в 3 л. ед.ч. са доста по-често
срещани - каза с/у казвам. А други пък се срещат по-често в 1 л. ед.ч.
Та тези май ще се карат по честота на срещане в корпусите. ;)

И в крайна сметка, ако запазим нещата простички - пускаме първите 5000
от списъка и това е.


Поздрави,










2009/9/7 Ivan Ivanov <[email protected]>:
> На Mon, 7 Sep 2009 15:01:32 +0300
> Radostin Radnev <[email protected]> написа:
>
>> Първи резултати,
>>
>> http://bgoffice.svn.sourceforge.net/viewvc/bgoffice/trunk/words_frequency/
>>
> Здравей!
>
> Още като пусна запитването тук, ми стана интересно, но за съжаление до
> края на месеца съм много зает и по никакъв начин не бих могъл да се
> включа да помагам…
>
> Струва ми се обаче, че за такъв списък е редно да взимаш само основните
> форми на думите (лема). Т.е. трябва да направиш допълнителен филтър, с
> който да разакараш формите за множествено число, определителните
> членове, да вземеш предвид родовете, формите за минало време…
>
> Виждам също, че като дума имаш „й“ (подозирам, че това е ѝ), но нали се
> сещаш, че такава дума нямаме :) Ако ще минаваш през филтър за
> правописа, отиде в киреча тази прекрасна съкратена форма за женски род.
>
> Също по принцип се използват предварително подбрани текстови корпуси по
> различни критерии, с което ще си осигуриш по-голяма достоверност.
> Защото сега всъщност един вид нямаш много ясна идея откъде си ги взел
> тези думи.
>
> Сега препрочетох първото ти писмо и видях, че списъка ти трябва за T9
> функционалност.
>
> При това положение, трябва да имаш предвид, че формите наистина ти
> трябват, но това коя форма на дадената дума ще се използва е много
> рисковано да се прави на принцип честотата на употреба. Трябва да се
> заложи в приложението една основна граматика, чрез която да се правят
> съгласуванията на база на вече въведения текст, примерно:
>
> „Аз отив(ам) да ям, докато ти си свър(шиш) работата“
> (в кавички съм сложил пример за това, което системата допълва)
> Преценката за формата идва от местоимението, което е въведено преди
> това. А това на коя дума ще вземеш формата за първо лице единствено
> число (отивам) се решава чрез честотата.
>
> Що се отнася до споменатите текстови корпуси, ако вземеш за източник
> Под игото, определено няма да върши работа на тийнчетата, които ще се
> възползват от системата. Най-добре е да вземеш текстове, писани след
> 90, още по-добре ако имаш избор – след 2000 година, най-вече
> по-разговорни текстове – вестникарски статии, списания, с
> художествената литература по-скоро трябва да се внимава.
>
> БАН имат разни текстови корпуси, но не знам до колко биха ти позволили
> свободно да ги използваш.
>
> http://dcl.bas.bg/ ето това е сайта (обновили са го…) на секцията по
> компютърна лингвистика, която се занимава с това, с което и ти вмомента.
> Може да се опиташ да ги изнудиш за съдействие, но по-скоро няма надежда
> да ти помогнат…
>
> Съжалявам, че вместо да помогна, ти давам акъл за повече работа :) Ако
> след месец не си приключил с проекта, може да ударя едно рамо.
>
> Поздрави!
>
> Ванката
> _______________________________________________
> Dict mailing list
> [email protected]
> http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict
>
_______________________________________________
Dict mailing list
[email protected]
http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict

Re: [Dict] Честота на употреба на думи

Raspunde prin e-mail lui