Здравейте, Една интересна задача.
Един колега участва под някаква форма в проекта Android на Google. Та преди време ме пита за речника дали може да го ползва за нещо там. Сега обаче идеята е да се вкара дописване на думи (T9 - май така беше известно) и ме пита за най-често употребяваните 5000 думи. Ако някои си има на идея дали има такова нещо някъде под свободен лиценз да свирка. Аз се сещам за БАН, че имаха една проверка на правописа под MS Word, която ползва и честотата на употреба на думите. Въпреки, че се разпространява свободно, кодът и тези данни не се разпространяват. Гугъл също би трябвало да има подобна статистика и при това ако се търси само за сайтове от България и/или сайтове на български език (за да изключим другите, които ползват кирилица) - би трябвало да даде точна информация за честотата на употреба на дадена дума. Има и вариант да си направим за наша употреба. Т.е. замислям се да събера подобна статистика и да я кача на БГ офис сайта под GPL2 или по-нов лиценз. ;) Събирането на думичките и анализирането и пр. не е проблем. Проблемът е в това да се определят критерии какво ще се сканира в Нета: 1. Сайтове - какви, с каква насоченост. 2. Форуми - с каква насоченост. 3. Има една виртуална библиотека с качени произведения на български автори. Отделно от друга страна има и проблем къде ще се използва това. Една колежка разправяше, че сина и 1-2 клас има проблеми с текстове от "Под игото" и подобни, защото не разбира някои думи, които Вазов е употребявал. Малко са остарели. Обаче от друга гледна точка това момче знае всички компютърни термини. ;) Та може би трябва да има различни статистики в зависимост от това къде ще се ползват думите. В случая думите ще се използват за дописване на СМС, което си е направо отделен език (различен от българския). ;))) Има и още нещо за измисляне - дали да влизат думи само в основна форма или това да не се взема предвид. В случая не би трябвало думите да са само в основна форма. И какъв брой думи трябва да достигнем, за да можем да приемем данните за достатъчно надеждни. При около 60 000 думи в основна форма в БГ Офис и малко над милион словоформи, 10 милиона достатъчни ли са? Или ни трябват 50 или 100 милиона. Та ако имате идеи и предложения, може и само мисли, са добре дошли. Все пак и аз в момента си размишлявам на глас. ;)) Лек ден, _______________________________________________ Dict mailing list [email protected] http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict
