Ну да, в первом приближении сработает, а на определённом этапе развития упрётесь в потолок, и дальше нужны будут лингвистические методы. В целом будет хорошая точность (за вычетом разных новостей с шаблонными фразами от одного источника) и низкая полнота (хорошо определяется копипаст, но не более творческий подход к освещению новостей).
В общем, конечно, зависит от задачи. Для каких-то применений вполне хватит, а чтобы сделать полноценный агрегатор -- нет :) Да, ничего готового не видел. 2012/9/11 Михаил Монашёв <[email protected]> > Здравствуйте, Анатолий. > > > Есть два или более текстов, нужно узнать одинаковые (похожие) ли эти > > тексты по смыслу. > > Например, есть три новости, нужно понять, про одно и то же они или > > разные? > > Самый примитивный аглоритм такой. > Качаешь где-нить новостей побольше, разбиваешь всё на слова, удаляешь > у них окончания, делаешь из соседних слов шинглы, генеришь таблицу из > двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют > популярные шинглы (границу популярности определяй сам), далее по > новости можешь искать другие новости, у которых такие же шинглы. Чем > больше шинглов совпало, тем более похожая новость. > > Далее можно алгоритм развивать... > > -- > С уважением, > Михаил mailto:[email protected] > > -- > Moscow.pm mailing list > [email protected] | http://moscow.pm.org >
-- Moscow.pm mailing list [email protected] | http://moscow.pm.org
