А если загнать оба текста в индекс какой-нибудь искалки типа Lucene/Lucy и сравнить score по ключевым словам. Правда ключевые слова надо как-то вычленить еще.
С уважением, Денис Федосеев On 11 Sep 2012, at 5:50 PM, Nikolay Mishin <[email protected]> wrote: > ну да, получается ключевые слова+синонимы, хотя это очень упрощенно, > но, как правило в новости есть рыба (начало(завязка) и конец), которая бывает > разной на разных сайтах и тело новости, которое может быть достаточно похожим > или заменено синонимами, > получается что-то искусственного интеллекта, который выводит смысл текста и > потом сравнивать эти смыслы > > 11.09.2012, 17:26, "Alexandr Alexeev" <[email protected]>: >> Обычно смотрят по ключевым словам или меткам, если есть. >> >> 11 сентября 2012 г., 17:20 пользователь Анатолий Шарифулин >> <[email protected]> написал: >> >>> Привет! >>> >>> Есть два или более текстов, нужно узнать одинаковые (похожие) ли эти тексты >>> по смыслу. >>> Например, есть три новости, нужно понять, про одно и то же они или разные? >>> >>> Есть ли какие-нибудь готовые решения или наработки? >>> >>> -- >>> С уважением, >>> Анатолий Шарифулин. >>> >>> -- >>> Moscow.pm mailing list >>> [email protected] | http://moscow.pm.org >> >> -- >> С уважением, Александр >> Личный блог: http://eax.me/ >> Мой форум: http://it-talk.org/ >> Мой Twitter: http://twitter.com/afiskon >> -- >> Moscow.pm mailing list >> [email protected] | http://moscow.pm.org > > -- > Nikolay Mishin > -- > Moscow.pm mailing list > [email protected] | http://moscow.pm.org -- Moscow.pm mailing list [email protected] | http://moscow.pm.org
