Здравствуйте, Анатолий.

> Есть два или более текстов, нужно узнать одинаковые (похожие) ли эти
> тексты по смыслу.
> Например,  есть  три новости, нужно понять, про одно и то же они или
> разные?

Самый примитивный аглоритм такой.
Качаешь  где-нить новостей побольше, разбиваешь всё на слова, удаляешь
у  них окончания, делаешь из соседних слов шинглы, генеришь таблицу из
двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют
популярные  шинглы  (границу  популярности  определяй  сам),  далее по
новости  можешь  искать другие новости, у которых такие же шинглы. Чем
больше шинглов совпало, тем более похожая новость.

Далее  можно  алгоритм  развивать...

-- 
С уважением,
 Михаил                          mailto:[email protected]

-- 
Moscow.pm mailing list
[email protected] | http://moscow.pm.org

Ответить