Здравствуйте, Анатолий. > Есть два или более текстов, нужно узнать одинаковые (похожие) ли эти > тексты по смыслу. > Например, есть три новости, нужно понять, про одно и то же они или > разные?
Самый примитивный аглоритм такой. Качаешь где-нить новостей побольше, разбиваешь всё на слова, удаляешь у них окончания, делаешь из соседних слов шинглы, генеришь таблицу из двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют популярные шинглы (границу популярности определяй сам), далее по новости можешь искать другие новости, у которых такие же шинглы. Чем больше шинглов совпало, тем более похожая новость. Далее можно алгоритм развивать... -- С уважением, Михаил mailto:[email protected] -- Moscow.pm mailing list [email protected] | http://moscow.pm.org
