- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Владимир Subject: Re: Detect clone algoritm
>Клоны -- документы, имеющие одинаковые значения Hash32 вычисляемой по всем >секциям документа. Копии одного и того же документа имеют одинаковые значения >Hash32. Это позволяет не индексировать дубликады документов в коллекции. >Однако: всли в файле sections.conf определена только секция title, тогда все >документы с разными телами, но одинаковыми title будут считаться клонами. Применение вот этого механизма сняло все вопросы. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1190818033