Re: Текстовая индексация

Sergey Mereutsa Mon, 21 May 2007 03:41:17 -0700

Привет!

По описанному тобой - вроде логично, но надо пробовать на живой базе
:)


> Если кто что подобное делал - поделитесь мыслями и цифрами :)

У меня в разработке сейчас похожая задача - к поиску по условиям еще
требуется полнотекстовый. В принципе, задача несколько проще, так как
используется поиск ведется только по таблице, содержащей атрибуты
документов - их около 70к на двух языках. Количество вхождений слова в
документ мы не храним, нас интересует только присутствует ли слово или
нет. Вместо индексации самого слова используем его нормальную форму (в
общем случае - корень) и номер документа. В результате имеем 2 числа -
контрольную сумму слова и номер документа, где оно встречается.
Слова-паразиты (союзы и прочее) отфильтровываются на этапе индексации,
правда индексировать приходится HTML-документы, которые стрипятся до
чистого текста и только потом на них натравливается индексатор. Помимо
самой информации о номере документа, где встречается слово храним еще
до 3-х вхождений (координат) слова в документ - чтобы при поиске
показывать цитаты. Индексных записей (документ-слово) - 5.5 лимонов.
Поиск занимал до минуты, но я сейчас переделываю некоторые вещи, думаю
будет не более 10-15 секунд в худшем случае.

Как реализуем окончательно - расскажу подробнее.



-- 
Best regards,
 Sergey                            mailto:[EMAIL PROTECTED]

Re: Текстовая индексация

Ответить