Привет! По описанному тобой - вроде логично, но надо пробовать на живой базе :)
> Если кто что подобное делал - поделитесь мыслями и цифрами :) У меня в разработке сейчас похожая задача - к поиску по условиям еще требуется полнотекстовый. В принципе, задача несколько проще, так как используется поиск ведется только по таблице, содержащей атрибуты документов - их около 70к на двух языках. Количество вхождений слова в документ мы не храним, нас интересует только присутствует ли слово или нет. Вместо индексации самого слова используем его нормальную форму (в общем случае - корень) и номер документа. В результате имеем 2 числа - контрольную сумму слова и номер документа, где оно встречается. Слова-паразиты (союзы и прочее) отфильтровываются на этапе индексации, правда индексировать приходится HTML-документы, которые стрипятся до чистого текста и только потом на них натравливается индексатор. Помимо самой информации о номере документа, где встречается слово храним еще до 3-х вхождений (координат) слова в документ - чтобы при поиске показывать цитаты. Индексных записей (документ-слово) - 5.5 лимонов. Поиск занимал до минуты, но я сейчас переделываю некоторые вещи, думаю будет не более 10-15 секунд в худшем случае. Как реализуем окончательно - расскажу подробнее. -- Best regards, Sergey mailto:[EMAIL PROTECTED]