И вопрос - а что понимается под "каноническим видом"? У нас в дереве
адресов штук десять вариаций на тему "город Москва". Есть даже бред
"город Москва" в "городе Москва". Ибо до сих пор не могут определиться
- а как его корректно представить. А мне лично на эти "корректные"
представления - насрать.

Слушай, если у тебя поиск идет по "документам" состоящим из нескольки слов, то каким образом ты оцениваешь точность попадания (этот самый score) для последующей сортировки? ведь на паре слов отличий почти не наблюдается... или у тебя селективность настолько высокая, что на типичных запросах возвращает где-то 10-20 попаданий?

Может действительно есть смысл посмотреть в сторону signature file? Хотя я не совсем понимаю, откуда у тебя 14 млн. уникальных слов... можешь какой-то пример из базы привести, чтоб понятней было?

Роман

Ответить