Alexey Pechnikov wrote:
On Tuesday 09 February 2010 23:42:08 Serhiy Storchaka wrote:
Десятикратная разница в скорости показывает проблему реализации. Но все
равно непосредственно сам поиск как минимум на два порядка быстрее,
нежели построение фрагмента с найденным текстом.
Это вы
Hello!
On Wednesday 10 February 2010 21:23:44 Serhiy Storchaka wrote:
Если объём записи достаточно большой (содержимое документа) и исключить
кеширование (большая база и не повторяющийся запрос), то извлечение
содержимого из файла и из базы будет мало отличаться.
Это ничему не противоречит -
Hello!
On Monday 08 February 2010 23:42:16 Alexey Pechnikov wrote:
Кто поделится библиотекой либрусек в разных форматах? Думаю,
электронные библиотеки - первый кандидат на тестирование. У меня
несколько сот книжек с либрусека было скачано, пока его не прикрыли,
их индексацию проверил, в
Hello!
On Tuesday 09 February 2010 17:44:46 Иван Лох wrote:
Что касается электронной библиотеки, есть такой вопрос: насколько
опревдана библиотека с поддержкой одного лишь формата (fb2 или epub)?
Поддерживать fb2 IMHO не надо. Надо поддерживать XML + архиваторы и
компрессоры. То есть
Hello!
On Tuesday 09 February 2010 21:09:59 Иван Лох wrote:
Да вот не хотелось бы в базу _встраивать_ xslt-процессор, который в таком
А чего та встраивать-то? Это маленькая библиотека.
Тоже верно - на фоне libICU, необходимой для поддержки юникода..
Ну если парсер быстрый и один и тот-же
Alexey Pechnikov wrote:
Когда каждый документ будет fb2-файлом, упакованным в zip-архив, то нужно
достать файл из архива, преобразовать в текст и получить найденный
фрагмент - то есть придется немало операций выполнить. Так что идея
открывать _много_ файлов для построения выделенных фрагментов
Hello!
Вот более наглядно:
sqlite select rowid from file_text where file_text match 'london';
...
CPU Time: user 0.00 sys 0.00
sqlite select snippet(file_text) from file_text where file_text match 'london';
...
CPU Time: user 0.464029 sys 0.048003
То есть сам поиск практически не стоит
Hello!
On Tuesday 09 February 2010 23:00:20 Serhiy Storchaka wrote:
Когда каждый документ будет fb2-файлом, упакованным в zip-архив, то нужно
достать файл из архива, преобразовать в текст и получить найденный
фрагмент - то есть придется немало операций выполнить. Так что идея
открывать
Alexey Pechnikov wrote:
Десятикратная разница в скорости показывает проблему реализации. Но все
равно непосредственно сам поиск как минимум на два порядка быстрее, нежели
построение фрагмента с найденным текстом.
Это вы тестируете когда база закеширована в памяти? На стогигабайтной базе с
Hello!
On Tuesday 09 February 2010 23:42:08 Serhiy Storchaka wrote:
Десятикратная разница в скорости показывает проблему реализации. Но все
равно непосредственно сам поиск как минимум на два порядка быстрее, нежели
построение фрагмента с найденным текстом.
Это вы тестируете когда база
10 matches
Mail list logo