Re: Продолжение [вопрос с библиотекой решен]

2010-02-10 Пенетрантность Serhiy Storchaka
Alexey Pechnikov wrote: On Tuesday 09 February 2010 23:42:08 Serhiy Storchaka wrote: Десятикратная разница в скорости показывает проблему реализации. Но все равно непосредственно сам поиск как минимум на два порядка быстрее, нежели построение фрагмента с найденным текстом. Это вы

Re: Продолжение [вопрос с библиотекой решен]

2010-02-10 Пенетрантность Alexey Pechnikov
Hello! On Wednesday 10 February 2010 21:23:44 Serhiy Storchaka wrote: Если объём записи достаточно большой (содержимое документа) и исключить кеширование (большая база и не повторяющийся запрос), то извлечение содержимого из файла и из базы будет мало отличаться. Это ничему не противоречит -

Re: Продолжение [вопрос с библиотекой решен]

2010-02-09 Пенетрантность Alexey Pechnikov
Hello! On Monday 08 February 2010 23:42:16 Alexey Pechnikov wrote: Кто поделится библиотекой либрусек в разных форматах? Думаю, электронные библиотеки - первый кандидат на тестирование. У меня несколько сот книжек с либрусека было скачано, пока его не прикрыли, их индексацию проверил, в

Re: Продолжение [вопрос с библиотекой решен]

2010-02-09 Пенетрантность Alexey Pechnikov
Hello! On Tuesday 09 February 2010 17:44:46 Иван Лох wrote: Что касается электронной библиотеки, есть такой вопрос: насколько опревдана библиотека с поддержкой одного лишь формата (fb2 или epub)? Поддерживать fb2 IMHO не надо. Надо поддерживать XML + архиваторы и компрессоры. То есть

Re: Продолжение [вопрос с библиотекой решен]

2010-02-09 Пенетрантность Alexey Pechnikov
Hello! On Tuesday 09 February 2010 21:09:59 Иван Лох wrote: Да вот не хотелось бы в базу _встраивать_ xslt-процессор, который в таком А чего та встраивать-то? Это маленькая библиотека. Тоже верно - на фоне libICU, необходимой для поддержки юникода.. Ну если парсер быстрый и один и тот-же

Re: Продолжение [вопрос с библиотекой решен]

2010-02-09 Пенетрантность Serhiy Storchaka
Alexey Pechnikov wrote: Когда каждый документ будет fb2-файлом, упакованным в zip-архив, то нужно достать файл из архива, преобразовать в текст и получить найденный фрагмент - то есть придется немало операций выполнить. Так что идея открывать _много_ файлов для построения выделенных фрагментов

Re: Продолжение [вопрос с библиотекой решен]

2010-02-09 Пенетрантность Alexey Pechnikov
Hello! Вот более наглядно: sqlite select rowid from file_text where file_text match 'london'; ... CPU Time: user 0.00 sys 0.00 sqlite select snippet(file_text) from file_text where file_text match 'london'; ... CPU Time: user 0.464029 sys 0.048003 То есть сам поиск практически не стоит

Re: Продолжение [вопрос с библиотекой решен]

2010-02-09 Пенетрантность Alexey Pechnikov
Hello! On Tuesday 09 February 2010 23:00:20 Serhiy Storchaka wrote: Когда каждый документ будет fb2-файлом, упакованным в zip-архив, то нужно достать файл из архива, преобразовать в текст и получить найденный фрагмент - то есть придется немало операций выполнить. Так что идея открывать

Re: Продолжение [вопрос с библиотекой решен]

2010-02-09 Пенетрантность Serhiy Storchaka
Alexey Pechnikov wrote: Десятикратная разница в скорости показывает проблему реализации. Но все равно непосредственно сам поиск как минимум на два порядка быстрее, нежели построение фрагмента с найденным текстом. Это вы тестируете когда база закеширована в памяти? На стогигабайтной базе с

Re: Продолжение [вопрос с библиотекой решен]

2010-02-09 Пенетрантность Alexey Pechnikov
Hello! On Tuesday 09 February 2010 23:42:08 Serhiy Storchaka wrote: Десятикратная разница в скорости показывает проблему реализации. Но все равно непосредственно сам поиск как минимум на два порядка быстрее, нежели построение фрагмента с найденным текстом. Это вы тестируете когда база