Re: Mail archive indexing (for gnus/nnir or just standalone)
Evening, Victor. "Victor B. Wagner" <[EMAIL PROTECTED]> 15:20 8/7/2003 wrote: >> И в этом - основная загвоздка. Индексатор должен быть MIME-aware, либо к >> ней в кач. фильтра надо прикрутить какой-либо mail-to-plain-text converter >> (catmail anyone? :), которого я пока найти не смог ... VBW> Тривиальный перловый скрипт с использованием MIME::Parser Учитывая, что namazu написан на перле, я взял его и обточил напильником. Скрипт получился не совсем тривиальный, но ... Мне для моих задач хватило. Спасибо за наводку. -- Dmitry Astapov //ADEpt GPG KeyID/fprint: F5D7639D/CA36 E6C4 815D 434D 0498 2B08 7867 4860 F5D7 639D
Re: Mail archive indexing (for gnus/nnir or just standalone)
On 2003.07.08 at 10:25:23 +0300, Dmitry Astapov wrote: > > Evening, Victor. > > "Victor B. Wagner" <[EMAIL PROTECTED]> 19:56 4/7/2003 wrote: > > VBW> 1. Всякие web-овские искалки, например mnogosearch (рекомендую > VBW> всячески) умеют индексировать не только html. Plain text (каковым > является > VBW> содержимое Maildir) он тоже прекрасно отиндексирует. И даже можно > VBW> научить его это делать без использования http, хотя немного > VBW> нетривиально. > Увы, увы - содержимое Maildir не есть plaintext. Точнее, по форме - да, а > по сути - внутри может быть QP/base64 :( Я не хочу искать по '=C4=C2=F4' ... http response вообще говоря - тоже. > И в этом - основная загвоздка. Индексатор должен быть MIME-aware, либо к > ней в кач. фильтра надо прикрутить какой-либо mail-to-plain-text converter > (catmail anyone? :), которого я пока найти не смог ... Тривиальный перловый скрипт с использованием MIME::Parser >
Re: Mail archive indexing (for gnus/nnir or just standalone)
Evening, Victor. "Victor B. Wagner" <[EMAIL PROTECTED]> 19:56 4/7/2003 wrote: VBW> 1. Всякие web-овские искалки, например mnogosearch (рекомендую VBW> всячески) умеют индексировать не только html. Plain text (каковым является VBW> содержимое Maildir) он тоже прекрасно отиндексирует. И даже можно VBW> научить его это делать без использования http, хотя немного VBW> нетривиально. Увы, увы - содержимое Maildir не есть plaintext. Точнее, по форме - да, а по сути - внутри может быть QP/base64 :( Я не хочу искать по '=C4=C2=F4' ... И в этом - основная загвоздка. Индексатор должен быть MIME-aware, либо к ней в кач. фильтра надо прикрутить какой-либо mail-to-plain-text converter (catmail anyone? :), которого я пока найти не смог ... [skip] За остальные хинты - спасибо. -- Dmitry Astapov //ADEpt GPG KeyID/fprint: F5D7639D/CA36 E6C4 815D 434D 0498 2B08 7867 4860 F5D7 639D
Re: Mail archive indexing (for gnus/nnir or just standalone)
On 2003.07.04 at 17:38:38 +0300, Dmitry Astapov wrote: > > Добрый день, > > Хочу поискать чужого опыта в области индексирования/поиска по большим > объемам почты. Что есть: XEmacs/Gnus для чтения/манипуляций с почтой. Все > замечательно, не хватает только возможности быстро (за единицы секунд) > перелопатить много (около гига) почты и найти там нужные сообщения. Чего не > хочется: перегонять почту в html через mhonarc и напускать на результат > какой-либо html search engine. Причина - результатом поиска является некое > множество почты, и с ним хочется работать привычным способом, т.е. через > Gnus. > > Для Gnus есть nnir, который предоставляет как раз такую функциональность - > использовать результаты command line full-text search tool для построения > виртуального фолдера с найденой почтой. Nnir умеет работать с glimpse, > namazu, swish-e и swish++. У них у всех есть проблемы: 1)с русским, 2)с > MIME вообще и QP/base64 в частности. > > Кто может указать начало дороги к счастью? :) Насчет начала дороги не скажу, а пару дорожных указателей выставлю: 1. Всякие web-овские искалки, например mnogosearch (рекомендую всячески) умеют индексировать не только html. Plain text (каковым является содержимое Maildir) он тоже прекрасно отиндексирует. И даже можно научить его это делать без использования http, хотя немного нетривиально. 2. Результаты индексирования хранятся в базе данных, лазить в которую можно не только через родную CGI-шку. А можно, например, напрямую с помощью командно-строчнго sql-клиента или перлового скрипта. Собственно в Communiware примерно так и делалось - индексировались не веб-страницы, а итемы content-management-системы, которые отдавались индексатору по очень специальному шаблону. А искалка была встроена в саму CMS. 3. Даже если пользоваться родной CGI-шкой, никто не мешает написать скриптик на shell с использованием wget или на Perl с использованием LWP, который будет предоставлять командно-строчный интерфейс, удовлетворяющий nnir. Хотя, собственно, зачем тут вообще HTTP? Собственно чем данный скрипт хуже апача - может и сам CGI-шку запустить и ее stdout прочитать. Для почты отсутствие лишних сетевизмов может оказаться очень даже полезным.
Mail archive indexing (for gnus/nnir or just standalone)
Добрый день, Хочу поискать чужого опыта в области индексирования/поиска по большим объемам почты. Что есть: XEmacs/Gnus для чтения/манипуляций с почтой. Все замечательно, не хватает только возможности быстро (за единицы секунд) перелопатить много (около гига) почты и найти там нужные сообщения. Чего не хочется: перегонять почту в html через mhonarc и напускать на результат какой-либо html search engine. Причина - результатом поиска является некое множество почты, и с ним хочется работать привычным способом, т.е. через Gnus. Для Gnus есть nnir, который предоставляет как раз такую функциональность - использовать результаты command line full-text search tool для построения виртуального фолдера с найденой почтой. Nnir умеет работать с glimpse, namazu, swish-e и swish++. У них у всех есть проблемы: 1)с русским, 2)с MIME вообще и QP/base64 в частности. Кто может указать начало дороги к счастью? :) -- Dmitry Astapov //ADEpt E-mail: [EMAIL PROTECTED] GPG KeyID/fprint: F5D7639D/CA36 E6C4 815D 434D 0498 2B08 7867 4860 F5D7 639D