Re: Mail archive indexing (for gnus/nnir or just standalone)

2003-07-10 Пенетрантность Dmitry Astapov

Evening, Victor. 

"Victor B. Wagner" <[EMAIL PROTECTED]> 15:20 8/7/2003 wrote:

>> И в этом - основная загвоздка. Индексатор должен быть MIME-aware, либо к
>> ней в кач. фильтра надо прикрутить какой-либо mail-to-plain-text converter
>> (catmail anyone? :), которого я пока найти не смог ...

 VBW> Тривиальный перловый скрипт с использованием MIME::Parser

Учитывая, что namazu написан на перле, я взял его и обточил напильником.
Скрипт получился не совсем тривиальный, но ... Мне для моих задач хватило.
Спасибо за наводку.

-- 
Dmitry Astapov //ADEpt
GPG KeyID/fprint: F5D7639D/CA36 E6C4 815D 434D 0498  2B08 7867 4860 F5D7 639D



Re: Mail archive indexing (for gnus/nnir or just standalone)

2003-07-08 Пенетрантность Victor B. Wagner
On 2003.07.08 at 10:25:23 +0300, Dmitry Astapov wrote:

> 
> Evening, Victor. 
> 
> "Victor B. Wagner" <[EMAIL PROTECTED]> 19:56 4/7/2003 wrote:
> 
>  VBW> 1. Всякие web-овские искалки, например mnogosearch (рекомендую
>  VBW> всячески) умеют индексировать не только html. Plain text (каковым 
> является
>  VBW> содержимое Maildir) он тоже прекрасно отиндексирует. И даже можно
>  VBW> научить его это делать без использования http, хотя немного
>  VBW> нетривиально.
> Увы, увы - содержимое Maildir не есть plaintext. Точнее, по форме - да, а
> по сути - внутри может быть QP/base64 :( Я не хочу искать по '=C4=C2=F4' ...

http response вообще говоря - тоже.

> И в этом - основная загвоздка. Индексатор должен быть MIME-aware, либо к
> ней в кач. фильтра надо прикрутить какой-либо mail-to-plain-text converter
> (catmail anyone? :), которого я пока найти не смог ...

Тривиальный перловый скрипт с использованием MIME::Parser

> 



Re: Mail archive indexing (for gnus/nnir or just standalone)

2003-07-08 Пенетрантность Dmitry Astapov

Evening, Victor. 

"Victor B. Wagner" <[EMAIL PROTECTED]> 19:56 4/7/2003 wrote:

 VBW> 1. Всякие web-овские искалки, например mnogosearch (рекомендую
 VBW> всячески) умеют индексировать не только html. Plain text (каковым является
 VBW> содержимое Maildir) он тоже прекрасно отиндексирует. И даже можно
 VBW> научить его это делать без использования http, хотя немного
 VBW> нетривиально.
Увы, увы - содержимое Maildir не есть plaintext. Точнее, по форме - да, а
по сути - внутри может быть QP/base64 :( Я не хочу искать по '=C4=C2=F4' ...

И в этом - основная загвоздка. Индексатор должен быть MIME-aware, либо к
ней в кач. фильтра надо прикрутить какой-либо mail-to-plain-text converter
(catmail anyone? :), которого я пока найти не смог ...

[skip]

За остальные хинты - спасибо.

-- 
Dmitry Astapov //ADEpt
GPG KeyID/fprint: F5D7639D/CA36 E6C4 815D 434D 0498  2B08 7867 4860 F5D7 639D



Re: Mail archive indexing (for gnus/nnir or just standalone)

2003-07-04 Пенетрантность Victor B. Wagner
On 2003.07.04 at 17:38:38 +0300, Dmitry Astapov wrote:

> 
> Добрый день,
> 
> Хочу поискать чужого опыта в области индексирования/поиска по большим
> объемам почты. Что есть: XEmacs/Gnus для чтения/манипуляций с почтой. Все
> замечательно, не хватает только возможности быстро (за единицы секунд)
> перелопатить много (около гига) почты и найти там нужные сообщения. Чего не
> хочется: перегонять почту в html через mhonarc и напускать на результат
> какой-либо html search engine. Причина - результатом поиска является некое
> множество почты, и с ним хочется работать привычным способом, т.е. через
> Gnus.
> 
> Для Gnus есть nnir, который предоставляет как раз такую функциональность -
> использовать результаты command line full-text search tool для построения
> виртуального фолдера с найденой почтой. Nnir умеет работать с glimpse,
> namazu, swish-e и swish++. У них у всех есть проблемы: 1)с русским, 2)с
> MIME вообще и QP/base64 в частности.
> 
> Кто может указать начало дороги к счастью? :)

Насчет начала дороги не скажу, а пару дорожных указателей выставлю:

1. Всякие web-овские искалки, например mnogosearch (рекомендую всячески)
умеют индексировать не только html. Plain text (каковым является
содержимое Maildir) он тоже прекрасно отиндексирует. И даже можно
научить его это делать без использования http, хотя немного
нетривиально.

2. Результаты индексирования хранятся в базе данных, лазить в которую
можно не только через родную CGI-шку. А можно, например, напрямую с
помощью командно-строчнго sql-клиента или перлового скрипта. 

Собственно в Communiware  примерно так и делалось - индексировались не
веб-страницы, а итемы content-management-системы, которые отдавались
индексатору по очень специальному шаблону. А искалка была встроена в
саму CMS.

3. Даже если пользоваться родной CGI-шкой, никто не мешает написать
скриптик на shell с использованием wget или на Perl с использованием
LWP, который будет предоставлять командно-строчный интерфейс,
удовлетворяющий nnir. Хотя, собственно, зачем тут вообще HTTP?
Собственно чем данный скрипт хуже апача - может и сам CGI-шку запустить
и ее stdout прочитать. Для почты отсутствие лишних сетевизмов может
оказаться очень даже полезным.