Re: фильтрация почты (не спам) - bayes???

2006-01-23 Пенетрантность Ed

Иван Лох wrote:


остались мелкие вопросы:
- качество фильтров;
   


При текстовой базе в сотни килобайт и далее -- хорошее
 



вот этот тест несколько разочаровывает:
http://sam.holden.id.au/writings/spam2/

не совсем понятны разные результаты у систем, работающих по одному 
алгоритму.



--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты (не спам) - bayes???

2006-01-23 Пенетрантность Artem Chuprina
Ed - debian-russian@lists.debian.org  @ Sun, 22 Jan 2006 05:05:33 +0300:

  E мне это видится так: пользователь создал на imap-сервере папку,
  E перетащил туда какие-то письма - после все похожие письма будут
  E приходить сразу в эту папку.
 
  E вопросы:
  E  - это вообще стоящая идея?
 
 Очень вряд ли.

 E я тоже люблю разбрасываться глубокомысленными изречениями.
 E а всё-таки хоть какое-то обоснование?

А вот это уже - техподдержка (c).  Я полагаю, что похожесть по мнению
каждого конкретного пользователя и типа байесовского фильтра - это на
практике очень разная похожесть.  Углубляться в это - занятие тяжелое,
мне не до того сейчас.  Можете пробовать, конечно...

-- 
Artem Chuprina
RFC2822: ran{}ran.pp.ru Jabber: [EMAIL PROTECTED]

Это неправильный шелл. В нем дают неправильный перл. (С)энта


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты ( не спам) - bayes???

2006-01-23 Пенетрантность Alexandra N. Kossovsky
On Mon, Jan 23, 2006 at 05:52:10PM +0300, Ed wrote:
 Иван Лох wrote:
 Или последуйте дельному совету Артема
 Чуприны.
  
 
 не использовать автоматическую 
 сортировку почты?
 я так и не понял почему

Не использовать автоматическую сортировку почти с помощью байеса.
А использовать, например, по заголовку List-Id, по полю From и так далее.
Ибо так проще.

-- 
Regards,
Sasha.
Alexandra N. Kossovsky, software engineer.
e-mail: [EMAIL PROTECTED]


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты ( не спам) - bayes???

2006-01-23 Пенетрантность Dmitri V. Ivanov
On Mon, Jan 23, 2006 at 04:02:23PM +0300, Ed wrote:
 вот этот тест несколько разочаровывает:
 http://sam.holden.id.au/writings/spam2/
 
 не совсем понятны разные результаты у систем, работающих по одному 
 алгоритму.

А чему Вы удивляетесь? Отправители спама (в особенности в html) пытаются
обманывать спаморезалми (причем так, чтобы в корректном почтовом клиенте
понимающем html это было бы незаметно для пользователя. Применяется
вагон и маленькая тележка методов (например несуществующие html тэги для
текстов в html). Алгоритмы получения списка слов из письма у фильтров
разные (и иногда их удается обманывать). Авторы классификаторов,
изначально рассчитанных на сортировку нормальной почты, уделяют разбору
такого кривого html естественно минимум внимания. А авторы изначальных
спаморезалок - наоборот максимум. Кто-то преуспевает в решении этой
задачи больше, кто-то меньше.

Насчет по одному алгоритму в отношении подсчета - тоже не совсем
верно. Тот же dbacl вроде использует naive bayes, а bogofilter к
примеру - Robinson-Fisher. Если второе подразумевает пусть и спорные,
но одинаковые формулы подсчета, то первое - кому как бог на душу положит
(кто-то просто не вникает в задачу и тупо использует рекомендации Paul
Graham, кто-то пытается более или менее честно построить для себя модель
и получает непохожие на приводимые Грэхемом формулы).

Так что одного алгоритма не простматривается...

WBR
Dmitri Ivanov


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты ( не спам) - bayes???

2006-01-21 Пенетрантность Иван Лох
On Sat, Jan 21, 2006 at 02:44:56PM +0300, Ed wrote:
 мне это видится так: пользователь создал 
 на imap-сервере папку, перетащил туда 
 какие-то письма - после все похожие 
 письма будут приходить сразу в эту папку.
 
 вопросы:
 - это вообще стоящая идея?
Не уверен
 - bayes для этого подходит?
Да
 - если да - то какой софт можно для этого 
 использовать?
popfile или (с большим трудом) dbacl

-- 
Иван Лох


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты (не спам) - bayes???

2006-01-21 Пенетрантность Ed

Иван Лох wrote:

мне это видится так: пользователь создал 
на imap-сервере папку, перетащил туда 
какие-то письма - после все похожие 
письма будут приходить сразу в эту папку.


вопросы:
- это вообще стоящая идея?
   


Не уверен
 



почему?

- если да - то какой софт можно для этого 
использовать?
   


popfile или (с большим трудом) dbacl



почему dbacl с большим трудом? его подход мне больше popfile понравился 
- я хочу сортировку на сервере делать, обучение автоматически.



--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты ( не спам) - bayes???

2006-01-21 Пенетрантность Иван Лох
On Sat, Jan 21, 2006 at 05:48:01PM +0300, Ed wrote:
 мне это видится так: пользователь создал на imap-сервере папку, перетащил
 туда какие-то письма - после все похожие письма будут приходить сразу в эту
 папку. вопросы: - это вообще стоящая идея?
 Не уверен
 почему?

Из 100 пользователей spamassassin 3-5% его реально учат. Для себя же проще
сделать scores по маскам...

 - если да - то какой софт можно для этого использовать?
 popfile или (с большим трудом) dbacl
 почему dbacl с большим трудом? его подход мне больше popfile понравился - я
 хочу сортировку на сервере делать, обучение автоматически.

Имелось в виду с бОльшим трудом.  popfile готовое решение, да еще написанное
на перле. От dbacl до сортировки почты еще очень далеко, по крайней мере так
было некоторое время назад. Это просто реализация не слишком сложного и
хорошо известного алгоритма. Хотя все могло измениться.

-- 
Иван Лох


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты ( не спам) - bayes???

2006-01-21 Пенетрантность Dmitri V. Ivanov
On Sat, Jan 21, 2006 at 02:44:56PM +0300, Ed wrote:
 очень нравится мне фильтрация junk mail в thunderbird (afaik там 
 используется bayes).
 хочется чего-то подобного для сортировки почты (то есть не создавать 
 руками фильтры, а самообучение).
Посмотрите в рассылках разработчиков spambayes и на его сайте. Эта идея
уже приходила в голову тому Robinson-у, который автор текущих
используемых формул фильтрации a la bayes.

 
 мне это видится так: пользователь создал на imap-сервере папку, 
 перетащил туда какие-то письма - после все похожие письма будут 
 приходить сразу в эту папку.

Не совсем легко реализуемая идея. С ходу мне не понятно как реализовать
различение внешним софтом писем, которые были доставлены delievery
агентом и тех, которые были перемещены (если не создавать дополнительных
папок для обучения письмо сюда-письмо не сюда).

Для себя при организации доставки спама в INBOX.spam, а всего остального
в INBOX я просто создал папки markspam и markham из которых по cron-у
обучается bogofilter (используется courier-imap, и почта соответственно
доставляется в maildir, lda - maildrop, которому написаны
соответствующие правила).

Для более сложной фильтрации наверное можно создать дополнительные
иерархии mark.папка и unmark.папка, но я эту тему не обдумывал и чего-то
готового предложить не готов.

По идее что-то подобное можно не совсем честно сделать и для cyrus
IMAP (у меня после обучения bogofilter по папке mark* все сообщения из
нее удаляются, с форматом хранения cyrus просто удалять нельзя, но можно
удалить, а потом вызвать reconstruct для данной папки, но это не
совсем честный способ).

WBR
Dmitri Ivanov


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты (не спам) - bayes???

2006-01-21 Пенетрантность Ed

Иван Лох wrote:


мне это видится так: пользователь создал на imap-сервере папку, перетащил
туда какие-то письма - после все похожие письма будут приходить сразу в эту
папку. вопросы: - это вообще стоящая идея?
   


Не уверен
 


почему?
   



Из 100 пользователей spamassassin 3-5% его реально учат. Для себя же проще
сделать scores по маскам...
 



я хочу сделать для пользователей - чтобы ни в чем не разбирался - просто 
переложил письмо куда следует.


в thunderbird же junk mail работает безо всякого изучения.



- если да - то какой софт можно для этого использовать?
   


popfile или (с большим трудом) dbacl
 


почему dbacl с большим трудом? его подход мне больше popfile понравился - я
хочу сортировку на сервере делать, обучение автоматически.
   



Имелось в виду с бОльшим трудом.  popfile готовое решение, да еще написанное
на перле. От dbacl до сортировки почты еще очень далеко, по крайней мере так
было некоторое время назад.



???
dbacl выдает на что из списка более всего похоже. подсовываем список 
папок соответствующего пользователя и получаем на выходе в какую папку 
кидать письмо.



Это просто реализация не слишком сложного и
хорошо известного алгоритма. Хотя все могло измениться.



вот такую реализацию мне похоже и надо.

остались мелкие вопросы:
- качество фильтров;
- нормальная работа с русским текстом (кодировки, всякие quoted-printable);
- как обрабатывать ложные срабатывания.


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты ( не спам) - bayes???

2006-01-21 Пенетрантность Иван Лох
On Sat, Jan 21, 2006 at 08:04:08PM +0300, Ed wrote:
 Имелось в виду с бОльшим трудом.  popfile 
 готовое решение, да еще написанное
 на перле. От dbacl до сортировки почты еще 
 очень далеко, по крайней мере так
 было некоторое время назад.
 dbacl выдает на что из списка более всего 
 похоже. подсовываем список папок 
 соответствующего пользователя и 
 получаем на выходе в какую папку кидать 
 письмо.
Начнем с того, что раньше dbacl не умел добавлять
позитивы к файлам категорий. Только полная регенерация.
Хотя он один из самых быстрых баесов был. Но
надо _на сервере_ держать всю учебную базу.

 Это просто реализация не слишком сложного и
 хорошо известного алгоритма. Хотя все 
 могло измениться.
 вот такую реализацию мне похоже и надо.
 остались мелкие вопросы:
 - качество фильтров;
При текстовой базе в сотни килобайт и далее -- хорошее
 - нормальная работа с русским текстом 
 (кодировки, всякие quoted-printable);
Кодировки не очень важны, ты просто часть базы теряешь
на каждом тесте. mime, кажется, есть.
 - как обрабатывать ложные срабатывания.
Никак. Это же не спам. Ну попадет письмо в другую
категорию. 


-- 
Иван Лох


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты (не спам) - bayes???

2006-01-21 Пенетрантность Ed

Dmitri V. Ivanov wrote:

мне это видится так: пользователь создал на imap-сервере папку, 
перетащил туда какие-то письма - после все похожие письма будут 
приходить сразу в эту папку.
   



Не совсем легко реализуемая идея. С ходу мне не понятно как реализовать
различение внешним софтом писем, которые были доставлены delievery
агентом и тех, которые были перемещены (если не создавать дополнительных
папок для обучения письмо сюда-письмо не сюда).
 



правильные срабатывания реализуются очень просто - письмо прочитал
пользователь, не переместил в другую папку - значит оно подошло под
правило (и его можно при следущем обучении использовать). При этом не
важно кто поместил письмо в эту папку - пользователь или софт.

вот что с ложными срабатываниями делать - не очень понятно



--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты (не спам) - bayes???

2006-01-21 Пенетрантность Ed

Иван Лох wrote:


Начнем с того, что раньше dbacl не умел добавлять
позитивы к файлам категорий. Только полная регенерация.
Хотя он один из самых быстрых баесов был. Но
надо _на сервере_ держать всю учебную базу.
 



в случае imap - не проблема

- нормальная работа с русским текстом 
(кодировки, всякие quoted-printable);
   


Кодировки не очень важны, ты просто часть базы теряешь
на каждом тесте. mime, кажется, есть.
 



ну а зачем терять? хотя прикрутить наверное не так уж и сложно


- как обрабатывать ложные срабатывания.Никак. Это же не спам. Ну попадет письмо 
в другую
категорию. 



ну заодно хочется тогда уж и спам обрабатывать. хотя со спамом можно 
проще поступить - делить на заведомый спам и подозрительные письма 
(которые уже быстро просмаривать и переносить в спам/входящие). все 
равно проще, чем всю почту разгребать.



--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты ( не спам) - bayes???

2006-01-21 Пенетрантность Иван Лох
On Sat, Jan 21, 2006 at 09:10:44PM +0300, Ed wrote:
 позитивы к файлам категорий. Только полная регенерация. Хотя он один из
 самых быстрых баесов был. Но надо _на сервере_ держать всю учебную базу.
 
 в случае imap - не проблема

Если у пользователей нет локальных архивов.

 - нормальная работа с русским текстом (кодировки, всякие quoted-printable);
 
 Кодировки не очень важны, ты просто часть базы теряешь на каждом тесте. mime,
 кажется, есть.
 
 ну а зачем терять? хотя прикрутить наверное не так уж и сложно

Наверное, да. 

 - как обрабатывать ложные срабатывания.Никак. Это же не спам. Ну попадет
 письмо в другую категорию. 
 
 ну заодно хочется тогда уж и спам обрабатывать. хотя со спамом можно проще
 поступить - делить на заведомый спам и подозрительные письма (которые уже
 быстро просмаривать и переносить в спам/входящие). все равно проще, чем всю
 почту разгребать.

Спаморезалки _больше_ чем просто байес. Во-первых, потому, что текста,
который и анализирует dbacl там, по большому счету, сейчас и нет.
Картинки, служебные поля и т.д. dbacl просто выбрасывает. 

-- 
Иван Лох


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты ( не спам) - bayes???

2006-01-21 Пенетрантность Dmitri V. Ivanov
On Sat, Jan 21, 2006 at 08:52:47PM +0300, Ed wrote:
 вот что с ложными срабатываниями делать - не очень понятно

Ну один вариант я Вам, собственно, привел в предыдущем письме.
Дополнительные иерархии папок, в которые пользователь копирует письмо
при ложном (не)срабатывании фильтра. Но это требует обучения
пользователей, что (согласен с Вами), не очень хорошо.

Вообще можно просто сказать lda при доставке в папку добавлять заголовок
вроде X-Folder-Delievered-To: имя папки в иерархии, и по нему проверять
- скопировал пользователь это письмо из папки в папку или нет (если в
заголовке имя текущей папки - нет, иначе в заголовке имя папки из
которой письмо скопировано). Проверять на соответствие при этом нужно 
только файлы с ctime большим, чем время предыдущего запуска обучающего
скрипта на папке. Это, конечно, чуть медленнее, чем вариант с доп.
папками для обучения, но попробовать можно (и unix mailbox я просто не
рассматриваю - с ним бороться очень неудобно).

Еще не совсем понимаю пока вопрос с courier imap, отмечающим флаги
сообщения (seen,replied,deleted) переименованием файла с сообщением.
Возможно, что в данном случае нужно смотреть не на ctime, а на mtime.

Неприятным моментом может оказаться также и то, что пользователь может
удалить скопированное в папку письмо раньше, чем по нему обучится
фильтр (удалить как в смысле удалить, так и в смысле переместить в
локальную папку).

Еще вопрос: А как отмечать папки, для которых
никакие фильтры подобного типа работать не должны? Со всякими sent
понятно: у них этого заголовка нет. А в общем случае?

WBR
Dmitri Ivanov


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты (не спам) - bayes???

2006-01-21 Пенетрантность Artem Chuprina
Ed - debian-russian@lists.debian.org  @ Sat, 21 Jan 2006 14:44:56 +0300:

 E мне это видится так: пользователь создал на imap-сервере папку,
 E перетащил туда какие-то письма - после все похожие письма будут
 E приходить сразу в эту папку.

 E вопросы:
 E  - это вообще стоящая идея?

Очень вряд ли.

-- 
Artem Chuprina
RFC2822: ran{}ran.pp.ru Jabber: [EMAIL PROTECTED]

Win-юзеры - это типа Win-модемов и Win-принтеров: такие же юзеры, но попроще,
без мозгов и памяти на борту.
http://www.livejournal.com/~dottedmag/158509.html


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: фильтрация почты (не спам) - bayes???

2006-01-21 Пенетрантность Ed

Artem Chuprina wrote:


Ed - debian-russian@lists.debian.org  @ Sat, 21 Jan 2006 14:44:56 +0300:

E мне это видится так: пользователь создал на imap-сервере папку,
E перетащил туда какие-то письма - после все похожие письма будут
E приходить сразу в эту папку.

E вопросы:
E  - это вообще стоящая идея?

Очень вряд ли.
 



я тоже люблю разбрасываться глубокомысленными изречениями.
а всё-таки хоть какое-то обоснование?


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]