On Mon, Jan 23, 2006 at 04:02:23PM +0300, Ed wrote:
> вот этот тест несколько разочаровывает:
> http://sam.holden.id.au/writings/spam2/
> 
> не совсем понятны разные результаты у систем, работающих по одному 
> алгоритму.

А чему Вы удивляетесь? Отправители спама (в особенности в html) пытаются
обманывать спаморезалми (причем так, чтобы в корректном почтовом клиенте
понимающем html это было бы незаметно для пользователя. Применяется
вагон и маленькая тележка методов (например несуществующие html тэги для
текстов в html). Алгоритмы получения списка слов из письма у фильтров
разные (и иногда их удается обманывать). Авторы классификаторов,
изначально рассчитанных на сортировку нормальной почты, уделяют разбору
такого "кривого" html естественно минимум внимания. А авторы изначальных
спаморезалок - наоборот максимум. Кто-то преуспевает в решении этой
задачи больше, кто-то меньше.

Насчет "по одному алгоритму" в отношении подсчета - тоже не совсем
верно. Тот же dbacl вроде использует "naive bayes", а bogofilter к
примеру - "Robinson-Fisher". Если второе подразумевает пусть и спорные,
но одинаковые формулы подсчета, то первое - кому как бог на душу положит
(кто-то просто не вникает в задачу и тупо использует рекомендации Paul
Graham, кто-то пытается более или менее честно построить для себя модель
и получает непохожие на приводимые Грэхемом формулы).

Так что "одного алгоритма" не простматривается...

WBR
Dmitri Ivanov


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]

Ответить