On Mon, Jan 23, 2006 at 04:02:23PM +0300, Ed wrote: > вот этот тест несколько разочаровывает: > http://sam.holden.id.au/writings/spam2/ > > не совсем понятны разные результаты у систем, работающих по одному > алгоритму.
А чему Вы удивляетесь? Отправители спама (в особенности в html) пытаются обманывать спаморезалми (причем так, чтобы в корректном почтовом клиенте понимающем html это было бы незаметно для пользователя. Применяется вагон и маленькая тележка методов (например несуществующие html тэги для текстов в html). Алгоритмы получения списка слов из письма у фильтров разные (и иногда их удается обманывать). Авторы классификаторов, изначально рассчитанных на сортировку нормальной почты, уделяют разбору такого "кривого" html естественно минимум внимания. А авторы изначальных спаморезалок - наоборот максимум. Кто-то преуспевает в решении этой задачи больше, кто-то меньше. Насчет "по одному алгоритму" в отношении подсчета - тоже не совсем верно. Тот же dbacl вроде использует "naive bayes", а bogofilter к примеру - "Robinson-Fisher". Если второе подразумевает пусть и спорные, но одинаковые формулы подсчета, то первое - кому как бог на душу положит (кто-то просто не вникает в задачу и тупо использует рекомендации Paul Graham, кто-то пытается более или менее честно построить для себя модель и получает непохожие на приводимые Грэхемом формулы). Так что "одного алгоритма" не простматривается... WBR Dmitri Ivanov -- To UNSUBSCRIBE, email to [EMAIL PROTECTED] with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]