Am Mo, den 31.05.2004 schrieb Joerg Rieger um 23:22: > On Mon, May 31, 2004 at 11:05:39PM +0200, Daniel Leidert wrote: > > Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33: > > > On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote: > > > > > > > > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine > > > > Trefferquote zu erhöhen. Dazu habe ich ein wenig gegoogelt und bin dabei auf > > > > www.spamarchive.org gestoßen, nun habe ich dort heute Nachmittag diverse > > > > *.gz Archive gesaugt (insgesamt ~950 MB) > > > > > > Hallo, > > > 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist für > > > diesen Zweck viel zu viel. Es würde vermutlich Tage dauern, sie alle > > > mit sa-learn einzulesen. Für diesen Zweck reichen einige tausend Mails > > > völlig aus. > > > > IMHO ist auch das für den Bayes-Filter unnötiger Overkill, wenn > > zusätzlich Bogofilter läuft. Razor, Pyzor und DCC helfen, altbekannten > > Spam auszusortieren. Werden dann noch passende Config-Variablen für SA > > und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner > > Erfahrung hervorragend. > > Läuft IMHO auch etwas dem Sinn des Bayes Ansatz entgegen.
Es ist nach meiner Meinung nicht unbedingt sinnvoll, altbekannten Spam händisch an SA oder Bogofilter weiterzureichen. Ein SA mit Pyzor/Razor und DCC funktioniert sehr gut. Man kann sich in diesem Fall ein Skript schreiben, dass die mithilfe von Bogofilter/SA(mit Razor/Pyzor/DCC) aussortierten Mails zusätzlich an SA/Bogofilter weiterreicht (falls die Bewertung noch nicht zum automatischen Lernen ausreicht). > Denn es soll > ja erkannt werden, welche Mails für dich persönlich ham/spam sind. Z.B. > könnte für einen selbst der monatliche Newsletter eines Freemail > Dienstes interessant sein, für jemand anderen ist die gleiche Mail > jedoch spam. IMHO unglücklich gewähltes Beispiel. Nur wenn ich den Newsletter lesen will, habe ich ihn auch abonniert. Und dann werde ich diese Mails vor SA oder Bogofilter ausfiltern. Ähnlich praktiziere ich das bei Mailinglisten. Die meisten nutzen schon SA auf dem Listenserver. Das muss ich dann nicht auch noch lokal machen und mein System belasten. Solche Sachen kann man vorher herausfiltern (u.U. auf die SA-Header). Das schont den Bayes-Filter und die Systemresourcen. Zusätzlich würde das Durchleiten aller E-Mails durch den Bayes-Filter die Effektivität des Filters nach meiner Meinung herabsetzen. Ansonsten aber o.k. Da hat jeder seine eigenen Vorlieben und Strategien. Ich habe Bogofilter einen Tag angelernt und seit dem lernt er selbständig. SA bekommt gerade mal noch 1 von vielleicht 200-300 Spam-Mails zu Gesicht und filtert diese mithilfe von Razor/Pyzor/DCC sehr zuverlässig. Per Skript wird Bogofilter einmal täglich mit diesen Mails bekannt gemacht und kennt sie dann am nächsten Tag. Fast alle von Bogofilter aussortierten Spam-Mails kommen auf eine Gesamtbewertung (spamicity) von 1.0. > Auch sollte sich die Anzahl der ham und spam mails nicht zu stark > unterscheiden. Wenn du jetzt 1 GB spam mails hast und nur z.B. 100 MB > ham mails, kann es gut sein, dass die spam Erkennung zu scharf > verläuft und so ham mails als spam klassifiziert werden. Das kommt IMO darauf an, wie sich Ham und Spam zusammensetzen. Wer fast nur deutschsprachigen E-Mail-Verkehr pflegt, dem kann das Verhältnis zwischen Spam und Ham mehr oder weniger egal sein, da die Spam-Mails fast ausschließlich englischsprachig sind. Die Gefahr von false-positives ist in diesem Fall sehr gering. MfG Daniel
signature.asc
Description: Dies ist ein digital signierter Nachrichtenteil