Re: Spammails von Spamarchive.org

Daniel Leidert Mon, 31 May 2004 16:22:50 -0700

Am Mo, den 31.05.2004 schrieb Joerg Rieger um 23:22:
> On Mon, May 31, 2004 at 11:05:39PM +0200, Daniel Leidert wrote:
> > Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33:
> > > On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote:
> > > > 
> > > > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine
> > > > Trefferquote zu erhöhen. Dazu habe ich ein wenig gegoogelt und bin dabei auf
> > > > www.spamarchive.org gestoßen, nun habe ich dort heute Nachmittag diverse
> > > > *.gz Archive gesaugt (insgesamt ~950 MB) 
> > > 
> > > Hallo,
> > > 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist für
> > > diesen Zweck viel zu viel. Es würde vermutlich Tage dauern, sie alle
> > > mit sa-learn einzulesen. Für diesen Zweck reichen einige tausend Mails
> > > völlig aus.
> > 
> > IMHO ist auch das für den Bayes-Filter unnötiger Overkill, wenn
> > zusätzlich Bogofilter läuft. Razor, Pyzor und DCC helfen, altbekannten
> > Spam auszusortieren. Werden dann noch passende Config-Variablen für SA
> > und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner
> > Erfahrung hervorragend.
> 
> Läuft IMHO auch etwas dem Sinn des Bayes Ansatz entgegen.


Es ist nach meiner Meinung nicht unbedingt sinnvoll, altbekannten Spam
händisch an SA oder Bogofilter weiterzureichen. Ein SA mit Pyzor/Razor
und DCC funktioniert sehr gut. Man kann sich in diesem Fall ein Skript
schreiben, dass die mithilfe von Bogofilter/SA(mit Razor/Pyzor/DCC)
aussortierten Mails zusätzlich an SA/Bogofilter weiterreicht (falls die
Bewertung noch nicht zum automatischen Lernen ausreicht).

>  Denn es soll 
> ja erkannt werden, welche Mails für dich persönlich ham/spam sind. Z.B. 
> könnte für einen selbst der monatliche Newsletter eines Freemail 
> Dienstes interessant sein, für jemand anderen ist die gleiche Mail 
> jedoch spam.

IMHO unglücklich gewähltes Beispiel. Nur wenn ich den Newsletter lesen
will, habe ich ihn auch abonniert. Und dann werde ich diese Mails vor SA
oder Bogofilter ausfiltern. Ähnlich praktiziere ich das bei
Mailinglisten. Die meisten nutzen schon SA auf dem Listenserver. Das
muss ich dann nicht auch noch lokal machen und mein System belasten.
Solche Sachen kann man vorher herausfiltern (u.U. auf die SA-Header).
Das schont den Bayes-Filter und die Systemresourcen. Zusätzlich würde
das Durchleiten aller E-Mails durch den Bayes-Filter die Effektivität
des Filters nach meiner Meinung herabsetzen. Ansonsten aber o.k. Da hat
jeder seine eigenen Vorlieben und Strategien. Ich habe Bogofilter einen
Tag angelernt und seit dem lernt er selbständig. SA bekommt gerade mal
noch 1 von vielleicht 200-300 Spam-Mails zu Gesicht und filtert diese
mithilfe von Razor/Pyzor/DCC sehr zuverlässig. Per Skript wird
Bogofilter einmal täglich mit diesen Mails bekannt gemacht und kennt sie
dann am nächsten Tag. Fast alle von Bogofilter aussortierten Spam-Mails
kommen auf eine Gesamtbewertung (spamicity) von 1.0. 

> Auch sollte sich die Anzahl der ham und spam mails nicht zu stark 
> unterscheiden. Wenn du jetzt 1 GB spam mails hast und nur z.B. 100 MB 
> ham mails, kann es gut sein, dass die spam Erkennung zu scharf 
> verläuft und so ham mails als spam klassifiziert werden.

Das kommt IMO darauf an, wie sich Ham und Spam zusammensetzen. Wer fast
nur deutschsprachigen E-Mail-Verkehr pflegt, dem kann das Verhältnis
zwischen Spam und Ham mehr oder weniger egal sein, da die Spam-Mails
fast ausschließlich englischsprachig sind. Die Gefahr von
false-positives ist in diesem Fall sehr gering.

MfG Daniel

signature.asc
Description: Dies ist ein digital signierter Nachrichtenteil

Re: Spammails von Spamarchive.org

Antwort per Email an