Hallo, das ist nur halb korrekt. Ich habe bereits seit zwei Jahren ein Programm laufen, das auf Basis von Naive Bayes [1] sämtliche neue Artikel von IPs bewertet [2]. Dabei sind alle Artikel positiv, die nach 7 Tagen noch existieren, alle anderen negativ (also alle, die schnellgelöscht wurden sind "SPAM"). Seit das läuft wurden 440.000 Artikel bewertet, wovon 350.000 SPAM waren (also innerhalb der ersten 7 Tage wurden knapp 80% gelöscht). Wie das bei Naive Bayes so ist kann man schön für jedes Wort sehen, wie oft es in SPAM-Artikeln vorkam und wie oft in HAM-Artikeln und es gibt wenige Überraschungen (67% aller Vorkommen von "das" waren in Spam-Artikeln - das liegt im Durchschnitt, wohingegen über 99% aller Vorkommen von "mudda" in Spam-Artikeln waren und nur 35% aller Vorkommen von "Kirche" in Spam-Artikeln waren).
Für jeden neuen Artikel wird eine Spam-Klassifikation vorgenommen, die von 0 bis 100% reicht. Um den Erfolg zu messen, protokolliere ich, wie es sich dann wirklich verhält. Es lässt sich dabei erkennen, dass der Anteil echter SPAM-Artikel mit der Spam-Wahrscheinlichkeit korreliert. Aber selbst von den Artikeln mit 0% werden am Ende knapp über 50% gelöscht und von denen mit über 98% Spam-Wahrscheinlichkeit werden trotzdem rund 3,5% behalten! Automatisch kann man daher mit einfachen Mitteln meiner Meinung nach nicht viel tun. Vermutlich kann man mit besseren Algorithmen ein wenig mehr erreichen (Naive Bayes ist ja einer der einfachsten, aber Thunderbird arbeitet auch mit nicht viel besserem). 100% Sicherheit wird man aber nicht hinbekommen. Und ich spreche mich stark dagegen aus, etwas automatisch zu löschen. Bei all den Diskussionen sind die Artikel, die so einwandfrei Spam sind, dass sie ein Algorithmus erkennen könnte, nicht das Problem - diese werden zu den meisten Zeiten verdammt schnell gelöscht - das kostet ja kaum Zeit. Problematisch sind die Fälle, in denen halt selbst für einen Menschen schwierig zu entscheiden ist, was man mit dem schlechten Artikelanfang macht. Grüße, Christian Thiele [1] http://de.wikipedia.org/wiki/Bayes-Klassifikator [2] http://toolserver.org/~apper/npp/ _______________________________________________ WikiDE-l mailing list [email protected] https://lists.wikimedia.org/mailman/listinfo/wikide-l
