Re: Spammails von Spamarchive.org

2004-06-04 Diskussionsfäden Michelle Konzack
Am 2004-06-03 10:15:04, schrieb Martin Hennes:

>Hallo,
>
>Tip: verwende die Kombination mailfilter/bogofilter, mailfilter killt

Den würde ich nur einsetzen, wenn ich weis, das die E-Maisl grüßer als 
10 kByte sind. Habe eine Header/Body analyse gemacht und es ist bei den 
Mailinglisten nicht rentabel.

Will damit sagen: 

Die meisten Header sind wesentlich größer als der Body, womit 
bei der Verwendung vin 'mailfilter' doppelte Traffic entsteht.

>anhand der Header bereits auf dem Server (pop3) , bogofilter erledigt
>lokal den Rest. Das ganze läuft deutlich effektiver als spamassassin. Im

Also bogofilter hatte bei mir wesentlich niedrigere Hits als 
spamassassin mit dem bayesian filter.

>Netz findest du für mailfilter recht gute Beispiele für die
>.mailfilterrc, bogofilter musst du mit spam und ham trainieren.
>
>MfGMartin

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917  ICQ #328449886
   50, rue de Soultz MSM LinuxMichi
0033/3/8845235667100 Strasbourg/France   IRC #Debian (irc.icq.com)


signature.pgp
Description: Digital signature


Re: Spammails von Spamarchive.org

2004-06-03 Diskussionsfäden Marcus Frings
* Michael Gerhards <[EMAIL PROTECTED]> wrote:

> Eben weil ich diese Probleme mit SpamAssassin hatte, läuft bei mir
> inzwischen die Kombination Bogofilter + SpamAssassin. Das ist deutlich
> effektiver und verursacht sogar noch weniger Last.

Das ja, bogofilter ist etwas ressourcenschonender als SA. Aber
andererseits ist ein SA mit Bayes, pyzor, razor, DCC, RBL und
zusätzlichen Regelsätzen schon eine feine Sache. Erwischen tut er bei
mir wirklich alles. Gelegentlich habe ich zwar mal ein FP, aber dies
tritt nur bei einer einzigen Person ein.

> Mailfilter hatte ich mir auch schonmal angeschaut, aber mir widerstrebt
> es, Mails komplett wegzuwerfen, wenn ich sie noch garnicht gesehen habe.

Och nö, am Subject kann man sehr schön /typischen/ Spam erkennen und
wegfiltern. Und es gibt genug Idioten/Harvester, die eine MID für eine
E-Mail-Adresse halten, was sich dann wiederum wunderbar über
TO: filtern lässt. Catch-all am MTA mag ich eigentlich nicht
abstellen.

Gruß,
Marcus
-- 
"Was ist für einen Mann das schönste in seinem Leben?" - "Eine weite Steppe,
ein schnelles Pferd, der Falke auf seiner Faust und der Wind in seinem Haar." -
"Falsch! Conan, sag Du es mir!" - "Zu kämpfen mit dem Feind, ihn zu verfolgen
und zu vernichten und sich zu erfreuen an dem Geschrei der Weiber."


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: Spammails von Spamarchive.org

2004-06-03 Diskussionsfäden Michael Gerhards
Martin Hennes <[EMAIL PROTECTED]> wrote:
> 
>> Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100
>> Mails auf einmal, und das auf einem P200 mit 32MB RAM. Da macht
>> SpamAssassin nicht wirklich Spaß... :-(
> 
> Tip: verwende die Kombination mailfilter/bogofilter, mailfilter killt
> anhand der Header bereits auf dem Server (pop3) , bogofilter erledigt
> lokal den Rest. Das ganze läuft deutlich effektiver als spamassassin. Im
> Netz findest du für mailfilter recht gute Beispiele für die
> .mailfilterrc, bogofilter musst du mit spam und ham trainieren.

Danke für den Tip, aber hier scheinen alle den Thread nur halb zu lesen
:-)

Eben weil ich diese Probleme mit SpamAssassin hatte, läuft bei mir
inzwischen die Kombination Bogofilter + SpamAssassin. Das ist deutlich
effektiver und verursacht sogar noch weniger Last.
Mailfilter hatte ich mir auch schonmal angeschaut, aber mir widerstrebt
es, Mails komplett wegzuwerfen, wenn ich sie noch garnicht gesehen habe.

Trotzdem Danke,

Michael


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: Spammails von Spamarchive.org

2004-06-03 Diskussionsfäden Martin Hennes
On Wed, 2 Jun 2004 15:48:56 -
Michael Gerhards <[EMAIL PROTECTED]> wrote:


> Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100
> Mails auf einmal, und das auf einem P200 mit 32MB RAM. Da macht
> SpamAssassin nicht wirklich Spaß... :-(

Hallo,

Tip: verwende die Kombination mailfilter/bogofilter, mailfilter killt
anhand der Header bereits auf dem Server (pop3) , bogofilter erledigt
lokal den Rest. Das ganze läuft deutlich effektiver als spamassassin. Im
Netz findest du für mailfilter recht gute Beispiele für die
.mailfilterrc, bogofilter musst du mit spam und ham trainieren.

MfG Martin

-- 
carpe diem



Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Christian Schmidt
Hallo Michelle,

Michelle Konzack, 02.06.2004 (d.m.y):

> Frage:Wenn Du nur 32 MB hast, warum besorgste Dir nicht auf 
>   eBay 4 32-MByte Module... Die hauen voll rein !

Ich wuerde da noch massiver zuschlagen und soviel RAM in die Kiste
stopfen wie sie vertraegt...

Meinen "Home-Server" habe ich vor einiger Zeit von 160 MB auf 640 MB
aufruesten koennen. Seitdem laeuft er erheblich stabiler - gerade beim
Mailabrufen: Ich arbeite hier jeweils "mit doppeltem Boden" (je zwei
Virenscanner und Anti-Spam-Tools).
Obwohl der Load-Wert zeitweise ueber 10 steigt, laeuft das System
(Woody mit Kernel 2.6.5) stabil...

Gruss,
Christian
-- 
Verliert der Bauer seine Hose, war bestimmt der Gummi lose.


signature.asc
Description: Digital signature


Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden David Hansen
On Wed, 02 Jun 2004 20:24:01 +0200 Rainer Bendig wrote:

> Michael Gerhards schrieb am 02.06.2004 17:48:
>
> | Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100 Mails
> | auf einmal, und das auf einem P200 mit 32MB RAM. Da macht SpamAssassin
> | nicht wirklich Spaß... :-(
>
> Bei mir waren es nach 9 h ohne die Möglichkeit pop3/imap zu dürfen 170
> e-Mails a 4 - 6 kb. Es läuft hier auf einem P4 2800 + 1024 MB Ram
> fetchmail, spamassasin, amavis+antivir+clamav, postfix email Zustellung.
>
> Die Systemlast war trotz dem dass nur noch gdm im hintergrund lief bei
> knappen 11.3 laut uptime stellenweise. Das macht auch nicht wirklich Spass..
>
> Kann man den Prozess eigentlich in irgendeiner Form tracen um so die
> durchschnittliche CPU Last zu erfahren?

Benutzt ihr spamd?

,[ /etc/default/spamassassin ]
| # /etc/default/spamd.conf
| # Duncan Findlay
| 
| # WARNING read README.spamd before using.  THERE ARE SECURITY RISKS!
| 
| # Change to one to enable spamd
| ENABLED=1
| 
| # Options
| # See man spamd for possible options. The -d option is automatically added.
| OPTIONS="-a -c -m 10 -H"
| 
| # Set nice level of spamd
| NICE="--nicelevel 15"
`

Es dauert zwar immer noch recht lange bis die ganzen Mails durch
sind aber immerhin ist der Rechner in der Zwischenzeit benutzbar.

David


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Michelle Konzack
Am 2004-06-02 20:18:09, schrieb Michael Gerhards:
>Michelle Konzack <[EMAIL PROTECTED]> wrote:

>> Frage:  Wenn Du nur 32 MB hast, warum besorgste Dir nicht auf 
>>eBay 4 32-MByte Module... Die hauen voll rein !
>
>Für den normalen Bedarf reicht's ja aus, und für die eine Lastspitze
>täglich... Außerdem mag ich Ebay nicht...

Hast Du im Ort keinen PC-Gebrauchthändler ?
Alleine schon 32 mehr machen vergnügen.

>Michael

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917  ICQ #328449886
   50, rue de Soultz MSM LinuxMichi
0033/3/8845235667100 Strasbourg/France   IRC #Debian (irc.icq.com)


signature.pgp
Description: Digital signature


Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Michelle Konzack
Am 2004-06-02 22:12:49, schrieb Rainer Bendig, Digitally Impressed:
>-BEGIN PGP SIGNED MESSAGE-
>Hash: SHA1
>
>Hossa!
>
>Michelle Konzack schrieb am 02.06.2004 21:17:
>| Da haste aber noch andere probleme denke ich...
>
>jo denke ich auch :-(
>$fetchmail -d 60
>läuft unter einem seperatem User, holt die e-Mails ab, leitet sie an den
>realen "empfänger"

USER fetchmail ?

>hmmm der Mail Header sieht recht zerhackt aus, allerdings hab ich die
>konfig auch erst spät abends ohne kaffee zum Laufen gebracht ... und
>jene ist defakto im mom sowieso erstmal zum testen ...
>
>Delivered-To: [EMAIL PROTECTED]
>Mailheader:
>Received: from localhost (localhost [127.0.0.1])
>   by *** (Postfix) with ESMTP id 9D8A2CACA3
>   for <[EMAIL PROTECTED]>; Wed,  2 Jun 2004 19:56:29 +0200 (CEST)
>Received: from localhost (localhost [127.0.0.1])
>   by *** (Postfix) with ESMTP id 97F24CACA1
>   for <[EMAIL PROTECTED]>; Wed,  2 Jun 2004 19:22:05 +0200 (CEST)

Bei Postfix kann ich Dir nicht helfen...

>Received: from *** [***.***.***.***]
>   by localhost with POP3 (fetchmail-6.2.5)
>   for [EMAIL PROTECTED] (single-drop); Wed, 02 Jun 2004 19:22:24 +0200 
>   (CEST)

Dem kannste die Fress... stopfen.  :-)

Global Options: set invisible


>(Eigentlich) Sollte meine Konfig die mails via fetchmail holen ... und
>sie dann über sa/amavis in meinen Account hauen. Weshalb bei mir nun
>zweimal der Localhostheader steht, kann ich im Moment nicht nachvollziehen.

fetchmail als USER fetchmal -> postfix -> sa/amavis -> postfix -> $USER

>So long,
>
>Rainer Bendig aka "mindz"

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917  ICQ #328449886
   50, rue de Soultz MSM LinuxMichi
0033/3/8845235667100 Strasbourg/France   IRC #Debian (irc.icq.com)


signature.pgp
Description: Digital signature


Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Michael Gerhards
Michelle Konzack <[EMAIL PROTECTED]> wrote:
>>
>>Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100 Mails
>>auf einmal, und das auf einem P200 mit 32MB RAM. Da macht SpamAssassin
>>nicht wirklich Spaß... :-(
> 
> Auf der Kiste waren fetchmail, procmail, spamassassin, f-prot, 
> courier-{mta,imap,webadmin}, apache, proftpd, nfs-kerne-server, 
> samba und netatalk.

Da läuft bei mir tatsächlich deutlich weniger: fetchmail, exim,
procmail, spamassassin, cyrus, leafnode, squid.

> Ich gehe mal davon aus, das bei die spamassassin/spamc parallel 
> aufgerufen wird, womit du natürlich die CPU-Last hochjagst.

Sonderlich viele waren's nicht, ich hab spamd mit "-m 4" gestartet.
Trotzdem war das System unheimlich zäh, IMAP (Cyrus) über's Netz dauerte
Ewigkeiten, selbst der ssh-Zugriff war sehr langsam.

> Frage:  Wenn Du nur 32 MB hast, warum besorgste Dir nicht auf 
>eBay 4 32-MByte Module... Die hauen voll rein !

Für den normalen Bedarf reicht's ja aus, und für die eine Lastspitze
täglich... Außerdem mag ich Ebay nicht...

Michael


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Michael Gerhards
Joerg Rieger <[EMAIL PROTECTED]> wrote:
>> 
>> | Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100 Mails
>> | auf einmal, und das auf einem P200 mit 32MB RAM. Da macht SpamAssassin
>> | nicht wirklich Spaß... :-(
> 
> habt Ihr denn den spamc laufen? 

Ja, u.a. mit "-m 4".

> Ansonsten schaut euch mal bogofilter an, der macht sich hier ganz 
> ordentlich. Läuft bei mir auf einem P166 mit 64 MB RAM recht klaglos.

Den hab ich ja inzwischen vor meinen SpamAssassin geschaltet und seitdem
deutlich weniger Probleme :-)

Michael



-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Rainer Bendig, Digitally Impressed
-BEGIN PGP SIGNED MESSAGE-
Hash: SHA1
Hossa!
Michelle Konzack schrieb am 02.06.2004 21:17:
| Da haste aber noch andere probleme denke ich...
jo denke ich auch :-(
$fetchmail -d 60
läuft unter einem seperatem User, holt die e-Mails ab, leitet sie an den
realen "empfänger"
hmmm der Mail Header sieht recht zerhackt aus, allerdings hab ich die
konfig auch erst spät abends ohne kaffee zum Laufen gebracht ... und
jene ist defakto im mom sowieso erstmal zum testen ...
Delivered-To: [EMAIL PROTECTED]
Mailheader:
Received: from localhost (localhost [127.0.0.1])
by *** (Postfix) with ESMTP id 9D8A2CACA3
for <[EMAIL PROTECTED]>; Wed,  2 Jun 2004 19:56:29 +0200 (CEST)
Received: from localhost (localhost [127.0.0.1])
by *** (Postfix) with ESMTP id 97F24CACA1
for <[EMAIL PROTECTED]>; Wed,  2 Jun 2004 19:22:05 +0200 (CEST)
Received: from *** [***.***.***.***]
by localhost with POP3 (fetchmail-6.2.5)
for [EMAIL PROTECTED] (single-drop); Wed, 02 Jun 2004 19:22:24 +0200 (CEST)
[...]
X-Virus-Scanned: by AMaViS 0.3.13pre2
X-Spam-Checker-Version: SpamAssassin 2.63 (2004-01-11) on mindz
X-Spam-Level:
X-Spam-Status: No, hits=0.2 required=5.0 tests=RCVD_IN_NJABL,RCVD_IN_SORBS
autolearn=no version=2.63
X-Spam-Pyzor:
(Eigentlich) Sollte meine Konfig die mails via fetchmail holen ... und
sie dann über sa/amavis in meinen Account hauen. Weshalb bei mir nun
zweimal der Localhostheader steht, kann ich im Moment nicht nachvollziehen.
| So grafisch oder curses mäßig auf der console fürde mich das auch
| interesieren...
Mt persönlich würde schon ein Log reichen ala
time | email größe | email teile | benötigte zeit | cpuload | sysload
- --
So long,
Rainer Bendig aka "mindz"
- --
PGP/GPG key  (ID: 0x247FECD5) available via wwwkeys.de.pgp.net
key-fingerprint 0011 7284 1A48 9AF7 8EA8 EB35 17B2 0B55 247F ECD5
- --
()  ascii ribbon campaign - against html mail
/\  http://arc.pasp.de/   - against microsoft attachments
-BEGIN PGP SIGNATURE-
Version: GnuPG v1.2.5rc1 (GNU/Linux)
iD8DBQFAvjTBi1D4EGbeRE8RAl/GAKCtTFSCM/xtNuc4L9FNvu834L+NoACcDvs+
3ZtksuQ3z7VQl7MElruXw1Y=
=QEfD
-END PGP SIGNATURE-
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Michelle Konzack
Am 2004-06-02 20:46:09, schrieb Joerg Rieger:
>On Wed, Jun 02, 2004 at 08:24:01PM +0200, Rainer Bendig, Digitally Impressed wrote:
>> Michael Gerhards schrieb am 02.06.2004 17:48:
>> 
>> | Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100 Mails
>> | auf einmal, und das auf einem P200 mit 32MB RAM. Da macht SpamAssassin
>> | nicht wirklich Spaß... :-(
>> 
>> Bei mir waren es nach 9 h ohne die Möglichkeit pop3/imap zu dürfen 170
>> e-Mails a 4 - 6 kb. Es läuft hier auf einem P4 2800 + 1024 MB Ram
>> fetchmail, spamassasin, amavis+antivir+clamav, postfix email Zustellung.
>> 
>> Die Systemlast war trotz dem dass nur noch gdm im hintergrund lief bei
>> knappen 11.3 laut uptime stellenweise. Das macht auch nicht wirklich Spass..
>
>habt Ihr denn den spamc laufen? 

Verwende spamc und f-prot, wobei f-prot nur sehr selten 
(10-20 mal pro Woche) verwendet wird

>Ansonsten schaut euch mal bogofilter an, der macht sich hier ganz 
>ordentlich. Läuft bei mir auf einem P166 mit 64 MB RAM recht klaglos.

Also nachdem ich lezte Woche Besucher (Linux-User aus Strasbourg und 
Kehl) hatte, die sich die Sache mit sind wir uns noch nicht gant im 
klaren, was an meiner Konfiguration wesentlich anderst ist.

Vieleicht liegt es aber daran, das ich "maildir" verwende und das 
locking entfällt denn mit Mailboxen hatte ich früher erhebliche 
performance Probleme. 

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917  ICQ #328449886
   50, rue de Soultz MSM LinuxMichi
0033/3/8845235667100 Strasbourg/France   IRC #Debian (irc.icq.com)


signature.pgp
Description: Digital signature


Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Michelle Konzack
Am 2004-06-02 20:24:01, schrieb Rainer Bendig, Digitally Impressed:

>Bei mir waren es nach 9 h ohne die Möglichkeit pop3/imap zu dürfen 170
>e-Mails a 4 - 6 kb. Es läuft hier auf einem P4 2800 + 1024 MB Ram
>fetchmail, spamassasin, amavis+antivir+clamav, postfix email Zustellung.

???  -  Die Kiste hat ein vielfaches der Leistung meines Duron 1600 mit 
128 MByte und ich habe keine schwierigkeiten...

War einen Tag offline wegen des courier-mta problems und habe über 4000
Messages mit ner 512er ADSL runteladen müssen. Die sache war in weniger 
als 3 Stunden erledigt. Ich mußte 176 E-Mail-Accounts leeren.

>Die Systemlast war trotz dem dass nur noch gdm im hintergrund lief bei
>knappen 11.3 laut uptime stellenweise. Das macht auch nicht wirklich Spass..

Da haste aber noch andere probleme denke ich...

>Kann man den Prozess eigentlich in irgendeiner Form tracen um so die
>durchschnittliche CPU Last zu erfahren?

So grafisch oder curses mäßig auf der console fürde mich das auch 
interesieren...

>So long,
>
>Rainer Bendig aka "mindz"

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917  ICQ #328449886
   50, rue de Soultz MSM LinuxMichi
0033/3/8845235667100 Strasbourg/France   IRC #Debian (irc.icq.com)


signature.pgp
Description: Digital signature


Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Michelle Konzack
Am 2004-06-02 15:48:56, schrieb Michael Gerhards:
>Michelle Konzack <[EMAIL PROTECTED]> wrote:
>> 
>> Gut, 3800 Messages pro Tag ist extrem, aber ich habe auch jede menge 
>> $USER zu verwalten... Denke das ein Normal-Linux-User mit ein paar ML 
>> warscheinlich nur 500-1000 Messages pro Tag bekommt
>> 
>> Ich habe die Last noch nicht mal auf nem PII/333 mit 160 MB DIMM 
>> (Workstation) gemerkt.
>
>Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100 Mails
>auf einmal, und das auf einem P200 mit 32MB RAM. Da macht SpamAssassin
>nicht wirklich Spaß... :-(

???

Also mein FileServer WAR ein HP Vectra XA5/200 mit 32 MB, 3w6407 
und drei IBM 120er Platten. 

Auf der Kiste waren fetchmail, procmail, spamassassin, f-prot, 
courier-{mta,imap,webadmin}, apache, proftpd, nfs-kerne-server, 
samba und netatalk.

Außer bei samba habe ich keine großem probleme...

Ich gehe mal davon aus, das bei die spamassassin/spamc parallel 
aufgerufen wird, womit du natürlich die CPU-Last hochjagst.

Gut, bei mir benötigt er 25-40% mehr zeit zum runterladen der 
E-Mails, aber die load bleibt untern und der Rechner benutzbar.

Frage:  Wenn Du nur 32 MB hast, warum besorgste Dir nicht auf 
eBay 4 32-MByte Module... Die hauen voll rein !

Nun habe ich einen neuen FileServer mit einem Duron 1600 und 
128 MB Ram und die load ist so niedrig, das sich die CPU einfach 
nur langeweilt. Läuft übrigends nur auf 1200 MHz.   :-)
Muß ja nicht jeder Overclocken :-)

Habe lezte Woche die Kiste mit meiner Collection von 8700 Viren 
bombardiert... Die Last war zwischen 1.3 und 2.5.

>Michael

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917  ICQ #328449886
   50, rue de Soultz MSM LinuxMichi
0033/3/8845235667100 Strasbourg/France   IRC #Debian (irc.icq.com)


signature.pgp
Description: Digital signature


Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Joerg Rieger
On Wed, Jun 02, 2004 at 08:24:01PM +0200, Rainer Bendig, Digitally Impressed wrote:
> Michael Gerhards schrieb am 02.06.2004 17:48:
> 
> | Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100 Mails
> | auf einmal, und das auf einem P200 mit 32MB RAM. Da macht SpamAssassin
> | nicht wirklich Spaß... :-(
> 
> Bei mir waren es nach 9 h ohne die Möglichkeit pop3/imap zu dürfen 170
> e-Mails a 4 - 6 kb. Es läuft hier auf einem P4 2800 + 1024 MB Ram
> fetchmail, spamassasin, amavis+antivir+clamav, postfix email Zustellung.
> 
> Die Systemlast war trotz dem dass nur noch gdm im hintergrund lief bei
> knappen 11.3 laut uptime stellenweise. Das macht auch nicht wirklich Spass..

habt Ihr denn den spamc laufen? 

Ansonsten schaut euch mal bogofilter an, der macht sich hier ganz 
ordentlich. Läuft bei mir auf einem P166 mit 64 MB RAM recht klaglos.

-- 


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Rainer Bendig, Digitally Impressed
-BEGIN PGP SIGNED MESSAGE-
Hash: SHA1
Michael Gerhards schrieb am 02.06.2004 17:48:
| Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100 Mails
| auf einmal, und das auf einem P200 mit 32MB RAM. Da macht SpamAssassin
| nicht wirklich Spaß... :-(
Bei mir waren es nach 9 h ohne die Möglichkeit pop3/imap zu dürfen 170
e-Mails a 4 - 6 kb. Es läuft hier auf einem P4 2800 + 1024 MB Ram
fetchmail, spamassasin, amavis+antivir+clamav, postfix email Zustellung.
Die Systemlast war trotz dem dass nur noch gdm im hintergrund lief bei
knappen 11.3 laut uptime stellenweise. Das macht auch nicht wirklich Spass..
Kann man den Prozess eigentlich in irgendeiner Form tracen um so die
durchschnittliche CPU Last zu erfahren?
- --
So long,
Rainer Bendig aka "mindz"
- --
Falkenstr. 75   Tel. 07161 946120 [EMAIL PROTECTED]
73035 Göppingen Mob. 0174 8708041http://DigitallyImpressed.com
- --
PGP/GPG key  (ID: 0xF0A7738A) available via wwwkeys.de.pgp.net
key-fingerprint 178F E5C5 D423 0C6F 7DC9 B6DD A6B5 58B9 F0A7 738A
- --
()  ascii ribbon campaign - against html mail
/\  http://arc.pasp.de/   - against microsoft attachments
-BEGIN PGP SIGNATURE-
Version: GnuPG v1.2.5rc1 (GNU/Linux)
iD8DBQFAvhtBi1D4EGbeRE8RAsgPAJ9w1y+G/55PeRyr1MKVRo6fGIoXigCeMurf
T6eReI6PRHeYFcmh/CGsqvw=
=ZGSl
-END PGP SIGNATURE-
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Spammails von Spamarchive.org

2004-06-02 Diskussionsfäden Michael Gerhards
Michelle Konzack <[EMAIL PROTECTED]> wrote:
> 
> Gut, 3800 Messages pro Tag ist extrem, aber ich habe auch jede menge 
> $USER zu verwalten... Denke das ein Normal-Linux-User mit ein paar ML 
> warscheinlich nur 500-1000 Messages pro Tag bekommt
> 
> Ich habe die Last noch nicht mal auf nem PII/333 mit 160 MB DIMM 
> (Workstation) gemerkt.

Abrufen von Mails, nachdem der Rechner über Nacht aus war => ~100 Mails
auf einmal, und das auf einem P200 mit 32MB RAM. Da macht SpamAssassin
nicht wirklich Spaß... :-(

Michael


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: Spammails von Spamarchive.org

2004-06-01 Diskussionsfäden Michelle Konzack
Am 2004-06-01 13:20:09, schrieb Daniel Leidert:

>> Ich kompiliere sogar über Netzwerk...
>
>Hier läuft alles auf der Workstation, weil mehr oder weniger
>Einzelplatz.

Wo ist das problem ?  -  Auf dem FileServer habe ich mit SA und f-prot 
noch nie eine load über 0.5 gehabt...

Gut, 3800 Messages pro Tag ist extrem, aber ich habe auch jede menge 
$USER zu verwalten... Denke das ein Normal-Linux-User mit ein paar ML 
warscheinlich nur 500-1000 Messages pro Tag bekommt

Ich habe die Last noch nicht mal auf nem PII/333 mit 160 MB DIMM 
(Workstation) gemerkt.

>MfG Daniel

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917  ICQ #328449886
   50, rue de Soultz MSM LinuxMichi
0033/3/8845235667100 Strasbourg/France   IRC #Debian (irc.icq.com)


signature.pgp
Description: Digital signature


Re: Spammails von Spamarchive.org

2004-06-01 Diskussionsfäden Daniel Leidert
Am Di, den 01.06.2004 schrieb Michelle Konzack um 11:59:
> Am 2004-06-01 02:19:04, schrieb Daniel Leidert:
> >Am Di, den 01.06.2004 schrieb Michelle Konzack um 1:23:
> >> Am 2004-05-31 23:05:39, schrieb Daniel Leidert:
> >> 
> >> >ACK. Der Bayes-Filter von SA fängt ja sowieso erst bei 200 angelernten
> >> >Ham- und der gleiche Menge Spam-Mails an zu arbeiten.
> >> 
> >> Interessant, den ich habe spamassassin 2.63 erst lezten Monat 
> >> installiert, sprich ich verwende ihn seit 3 Wochen und er hat 
> >> mehr als 3000 SPAM gefiltert. Davon sind 7 kein Spam gewesen 
> >> die ich mit 'sa-learn --ham' verfüttert habe.
> >
> >Dann arbeitet der Bayes-Filter noch nicht. Ein
> ># spamassassin --lint -D
> 
[Ausgabe gesnippt]
> >sollte Klarheit schaffen. Wenn in der Spam- oder Ham-Datenbank weniger
> >als 200 Einträge sind, gibt er eine entsprechende Meldung aus, dass der
> >Bayes-Filter nicht genutzt wird.
> 
> Ach ja ?

Ja.

> >> Also der SPAM hat sich innerhalb von drei ochen drastisch reduziert...
> >
> >Möglicherweise arbeiten die Datenbanken für Spam und Ham unabhängig
> >voneinander. Aber mein Wissensstand ist: SA benötigt für beides 200
> 
> In der man/docu stehen 2000

man Mail::SpamAssassin::Conf sagt: 
| bayes_min_ham_num(Default: 200)
| bayes_min_spam_num   (Default: 200)

Und die Ausgabe von spamassassin --lint -D stimmt dem zu, wenn zuwenig
Einträge vorhanden sind.

> >> >Bogofilter vor SA hat bei mir zu einer deutlichen Verbesserung des
> >> >Ergebnisses beigetragen.
> >> 
> >> ???  Durchgerutschte Mails kannste direkt an 'sa-learn --spam' 
> >> verfüttern. Das recht vollständig aus.
> >
> >Ich weiß. Für mich funktioniert aber die andere Lösung besser. Und wie
> >schon angemerkt wurde, ist Bogofilter deutlich angenehmer für die
> >Systemresourcen.
> 
> Da ich adsl 512 zu hause habe, checke ich die 176 Mailaccounte 
> alle 10 Minuten... Da brauche ich mich um Systemüberlastung nicht 
> beklagen. Vor allem mußte ich vor zwei Wochen wegen meiner Samsung 
> Festplatten eine neues MB+CPU+RAM kaufen. Duron 1600 mit 128 MB.
> Der langweilt sich bei den 3800 Mails pro Tag (ist nur ein FileServer)
> 
> Ich kompiliere sogar über Netzwerk...

Hier läuft alles auf der Workstation, weil mehr oder weniger
Einzelplatz.

MfG Daniel



signature.asc
Description: Dies ist ein digital signierter Nachrichtenteil


Re: Spammails von Spamarchive.org

2004-06-01 Diskussionsfäden Michelle Konzack
Am 2004-06-01 02:19:04, schrieb Daniel Leidert:
>Am Di, den 01.06.2004 schrieb Michelle Konzack um 1:23:
>> Am 2004-05-31 23:05:39, schrieb Daniel Leidert:
>> 
>> >ACK. Der Bayes-Filter von SA fängt ja sowieso erst bei 200 angelernten
>> >Ham- und der gleiche Menge Spam-Mails an zu arbeiten.
>> 
>> Interessant, den ich habe spamassassin 2.63 erst lezten Monat 
>> installiert, sprich ich verwende ihn seit 3 Wochen und er hat 
>> mehr als 3000 SPAM gefiltert. Davon sind 7 kein Spam gewesen 
>> die ich mit 'sa-learn --ham' verfüttert habe.
>
>Dann arbeitet der Bayes-Filter noch nicht. Ein
># spamassassin --lint -D

   (stdin) _
 /
|  debug: Score set 0 chosen.
|  debug: running in taint mode? yes
|  debug: Running in taint mode, removing unsafe env vars, and resetting PATH
|  debug: PATH included '/home/michelle/bin', keeping.
|  debug: PATH included '/bin', keeping.
|  debug: PATH included '/sbin', keeping.
|  debug: PATH included '/usr/bin', keeping.
|  debug: PATH included '/usr/sbin', keeping.
|  debug: PATH included '/usr/X11R6/bin', keeping.
|  debug: Final PATH set to: 
/home/michelle/bin:/bin:/sbin:/usr/bin:/usr/sbin:/usr/X11R6/bin
|  debug: ignore: using a test message to lint rules
|  debug: using "/usr/share/spamassassin" for default rules dir
|  debug: using "/etc/spamassassin" for site rules dir
|  debug: using "/home/michelle/.spamassassin" for user state dir
|  debug: using "/home/michelle/.spamassassin/user_prefs" for user prefs file
|  debug: using "/home/michelle/.spamassassin" for user state dir
|  debug: bayes: 21493 tie-ing to DB file R/O /home/michelle/.spamassassin/bayes_toks
|  debug: bayes: 21493 tie-ing to DB file R/O /home/michelle/.spamassassin/bayes_seen
|  debug: bayes: found bayes db version 2
|  debug: Score set 3 chosen.
|  debug: Initialising learner
|  debug: is Net::DNS::Resolver available? no
|  debug: is DNS available? 0
|  debug: running header regexp tests; score so far=0
|  debug: running body-text per-line regexp tests; score so far=2.077
|  debug: bayes corpus size: nspam = 4755, nham = 20034
|  debug: uri tests: Done uriRE
|  debug: tokenize: header tokens for *F = "U*ignore 
D*compiling.spamassassin.taint.org D*spamassassin.taint.org D*taint.org D*org"
|  debug: tokenize: header tokens for *m = " 1086083565 lint_rules "
|  debug: bayes token 'somewhat' => 0.000356055592322965
|  debug: bayes token 'H*F:D*org' => 0.0960428947134029
|  debug: bayes: score = 0.00259285488725947
|  debug: using "/home/michelle/.spamassassin" for user state dir
|  debug: bayes: 28493 untie-ing
|  debug: bayes: 28493 untie-ing db_toks
|  debug: bayes: 28493 untie-ing db_seen
|  debug: Razor2 is not available
|  debug: running raw-body-text per-line regexp tests; score so far=2.077
|  debug: running uri tests; score so far=2.077
|  debug: uri tests: Done uriRE
|  debug: running full-text regexp tests; score so far=2.077
|  debug: Razor2 is not available
|  debug: DCCifd is not available: no r/w dccifd socket found.
|  debug: Current PATH is: 
/home/michelle/bin:/bin:/sbin:/usr/bin:/usr/sbin:/usr/X11R6/bin
|  debug: DCC is not available: no executable dccproc found.
|  debug: Pyzor is not available: pyzor not found
|  debug: all '*From' addrs: [EMAIL PROTECTED]
|  debug: all '*To' addrs: 
|  debug: running meta tests; score so far=2.077
|  debug: is spam? score=-2.823 required=4 tests=BAYES_00,DATE_MISSING,NO_REAL_NAME
 \

>sollte Klarheit schaffen. Wenn in der Spam- oder Ham-Datenbank weniger
>als 200 Einträge sind, gibt er eine entsprechende Meldung aus, dass der
>Bayes-Filter nicht genutzt wird.

Ach ja ?

>> Seit einer Woche habe ich keinen FP gehabt...
>
>Nur interessahlber. Wofür steht FP?

False-Positives

>> Allerdings sind noch rund 70 SPAMS durchgerutscht die ich sofort 
>> an 'sa-learn --spam' verfütterte...
>
>Hatte ich auch eine Weile probiert. Das Problem war, dass die Trennung
>zwischen Ham und Spam nicht sehr deutlich war. Am Ende habe ich bei 3.5
>Spam-Punkten gefiltert. Bei Bogofilter ist die Trennung bei mir deutlich
>besser. SA dient nur dazu, dahinter alles abzuräumen.

Ich habe SA auf 4.0 gesetzt

>> Also der SPAM hat sich innerhalb von drei ochen drastisch reduziert...
>
>Möglicherweise arbeiten die Datenbanken für Spam und Ham unabhängig
>voneinander. Aber mein Wissensstand ist: SA benötigt für beides 200

In der man/docu stehen 2000

>Mails, dann beginnt der Bayes-Filter zu arbeiten. Das merkt man dann
>auch, wenn man sich etwas mehr Header-Output geben lässt.
>
>> >Bogofilter vor SA hat bei mir zu einer deutlichen Verbesserung des
>> >Ergebnisses beigetragen.
>> 
>> ???  Durchgerutschte Mails kannste direkt an 'sa-learn --spam' 
>> verfüttern. Das recht vollständig aus.
>
>Ich weiß. Für mich funktioniert aber die andere Lösung besser. Und wie
>schon angemerkt wurde, ist Bogofilter deutlich angenehmer für die
>Systemresourcen.

Da ich adsl 512 zu hause habe, chec

Re: Spammails von Spamarchive.org

2004-06-01 Diskussionsfäden Patrick Cornelißen
-BEGIN PGP SIGNED MESSAGE-
Hash: SHA1
Daniel Leidert wrote:
| Nur interessahlber. Wofür steht FP?
False Positives - Ham der als Spam erkannt wird
- --
Bye,
~ Patrick Cornelissen
~ http://www.p-c-software.de
~ ICQ:15885533
-BEGIN PGP SIGNATURE-
Version: GnuPG v1.2.4 (GNU/Linux)
Comment: Using GnuPG with Thunderbird - http://enigmail.mozdev.org
iD8DBQFAvFKS4/Hplayn3Y8RAgqOAKCUe+aKcZxt9pizgnOF30mqy40gkACggYD/
evBXsCx19qqjQLeLtl70c+Q=
=24Fp
-END PGP SIGNATURE-
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Spammails von Spamarchive.org

2004-05-31 Diskussionsfäden Daniel Leidert
Am Di, den 01.06.2004 schrieb Michelle Konzack um 1:23:
> Am 2004-05-31 23:05:39, schrieb Daniel Leidert:
> 
> >ACK. Der Bayes-Filter von SA fängt ja sowieso erst bei 200 angelernten
> >Ham- und der gleiche Menge Spam-Mails an zu arbeiten.
> 
> Interessant, den ich habe spamassassin 2.63 erst lezten Monat 
> installiert, sprich ich verwende ihn seit 3 Wochen und er hat 
> mehr als 3000 SPAM gefiltert. Davon sind 7 kein Spam gewesen 
> die ich mit 'sa-learn --ham' verfüttert habe.

Dann arbeitet der Bayes-Filter noch nicht. Ein
# spamassassin --lint -D
sollte Klarheit schaffen. Wenn in der Spam- oder Ham-Datenbank weniger
als 200 Einträge sind, gibt er eine entsprechende Meldung aus, dass der
Bayes-Filter nicht genutzt wird.

> Seit einer Woche habe ich keinen FP gehabt...

Nur interessahlber. Wofür steht FP?

> Allerdings sind noch rund 70 SPAMS durchgerutscht die ich sofort 
> an 'sa-learn --spam' verfütterte...

Hatte ich auch eine Weile probiert. Das Problem war, dass die Trennung
zwischen Ham und Spam nicht sehr deutlich war. Am Ende habe ich bei 3.5
Spam-Punkten gefiltert. Bei Bogofilter ist die Trennung bei mir deutlich
besser. SA dient nur dazu, dahinter alles abzuräumen.

> Also der SPAM hat sich innerhalb von drei ochen drastisch reduziert...

Möglicherweise arbeiten die Datenbanken für Spam und Ham unabhängig
voneinander. Aber mein Wissensstand ist: SA benötigt für beides 200
Mails, dann beginnt der Bayes-Filter zu arbeiten. Das merkt man dann
auch, wenn man sich etwas mehr Header-Output geben lässt.

> >Bogofilter vor SA hat bei mir zu einer deutlichen Verbesserung des
> >Ergebnisses beigetragen.
> 
> ???  Durchgerutschte Mails kannste direkt an 'sa-learn --spam' 
> verfüttern. Das recht vollständig aus.

Ich weiß. Für mich funktioniert aber die andere Lösung besser. Und wie
schon angemerkt wurde, ist Bogofilter deutlich angenehmer für die
Systemresourcen.

MfG Daniel


signature.asc
Description: Dies ist ein digital signierter Nachrichtenteil


Re: Spammails von Spamarchive.org

2004-05-31 Diskussionsfäden Michelle Konzack
Am 2004-05-31 23:05:39, schrieb Daniel Leidert:

>ACK. Der Bayes-Filter von SA fängt ja sowieso erst bei 200 angelernten
>Ham- und der gleiche Menge Spam-Mails an zu arbeiten.

Interessant, den ich habe spamassassin 2.63 erst lezten Monat 
installiert, sprich ich verwende ihn seit 3 Wochen und er hat 
mehr als 3000 SPAM gefiltert. Davon sind 7 kein Spam gewesen 
die ich mit 'sa-learn --ham' verfüttert habe.

Seit einer Woche habe ich keinen FP gehabt...

Allerdings sind noch rund 70 SPAMS durchgerutscht die ich sofort 
an 'sa-learn --spam' verfütterte...

Also der SPAM hat sich innerhalb von drei ochen drastisch reduziert...

>Bogofilter vor SA hat bei mir zu einer deutlichen Verbesserung des
>Ergebnisses beigetragen.

???  Durchgerutschte Mails kannste direkt an 'sa-learn --spam' 
verfüttern. Das recht vollständig aus.

>MfG Daniel


Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917  ICQ #328449886
   50, rue de Soultz MSM LinuxMichi
0033/3/8845235667100 Strasbourg/France   IRC #Debian (irc.icq.com)


signature.pgp
Description: Digital signature


Re: Spammails von Spamarchive.org

2004-05-31 Diskussionsfäden Daniel Leidert
Am Mo, den 31.05.2004 schrieb Joerg Rieger um 23:22:
> On Mon, May 31, 2004 at 11:05:39PM +0200, Daniel Leidert wrote:
> > Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33:
> > > On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote:
> > > > 
> > > > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine
> > > > Trefferquote zu erhöhen. Dazu habe ich ein wenig gegoogelt und bin dabei auf
> > > > www.spamarchive.org gestoßen, nun habe ich dort heute Nachmittag diverse
> > > > *.gz Archive gesaugt (insgesamt ~950 MB) 
> > > 
> > > Hallo,
> > > 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist für
> > > diesen Zweck viel zu viel. Es würde vermutlich Tage dauern, sie alle
> > > mit sa-learn einzulesen. Für diesen Zweck reichen einige tausend Mails
> > > völlig aus.
> > 
> > IMHO ist auch das für den Bayes-Filter unnötiger Overkill, wenn
> > zusätzlich Bogofilter läuft. Razor, Pyzor und DCC helfen, altbekannten
> > Spam auszusortieren. Werden dann noch passende Config-Variablen für SA
> > und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner
> > Erfahrung hervorragend.
> 
> Läuft IMHO auch etwas dem Sinn des Bayes Ansatz entgegen.

Es ist nach meiner Meinung nicht unbedingt sinnvoll, altbekannten Spam
händisch an SA oder Bogofilter weiterzureichen. Ein SA mit Pyzor/Razor
und DCC funktioniert sehr gut. Man kann sich in diesem Fall ein Skript
schreiben, dass die mithilfe von Bogofilter/SA(mit Razor/Pyzor/DCC)
aussortierten Mails zusätzlich an SA/Bogofilter weiterreicht (falls die
Bewertung noch nicht zum automatischen Lernen ausreicht).

>  Denn es soll 
> ja erkannt werden, welche Mails für dich persönlich ham/spam sind. Z.B. 
> könnte für einen selbst der monatliche Newsletter eines Freemail 
> Dienstes interessant sein, für jemand anderen ist die gleiche Mail 
> jedoch spam.

IMHO unglücklich gewähltes Beispiel. Nur wenn ich den Newsletter lesen
will, habe ich ihn auch abonniert. Und dann werde ich diese Mails vor SA
oder Bogofilter ausfiltern. Ähnlich praktiziere ich das bei
Mailinglisten. Die meisten nutzen schon SA auf dem Listenserver. Das
muss ich dann nicht auch noch lokal machen und mein System belasten.
Solche Sachen kann man vorher herausfiltern (u.U. auf die SA-Header).
Das schont den Bayes-Filter und die Systemresourcen. Zusätzlich würde
das Durchleiten aller E-Mails durch den Bayes-Filter die Effektivität
des Filters nach meiner Meinung herabsetzen. Ansonsten aber o.k. Da hat
jeder seine eigenen Vorlieben und Strategien. Ich habe Bogofilter einen
Tag angelernt und seit dem lernt er selbständig. SA bekommt gerade mal
noch 1 von vielleicht 200-300 Spam-Mails zu Gesicht und filtert diese
mithilfe von Razor/Pyzor/DCC sehr zuverlässig. Per Skript wird
Bogofilter einmal täglich mit diesen Mails bekannt gemacht und kennt sie
dann am nächsten Tag. Fast alle von Bogofilter aussortierten Spam-Mails
kommen auf eine Gesamtbewertung (spamicity) von 1.0. 

> Auch sollte sich die Anzahl der ham und spam mails nicht zu stark 
> unterscheiden. Wenn du jetzt 1 GB spam mails hast und nur z.B. 100 MB 
> ham mails, kann es gut sein, dass die spam Erkennung zu scharf 
> verläuft und so ham mails als spam klassifiziert werden.

Das kommt IMO darauf an, wie sich Ham und Spam zusammensetzen. Wer fast
nur deutschsprachigen E-Mail-Verkehr pflegt, dem kann das Verhältnis
zwischen Spam und Ham mehr oder weniger egal sein, da die Spam-Mails
fast ausschließlich englischsprachig sind. Die Gefahr von
false-positives ist in diesem Fall sehr gering.

MfG Daniel


signature.asc
Description: Dies ist ein digital signierter Nachrichtenteil


Re: Spammails von Spamarchive.org

2004-05-31 Diskussionsfäden Joerg Rieger
On Mon, May 31, 2004 at 11:05:39PM +0200, Daniel Leidert wrote:
> Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33:
> > On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote:
> > > 
> > > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine
> > > Trefferquote zu erhöhen. Dazu habe ich ein wenig gegoogelt und bin dabei auf
> > > www.spamarchive.org gestoßen, nun habe ich dort heute Nachmittag diverse
> > > *.gz Archive gesaugt (insgesamt ~950 MB) 
> > 
> > Hallo,
> > 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist für
> > diesen Zweck viel zu viel. Es würde vermutlich Tage dauern, sie alle
> > mit sa-learn einzulesen. Für diesen Zweck reichen einige tausend Mails
> > völlig aus.
> 
> IMHO ist auch das für den Bayes-Filter unnötiger Overkill, wenn
> zusätzlich Bogofilter läuft. Razor, Pyzor und DCC helfen, altbekannten
> Spam auszusortieren. Werden dann noch passende Config-Variablen für SA
> und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner
> Erfahrung hervorragend.

Läuft IMHO auch etwas dem Sinn des Bayes Ansatz entgegen. Denn es soll 
ja erkannt werden, welche Mails für dich persönlich ham/spam sind. Z.B. 
könnte für einen selbst der monatliche Newsletter eines Freemail 
Dienstes interessant sein, für jemand anderen ist die gleiche Mail 
jedoch spam.

Auch sollte sich die Anzahl der ham und spam mails nicht zu stark 
unterscheiden. Wenn du jetzt 1 GB spam mails hast und nur z.B. 100 MB 
ham mails, kann es gut sein, dass die spam Erkennung zu scharf 
verläuft und so ham mails als spam klassifiziert werden.


-- 


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: Spammails von Spamarchive.org

2004-05-31 Diskussionsfäden Daniel Leidert
Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33:
> On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote:
> > Hi 
> > 
> > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine
> > Trefferquote zu erhöhen. Dazu habe ich ein wenig gegoogelt und bin dabei auf
> > www.spamarchive.org gestoßen, nun habe ich dort heute Nachmittag diverse
> > *.gz Archive gesaugt (insgesamt ~950 MB) 
> 
> Hallo,
> 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist für
> diesen Zweck viel zu viel. Es würde vermutlich Tage dauern, sie alle
> mit sa-learn einzulesen. Für diesen Zweck reichen einige tausend Mails
> völlig aus.

IMHO ist auch das für den Bayes-Filter unnötiger Overkill, wenn
zusätzlich Bogofilter läuft. Razor, Pyzor und DCC helfen, altbekannten
Spam auszusortieren. Werden dann noch passende Config-Variablen für SA
und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner
Erfahrung hervorragend.

>  Ich bekomme mit ca. 600 Mails in meinem Spamordner recht gute
> Ergebnisse. Zusätzlich zu den Spam-Mails braucht man jedoch auch
> normale Mails, damit Spamassassin sie von Spam unterscheiden kann.

ACK. Der Bayes-Filter von SA fängt ja sowieso erst bei 200 angelernten
Ham- und der gleiche Menge Spam-Mails an zu arbeiten.

> > Das zweite wäre die Frage wie ich die gleichen Mails durch Bogofilter laufen
> > lassen kann?

Auf http://www.newbie-net.de/anleitung_imap.html#bogofilter gibt es ein
kleines Skript, das vielleicht eine Anregung ist. Ähnlich könnte man
auch die von Bogofilter aussortierten Mails mit sa-learn an SA
übergeben.

> Wieso willst du 2 Spamfilter verwenden? IMHO ist spamassassin mit
> Bayes alleine ausreichend.

Bogofilter vor SA hat bei mir zu einer deutlichen Verbesserung des
Ergebnisses beigetragen.

MfG Daniel


signature.asc
Description: Dies ist ein digital signierter Nachrichtenteil


Re: Spammails von Spamarchive.org

2004-05-31 Diskussionsfäden Andreas Schmidt
On 2004.05.31 19:45, Thomas Letzner wrote:
Hi
Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA- 
Learn
seine
Trefferquote zu erhöhen. Dazu habe ich ein wenig gegoogelt und bin
dabei auf
www.spamarchive.org gestoßen, nun habe ich dort heute Nachmittag
diverse
*.gz Archive gesaugt (insgesamt ~950 MB) leider habe ich keinen
blassen
schimmer ob es sich dabei nun um das mbox-Format oder um ein
Maildir-Format
Schau doch einfach mal in die *.gz rein. Eine Mailbox in mbox-Format  
hat alle Mails in einer Datei, bei Maildir ist eine Mailbox einfach ein  
Verzeichnis, wo jede Datei genau einer Mail entspricht.

handelt. Dazu bräuchte ich eure Hilfe. Und zweitens läuft bei mir
Cyrus als
IMAP Server mit welchem Format arbeitet der standardmäßig?
Kann ich Dir leider nicht mit weiterhelfen.
Das zweite wäre die Frage wie ich die gleichen Mails durch Bogofilter
laufen
lassen kann?
bogofilter -s -M < mbox (fuer Spam)
bogofilter -n -M < mbox (fuer Ham)
bogofilter -s -b < MAILDIR (Spam)
bogofilter -n -b < MAILDIR (Ham)
Die zweite Variante habe ich selbst noch nicht ausprobiert, weil ich  
hier nur mbox benutze. Steht aber zumindest so in "man bogofilter".:-)

Schoenen Gruss,
Andreas
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Spammails von Spamarchive.org

2004-05-31 Diskussionsfäden Michael Gerhards
Jakob Lell <[EMAIL PROTECTED]> wrote:

[SpamAssassin + Bogofilter]
> Wieso willst du 2 Spamfilter verwenden? IMHO ist spamassassin mit
> Bayes alleine ausreichend.

Bei mir laufen auch beide, denn: Bogofilter braucht weniger
Rechenleistung, ist gerade auf schwachen Maschinen gut. Und zwei Augen
sehen mehr als eins :-)
Konkret heißt das, daß SpamAssassin täglich etwa 5-10 Mails aussortiert,
die Bogofilter verpaßt hat. Die werden Bogofilter dann automatisch zum
Lernen vorgeworfen, so daß eine kontinuierliche Verbesserung der
Erkennung stattfindet.

Michael


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: Spammails von Spamarchive.org

2004-05-31 Diskussionsfäden Jakob Lell
On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote:
> Hi 
> 
> Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine
> Trefferquote zu erhöhen. Dazu habe ich ein wenig gegoogelt und bin dabei auf
> www.spamarchive.org gestoßen, nun habe ich dort heute Nachmittag diverse
> *.gz Archive gesaugt (insgesamt ~950 MB) 

Hallo,
950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist für
diesen Zweck viel zu viel. Es würde vermutlich Tage dauern, sie alle
mit sa-learn einzulesen. Für diesen Zweck reichen einige tausend Mails
völlig aus. Ich bekomme mit ca. 600 Mails in meinem Spamordner recht gute
Ergebnisse. Zusätzlich zu den Spam-Mails braucht man jedoch auch
normale Mails, damit Spamassassin sie von Spam unterscheiden kann.

> leider habe ich keinen blassen
> schimmer ob es sich dabei nun um das mbox-Format oder um ein Maildir-Format
> handelt. Dazu bräuchte ich eure Hilfe. 

Die Daten sind im mbox-format.

> Und zweitens läuft bei mir Cyrus als
> IMAP Server mit welchem Format arbeitet der standardmäßig? 

Cyrus speichert die Mails in einer internen Datenbank. Das ist weder
Mbox noch Maildir.
> 
> Das zweite wäre die Frage wie ich die gleichen Mails durch Bogofilter laufen
> lassen kann?

Wieso willst du 2 Spamfilter verwenden? IMHO ist spamassassin mit
Bayes alleine ausreichend.

Jakob
> 
> Thanx 
> Thomas
> 
> 


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)