Re: [tanya-jawab] SA-LEARN

2007-10-05 Terurut Topik - Cygnus -
Tukang Internet wrote:
> Emang yg paling enak pake rule dari www.rulesemporium.com
> tapi ya itu dia, spammer selangkah lebih maju dari sa :-)
>
> pake OCR pun belum tentu kena jika teks/font yg digunakan pada gambar
> model huruf nya udah aneh2, plus proses scanning spam OCR
> lebih lama.
>
> Ga tau deh kalo pake mesin seperti IRONPORT.
> mungkin filtering nya lebih baik.
>
>

Paling enak adalah melibatkan user untuk ikut melatih bayes nya
spamassassin. Yang paling asik adalah pakai Maia Mailguard
(http://www.maiamailguard.com). Installnya sih bikin sakit perut, tapi
kalau udah jalan..mantaf :) Dicombine sama policyd, SARE rules , dan
sanesecurity signature untuk Clamav, lebih mantaf lagi.

-- 
- Cygnus -

'Veritas vos liberabit'


-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] SA-LEARN

2007-10-05 Terurut Topik Konang Supian
> Emang yg paling enak pake rule dari www.rulesemporium.com
> tapi ya itu dia, spammer selangkah lebih maju dari sa :-)
>
> pake OCR pun belum tentu kena jika teks/font yg digunakan pada gambar
> model huruf nya udah aneh2, plus proses scanning spam OCR
> lebih lama.
>
> Ga tau deh kalo pake mesin seperti IRONPORT.
> mungkin filtering nya lebih baik.
>

Kalo pengen ampuh ya memang harus beli, Ironport atau barracuda. Tapi
mahalnya itu lho dan nggak sesuai dengan semangat open source hehehe
... sok idealis yak ...

Cara kuno tapi manjur ya itu tadi, hajar aja pakai regex-nya postfix ...
Kita tangkep aja spam yg ada gambarnya, teliti sourcenya terutama
bagian base64 encodingnya (bagian attachmant). Cari variasi text yg
seunik mungkin (pakai feeling aja deh) terus pasang di body_checks nya
si postfix ...hajar blehhh ...

-- konang supian --
Ada lowongan : http://jobkarirvacancy.blogspot.com/

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] SA-LEARN

2007-10-05 Terurut Topik Tukang Internet

-inv- wrote:

Dihidupkan saja sa-learn nya dijamin belajar sendiri. Traffic mail ?
nggak bakalan kurang deh, bisa diatas 300 rebu sehari dan nyaris 
60-70% adalah spam (dulu hehehehe ...).
Konsekuensi sa-learn dinyalakan dijamin lambat laun performance 
spamassassin akan melambat dan melambat (ukuran db spamnya 
  
makin gede) 

dengan catatan traffic mail anda ekstrem. Kalo untuk 
  
traffic yg kecil 


nyalakan saja sa-learnnya dan ajari juga secara manual.

-- konang supian --
http://konang.blogspot.com/

  
  

Nah bener nih,
kalo keseringan belajar juga lama2 jadi *pinter* kalo 
kepinteran jadi lambat prosesnya.



Klo lambat biasanya dikarenakan banyak yg udah expire
Perlu juga dilakukan --force-expire

  

enaknya learning nya ini gimana ya?
sumber learning dari email2 yg seperti apa?
apa yg sudah terjaring di folder spam
atau gimana?



Biasanya dari email2 yg terjaring yg masuk kategori quarantine
Jadi misal score dibutuhkan 3.5, sa-quarantine 1.5, maka jika score dibawah
5 (3.5 + 1.5), maka masuk ke quarantine
Klo qmail di tempat saya di folder /var/spool/qmailscan/quarantine/new/

  

sekarang teknik spam pake JPG & PDF
teks promo ditulis di JPG dgn background putih.
atau bisa juga PDF.
gimana ga lolos dari keyword check kalo udah jadi gambar.




Klo saya biasanya manual (stupid way) view as palintext di mail client,
kemudian touch inispam.txt, kemudian sa-learn --spam inispam.txt :)

Btw, kayaknya dah ada rule2 yg ada di http://www.rulesemporium.com/ yang
dipake buat scan email2 dlm bentuk image begini :)


-inv-


  

Emang yg paling enak pake rule dari www.rulesemporium.com
tapi ya itu dia, spammer selangkah lebih maju dari sa :-)

pake OCR pun belum tentu kena jika teks/font yg digunakan pada gambar
model huruf nya udah aneh2, plus proses scanning spam OCR
lebih lama.

Ga tau deh kalo pake mesin seperti IRONPORT.
mungkin filtering nya lebih baik.


--
Regards,
Toni ST // Mandorkawat Dotnet
--
Migrasi Windows ke opensource ?
Migrasi Mailserver ke postfix ?
Hubungi : [EMAIL PROTECTED]
http://www.pedezz.net
--



--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



RE: [tanya-jawab] SA-LEARN

2007-10-04 Terurut Topik -inv-

> > Dihidupkan saja sa-learn nya dijamin belajar sendiri. Traffic mail ?
> > nggak bakalan kurang deh, bisa diatas 300 rebu sehari dan nyaris 
> > 60-70% adalah spam (dulu hehehehe ...).
> > Konsekuensi sa-learn dinyalakan dijamin lambat laun performance 
> > spamassassin akan melambat dan melambat (ukuran db spamnya 
> makin gede) 
> > dengan catatan traffic mail anda ekstrem. Kalo untuk 
> traffic yg kecil 
> > nyalakan saja sa-learnnya dan ajari juga secara manual.
> >
> > -- konang supian --
> > http://konang.blogspot.com/
> >
> >   
> Nah bener nih,
> kalo keseringan belajar juga lama2 jadi *pinter* kalo 
> kepinteran jadi lambat prosesnya.

Klo lambat biasanya dikarenakan banyak yg udah expire
Perlu juga dilakukan --force-expire

> 
> enaknya learning nya ini gimana ya?
> sumber learning dari email2 yg seperti apa?
> apa yg sudah terjaring di folder spam
> atau gimana?

Biasanya dari email2 yg terjaring yg masuk kategori quarantine
Jadi misal score dibutuhkan 3.5, sa-quarantine 1.5, maka jika score dibawah
5 (3.5 + 1.5), maka masuk ke quarantine
Klo qmail di tempat saya di folder /var/spool/qmailscan/quarantine/new/

> 
> sekarang teknik spam pake JPG & PDF
> teks promo ditulis di JPG dgn background putih.
> atau bisa juga PDF.
> gimana ga lolos dari keyword check kalo udah jadi gambar.


Klo saya biasanya manual (stupid way) view as palintext di mail client,
kemudian touch inispam.txt, kemudian sa-learn --spam inispam.txt :)

Btw, kayaknya dah ada rule2 yg ada di http://www.rulesemporium.com/ yang
dipake buat scan email2 dlm bentuk image begini :)


-inv-


-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] SA-LEARN

2007-10-04 Terurut Topik Kalpin Erlangga Silaen
> Nah bener nih,
> kalo keseringan belajar juga lama2 jadi *pinter*
> kalo kepinteran jadi lambat prosesnya.
>
> enaknya learning nya ini gimana ya?
> sumber learning dari email2 yg seperti apa?
> apa yg sudah terjaring di folder spam
> atau gimana?
>
> sekarang teknik spam pake JPG & PDF
> teks promo ditulis di JPG dgn background putih.
> atau bisa juga PDF.
> gimana ga lolos dari keyword check kalo udah jadi gambar.
>
> any suggest...??
>
> Toni ST
>
> --
> Regards,
> Toni ST // Mandorkawat Dotnet
> --
> Migrasi Windows ke opensource ?
> Migrasi Mailserver ke postfix ?
> Hubungi : [EMAIL PROTECTED]
> http://www.pedezz.net
> --
>

kalau untuk spam yang nyaru sebagai gambar atau menyisipkan spamnya di
gambar, pakai teknik OCR saja. Tetapi konsekuensinya memang lebih
lambat, karena masalah konversi dari gambar ke text, lalu analyze dan
kalau dbnya sudah besar makin lambat lagi :)

-- 
Kalpin Erlangga Silaen
Digital Circuits made from Analog parts.
---
Email 1st: [EMAIL PROTECTED]
Email 2nd: [EMAIL PROTECTED]
Website: http://www.kalpin.us
Webhosting: http://www.warningnews.net
Free Webhosting for Ministry: http://www.menjadi.com
Yahoo ID: kalpinus
Sudirman Tower 19th Floor
Jl. Sudirman Kav. 60
Jakarta, 12190
Indonesia

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] SA-LEARN

2007-10-04 Terurut Topik Tukang Internet

Konang Supian wrote:

On 10/5/07, Ronny Haryanto <[EMAIL PROTECTED]> wrote:
  

On 05/10/2007, Konang Supian <[EMAIL PROTECTED]> wrote:


Dulu saya pernah pakai sa-learn tapi kok kurang ampuh. Akhirnya spam
yg masih lolos saya hajar aja pakai regexnya postfix malah mak nyuss.
  

Seperti banyak sistem machine learning lainnya, sa-learn butuh
training data yg cukup sebelum bisa bekerja dengan baik. Sudah anda
kasih makan berapa spam dan berapa ham sewaktu anda memutuskan kurang
ampuh?

Ronny



Dihidupkan saja sa-learn nya dijamin belajar sendiri. Traffic mail ?
nggak bakalan kurang deh, bisa diatas 300 rebu sehari dan nyaris
60-70% adalah spam (dulu hehehehe ...).
Konsekuensi sa-learn dinyalakan dijamin lambat laun performance
spamassassin akan melambat dan melambat (ukuran db spamnya makin gede)
dengan catatan traffic mail anda ekstrem. Kalo untuk traffic yg kecil
nyalakan saja sa-learnnya dan ajari juga secara manual.

-- konang supian --
http://konang.blogspot.com/

  

Nah bener nih,
kalo keseringan belajar juga lama2 jadi *pinter*
kalo kepinteran jadi lambat prosesnya.

enaknya learning nya ini gimana ya?
sumber learning dari email2 yg seperti apa?
apa yg sudah terjaring di folder spam
atau gimana?

sekarang teknik spam pake JPG & PDF
teks promo ditulis di JPG dgn background putih.
atau bisa juga PDF.
gimana ga lolos dari keyword check kalo udah jadi gambar.

any suggest...??

Toni ST

--
Regards,
Toni ST // Mandorkawat Dotnet
--
Migrasi Windows ke opensource ?
Migrasi Mailserver ke postfix ?
Hubungi : [EMAIL PROTECTED]
http://www.pedezz.net
--



--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] SA-LEARN

2007-10-04 Terurut Topik Ronny Haryanto
On 05/10/2007, Konang Supian <[EMAIL PROTECTED]> wrote:
> On 10/5/07, Ronny Haryanto <[EMAIL PROTECTED]> wrote:
> > On 05/10/2007, Konang Supian <[EMAIL PROTECTED]> wrote:
> > > Dulu saya pernah pakai sa-learn tapi kok kurang ampuh. Akhirnya spam
> > > yg masih lolos saya hajar aja pakai regexnya postfix malah mak nyuss.
> >
> > Seperti banyak sistem machine learning lainnya, sa-learn butuh
> > training data yg cukup sebelum bisa bekerja dengan baik. Sudah anda
> > kasih makan berapa spam dan berapa ham sewaktu anda memutuskan kurang
> > ampuh?
> >
> > Ronny
>
> Dihidupkan saja sa-learn nya dijamin belajar sendiri. Traffic mail ?
> nggak bakalan kurang deh, bisa diatas 300 rebu sehari dan nyaris
> 60-70% adalah spam (dulu hehehehe ...).
> Konsekuensi sa-learn dinyalakan dijamin lambat laun performance
> spamassassin akan melambat dan melambat (ukuran db spamnya makin gede)
> dengan catatan traffic mail anda ekstrem. Kalo untuk traffic yg kecil
> nyalakan saja sa-learnnya dan ajari juga secara manual.

Buat yg tertarik silakan baca soal supervised training dan
unsupervised training di sini:
http://spamassassin.apache.org/full/3.1.x/doc/sa-learn.html#effective_training

Ada banyak info soal cara training spamassassin yg efektif juga di situ.

Ronny

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] SA-LEARN

2007-10-04 Terurut Topik Konang Supian
On 10/5/07, Ronny Haryanto <[EMAIL PROTECTED]> wrote:
> On 05/10/2007, Konang Supian <[EMAIL PROTECTED]> wrote:
> > Dulu saya pernah pakai sa-learn tapi kok kurang ampuh. Akhirnya spam
> > yg masih lolos saya hajar aja pakai regexnya postfix malah mak nyuss.
>
> Seperti banyak sistem machine learning lainnya, sa-learn butuh
> training data yg cukup sebelum bisa bekerja dengan baik. Sudah anda
> kasih makan berapa spam dan berapa ham sewaktu anda memutuskan kurang
> ampuh?
>
> Ronny

Dihidupkan saja sa-learn nya dijamin belajar sendiri. Traffic mail ?
nggak bakalan kurang deh, bisa diatas 300 rebu sehari dan nyaris
60-70% adalah spam (dulu hehehehe ...).
Konsekuensi sa-learn dinyalakan dijamin lambat laun performance
spamassassin akan melambat dan melambat (ukuran db spamnya makin gede)
dengan catatan traffic mail anda ekstrem. Kalo untuk traffic yg kecil
nyalakan saja sa-learnnya dan ajari juga secara manual.

-- konang supian --
http://konang.blogspot.com/

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] SA-LEARN

2007-10-04 Terurut Topik Ronny Haryanto
On 05/10/2007, Konang Supian <[EMAIL PROTECTED]> wrote:
> Dulu saya pernah pakai sa-learn tapi kok kurang ampuh. Akhirnya spam
> yg masih lolos saya hajar aja pakai regexnya postfix malah mak nyuss.

Seperti banyak sistem machine learning lainnya, sa-learn butuh
training data yg cukup sebelum bisa bekerja dengan baik. Sudah anda
kasih makan berapa spam dan berapa ham sewaktu anda memutuskan kurang
ampuh?

Ronny

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] SA-LEARN

2007-10-04 Terurut Topik Konang Supian
Dulu saya pernah pakai sa-learn tapi kok kurang ampuh. Akhirnya spam
yg masih lolos saya hajar aja pakai regexnya postfix malah mak nyuss.

Dah dicoba naikin level spam ?
Coba lihat di :
/etc/amavisd.conf  (kalo pakai amavis engine)
$sa_tag_level_deflt  = -6.0;  # add spam info headers if at, or above that level
$sa_tag2_level_deflt = 6.31; # add 'spam detected' headers at that level
$sa_kill_level_deflt = 6.31; # triggers spam evasive actions
$sa_dsn_cutoff_level = 10;   # spam level beyond which a DSN is not sent

Aatau di :
/etc/mail/spamassassin/local.cf

-- konang supian --
http://konang.blogspot.com/2007/10/automatic-backup-data-to-tape.html
http://konang.blogspot.com/2007/09/qmail-cluster-qmail-partitioning-qmail.html




On 10/5/07, John <[EMAIL PROTECTED]> wrote:
> Dear Linux'ers
>
> Ada yang punya tutorial atau kiat2 mengenai sa-learn spamassassin?
> spamassassin di server saya blm pintar, SA nya perlu latihan, :-). spam msh
> ada yg lolos ke inbox user.saya sudah pake RBL.
> dan bagaimana cara membuat folder JunkMail atau folder apalah sbg tempat
> spam.
> Saya sudah coba dari beberapa tutorial, salah satunya dari  linux.arinet.org
> tp blm bisa mungkin krn distronya beda, saya pake centOS 44.
>
> terima kasih sebelumnya.
>
>
> john
>

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



[tanya-jawab] SA-LEARN

2007-10-04 Terurut Topik John
Dear Linux'ers

Ada yang punya tutorial atau kiat2 mengenai sa-learn spamassassin?
spamassassin di server saya blm pintar, SA nya perlu latihan, :-). spam msh
ada yg lolos ke inbox user.saya sudah pake RBL.
dan bagaimana cara membuat folder JunkMail atau folder apalah sbg tempat
spam.
Saya sudah coba dari beberapa tutorial, salah satunya dari  linux.arinet.org
tp blm bisa mungkin krn distronya beda, saya pake centOS 44.

terima kasih sebelumnya.


john



-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



[tanya-jawab] Sa-learn error Parsing of undecoded UTF-8

2007-01-05 Terurut Topik A r y a S e t a
Dear All,

Mohon bantuanya solve problem sa-learn
Ketika saya jalankan sa-learn muncul error seperti ini:

BarunaX:~# /usr/local/bin/sa-learn --spam
/var/spool/qmailscan/quarantine/new && /usr/local/bin/sa-update
Parsing of undecoded UTF-8 will give garbage when decoding entities at
/usr/local/share/perl/5.8.8/Mail/SpamAssassin/HTML.pm line 182

Saya dah google, dan nemu
http://issues.apache.org/SpamAssassin/show_bug.cgi?id=4046 

Disitu dijelaskan bahwa problem ini adalah bug, nah saya dah coba update
spamassassin nya ke versi 3.1.7 (sekarang masih menggunakan 3.0.2) tapi
malah keluar error prefork dll (seperti yg sudah pernah saya tanyakan di
milis linux.or.id ini dan tidak (tepatnya belum) menemukan jawabannya)

Nah kemudian saya coba kembalikan lagi ke versi 3.0.2, tapi muncul error ini
:(
Kira2 gmn ngepatch nya ya?


NB: Debian 3.1 + Qmail + Spamassassin 3.0.2

-dhani


-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-22 Terurut Topik - Cygnus -

Ronny Haryanto wrote:

Hm, bukan masalah selera sih. Tapi ini masalahnya jalan yg satu sudah
pasti menuju Roma, sedangkan jalan satunya belum tentu. Kalo ditrain
manually kemungkinan false positives dianggap spam adalah nol (kecuali
salah ngetrain), sedangkan kalo automated training berdasarkan SA
rules ada kemungkinan false positives.

Ronny
  


Iya. Baru nyadar tadi pas iseng2 liat message yg di tag spam, ternyata 
ada  yg scoring bayes nya min, padahal itu spam beneran. Rupanya 
kemarin2 kebantu sama rule SA yg lain, tp bayesnya sedikit ngawur. 
Makasih buat tips nya


--
- Cygnus -

Send instant messages to your online friends http://asia.messenger.yahoo.com 


--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-22 Terurut Topik Ronny Haryanto
On Fri, Sep 22, 2006 at 09:40:11AM +0700, - Cygnus - wrote:
> Ronny Haryanto wrote:
> >Ya itu juga bisa, tapi tidak akan seakurat kalo kita sendiri yg
> >melatih. SA sendiri, tanpa bayes learning, itu aja sering false
> >positives (at least buat saya). Jelek banget kalo false positive lalu
> >dijadikan bahan learning spam otomatis bayes, ngotor2in database yg
> >udah susah2 dilatih. Bisa diunlearn sih, tapi sama aja ngerepotin,
> >kita mesti cek sendiri satu2 mana yg false positive mana yg nggak,
> >sama aja boong, mending sekalian manual ngelatihnya.
> >
> >Ronny
> >  
> 
> Yah banyak jalan menuju roma sih :).

Hm, bukan masalah selera sih. Tapi ini masalahnya jalan yg satu sudah
pasti menuju Roma, sedangkan jalan satunya belum tentu. Kalo ditrain
manually kemungkinan false positives dianggap spam adalah nol (kecuali
salah ngetrain), sedangkan kalo automated training berdasarkan SA
rules ada kemungkinan false positives.

Ronny


signature.asc
Description: Digital signature


Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-21 Terurut Topik - Cygnus -

Ronny Haryanto wrote:

Ya itu juga bisa, tapi tidak akan seakurat kalo kita sendiri yg
melatih. SA sendiri, tanpa bayes learning, itu aja sering false
positives (at least buat saya). Jelek banget kalo false positive lalu
dijadikan bahan learning spam otomatis bayes, ngotor2in database yg
udah susah2 dilatih. Bisa diunlearn sih, tapi sama aja ngerepotin,
kita mesti cek sendiri satu2 mana yg false positive mana yg nggak,
sama aja boong, mending sekalian manual ngelatihnya.

Ronny
  


Yah banyak jalan menuju roma sih :). Saya sendiri sih lebih suka pakai 
mekanisme di atas plus adjustment scoring untuk beberapa rule yang buggy 
(berdasarkan google), atau berdasarkan log. So far sih false positives 
nggak ada. Kalau false negatives, iya untuk spam2 berbahasa Indonesia 
molos semua :(. Mungkin untuk yang ini musti train manual (baru 
kepikiran). Ntar tak cobain deh


--
- Cygnus -

Send instant messages to your online friends http://asia.messenger.yahoo.com 


--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-21 Terurut Topik Ronny Haryanto
On Thu, Sep 21, 2006 at 12:05:22PM +0700, - Cygnus - wrote:
> IMHO, sebenarnya kalo dipikir2, nggak perlu dengan cara manual, karena 
> seingat saya ada opsi bayes_auto_learn_threshold_spam dan 
> bayes_auto_learn_threshold_ham di file misc_10.cf (untuk SA 3.1.x), atau 
> di local.cf (3.0.x , kalo nggak salah). Ini bisa digunakan untuk melatih 
> bayes secara otomatis untuk setiap email yang diperiksa dengan 
> memberikan nilai batas tertentu, mana yang akan dianggap sebagai spam 
> dan mana yang ham.

Ya itu juga bisa, tapi tidak akan seakurat kalo kita sendiri yg
melatih. SA sendiri, tanpa bayes learning, itu aja sering false
positives (at least buat saya). Jelek banget kalo false positive lalu
dijadikan bahan learning spam otomatis bayes, ngotor2in database yg
udah susah2 dilatih. Bisa diunlearn sih, tapi sama aja ngerepotin,
kita mesti cek sendiri satu2 mana yg false positive mana yg nggak,
sama aja boong, mending sekalian manual ngelatihnya.

Ronny


signature.asc
Description: Digital signature


Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-21 Terurut Topik Ronny Haryanto
On Thu, Sep 21, 2006 at 11:25:05AM +0700, A r j u n a wrote:
> On Thursday 21 September 2006 09:10, Endy Muhardin wrote:
> > On Wednesday 20 September 2006 18:28, Ronny Haryanto wrote:
> > > Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
> > > supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
> > > klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
> > > semakin banyak dan akurat.
> >
> > Saya tanya lagi ya mas Ronny.
> > Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam
> > dan Mark as Ham.
> > Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini
> > ya?
> 
> pertanyaannya adalah (kalau sesuai dengan subject topik ini)
> apakah si kmail ini terintegrasi dengan spamassassin?

KMail mungkin punya feature Bayesian built-in. Mungkin lho.

Ronny


signature.asc
Description: Digital signature


Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Hari Hendaryanto

senopati wrote:

Saya menggunakan spamassassin juga di mail server, pada client,
menggunakan Thunderbird. Thunderbird juga mampu kita latih untuk
mempelajari isi spam seperti bayesian. Apa ada metode yang mudah untuk
memindahkan database dari thunderbird ke spamassassin pada mail server ?
krna selama ini menggunakan cara manual dengan copy paste isi dari
message ke mail server, baru dijalankan sa-learn-nya.



saya punya trik untuk melatih spamassassin dengan memaanfaatkan email yg 
sudah di train oleh thunderbird(linux version) sebagai junkmail.


yg di butuhkan cuma program mb2md

kalo pakai distro based debian bisa di install dengan cara
apt-get install mb2md


mb2md -s /home/harry/.mozilla-thunderbird/dobio2px.default/Mail/Local\ 
Folders/csm.sbd/official.sbd/quarantine.sbd/junkyard -d /home/harry/spam/

(sesuaikan path folder junkmail yg ada di email anda)

command diatas akan mengkonversi format email mbox yg berada di folder 
junkmail thunderbird 
/home/harry/.mozilla-thunderbird/dobio2px.default/Mail/Local\ 
Folders/csm.sbd/official.sbd/quarantine.sbd/junkyard ke format maildir 
dan di simpan ke folder /home/harry/spam/


setelah proses konversi selesai kita copy ke server email tempat si 
spamassassin yg mau kita training, bisa menggunakan rsync.


untuk lebih mudahnya kita buat shell script aja
(ini contoh punya saya)

#!/bin/sh

RSYNC=/usr/bin/rsync
SSH=/usr/bin/ssh
KEY=/home/harry/key/flame-rsync-key
RUSER=root
RHOST=172.18.52.1
RPATH1=/root/spam/
LPATH1=/home/harry/spam/cur/

$RSYNC -az -e "$SSH -i $KEY" $LPATH1 [EMAIL PROTECTED]:$RPATH1

rm -rfv /home/harry/spam/*

note:

KEY=/home/harry/key/flame-rsync-key untuk automatisasi login.
tutorialnya ada di sini http://www.jdmz.net/ssh/

data2 junkmail yg sudah berada di email server siap di pakai untuk 
mentraining data bayesian si spammassassin


#!/bin/bash

SADIR=/var/spool/amavis/.spamassassin
DBPATH=/var/spool/amavis/.spamassassin/bayes
SPAMFOLDERS="\
/root/spam \
"
for spamfolder in $SPAMFOLDERS ; do \
echo Learning spam from $spamfolder ; \
nice sa-learn --spam --showdots --dbpath $DBPATH $spamfolder
done

chown -R amavis:amavis $SADIR

note: semua path sesuaikan dengan yg ada di environment anda masing2

semoga membantu

regards


PT.CITRA SARI MAKMUR
SATELLITE & TERRESTRIAL NETWORK

Connecting the distance - anytime, anywhere, any content

--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik - Cygnus -

Ronny Haryanto wrote:

dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan
mana header mana isi, dia tidak tahu mana pengirim mana penerima,
pokoknya apapun yg ada di emailnya dipake utk membangun databasenya.
Kelebihannya menggunakan Bayesian classification ini adalah sistemnya
tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar
sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita
mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian
saya pindahkan secara manual ke folder "uncaught", trus saya jalankan
sa-learn secara periodik utk membaca isi uncaught itu utk melatih.
(Atau mungkin ada email client yg otomatis bisa memanggil sa-learn
atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar
mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya
seperti apa.

Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
semakin banyak dan akurat.

  
Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya


IMHO, sebenarnya kalo dipikir2, nggak perlu dengan cara manual, karena 
seingat saya ada opsi bayes_auto_learn_threshold_spam dan 
bayes_auto_learn_threshold_ham di file misc_10.cf (untuk SA 3.1.x), atau 
di local.cf (3.0.x , kalo nggak salah). Ini bisa digunakan untuk melatih 
bayes secara otomatis untuk setiap email yang diperiksa dengan 
memberikan nilai batas tertentu, mana yang akan dianggap sebagai spam 
dan mana yang ham.


--
- Cygnus -

Send instant messages to your online friends http://asia.messenger.yahoo.com 


--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Ronny Haryanto
On Thu, Sep 21, 2006 at 09:10:41AM +0700, Endy Muhardin wrote:
> Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark
> as Spam dan Mark as Ham. Berarti kita bisa langsung training si
> Bayes dengan menggunakan tombol2 ini ya?

Saya tidak familiar dg feature itu dari KMail. Silakan cek ke
dokumentasinya. Tapi prinsip garis besarnya sih sepertinya sama.

> Logikanya, setelah beberapa tahun digunakan, harusnya kan si Bayes di 
> komputer 
> saya ini sudah lumayan cerdas, karena sudah dilatih bertahun-tahun. 

Tapi jangan lupa kalo spam juga selalu evolving, jadi sistemnya
mungkin sudah bagus dalam mengklasifikasikan spam2 yg sudah familiar,
tapi yg baru2 mungkin nggak. Jadi perlu dilatih terus(*) walaupun
mungkin makin lama makin jarang perlu melatihnya. Makanya kalo ada yg
lolos saya masukin ke folder uncaught yg dicek secara periodik oleh
sa-learn saya, atau anda bisa pake mark as spam dan sejenisnya kalo
anda pake sistem lain.

> Sedikit lebih general, tidak hanya KMail, misalnya kita mengoperasikan mail 
> server. Bisakah kita migrasi hasil latihan Bayes ke server lain?

Harusnya sih bisa asal sistemnya bisa membaca databasenya. Kan belum
tentu KMail dan SpamAssassin menggunakan format yg sama utk database
Bayesian learningnya, misalnya.

Ronny

(*) Pengetahuan AI saya agak kurang, jadi mohon dikoreksi kalo salah.
Seingat saya Bayesian learning dan jenis2 algorithm klasifikasinya ini
termasuk supervised learning, jadi butuh dilatih berdasarkan apriori
knowledge. Hanya karena dia sudah dilatih bertahun2 bukan berarti dia
bisa mengklasifikasi dg baik sesuatu yg belum pernah dilihatnya.
http://en.wikipedia.org/wiki/Pattern_recognition


signature.asc
Description: Digital signature


Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik A r j u n a
On Thursday 21 September 2006 09:10, Endy Muhardin wrote:
> On Wednesday 20 September 2006 18:28, Ronny Haryanto wrote:
> > Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
> > supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
> > klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
> > semakin banyak dan akurat.
>
> Saya tanya lagi ya mas Ronny.
> Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam
> dan Mark as Ham.
> Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini
> ya?

pertanyaannya adalah (kalau sesuai dengan subject topik ini)
apakah si kmail ini terintegrasi dengan spamassassin?

-- 
I am human and I need to be loved
Just like everybody else does

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Ronny Haryanto
On Thu, Sep 21, 2006 at 09:07:07AM +0700, Aryaseta wrote:
> # Kalo saya biasanya email yg lolos dr bayesian
> # saya pindahkan secara manual ke folder "uncaught", trus saya jalankan
> # sa-learn secara periodik utk membaca isi uncaught itu utk melatih.
> 
> Maksudnya memindahkan secara manual ke folder "uncaught" ini apa om?
> Caranya gmn?

Drag emailnya ke folder yg namanya "uncaught"?

Saya pake mutt, tinggal pilih emailnya lalu 's' atau 'C' aja ke
foldernya.

Ronny


signature.asc
Description: Digital signature


Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik senopati
Saya menggunakan spamassassin juga di mail server, pada client,
menggunakan Thunderbird. Thunderbird juga mampu kita latih untuk
mempelajari isi spam seperti bayesian. Apa ada metode yang mudah untuk
memindahkan database dari thunderbird ke spamassassin pada mail server ?
krna selama ini menggunakan cara manual dengan copy paste isi dari
message ke mail server, baru dijalankan sa-learn-nya.

> Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya
> dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan
> mana header mana isi, dia tidak tahu mana pengirim mana penerima,
> pokoknya apapun yg ada di emailnya dipake utk membangun databasenya.
> Kelebihannya menggunakan Bayesian classification ini adalah sistemnya
> tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar
> sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita
> mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian
> saya pindahkan secara manual ke folder "uncaught", trus saya jalankan
> sa-learn secara periodik utk membaca isi uncaught itu utk melatih.
> (Atau mungkin ada email client yg otomatis bisa memanggil sa-learn
> atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar
> mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya
> seperti apa.
>
> Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
> supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
> klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
> semakin banyak dan akurat.
>
> Menjawab pertanyaan anda, ya belum tentu email yg mana yg akan
> dianggap spam. Tergantung database trainingnya seperti apa, kalo
> kurang dilatih ya akurasinya rendah. Sekali lagi, waktu sistemnya
> melakukan klasifikasi (ini spam atau bukan) dia tidak perlu tau bahwa
> data yg sedang dia klasifikasi itu adalah sebuah email, jadi dia tidak
> tau menahu soal pengirim, penerima, MIME, dsb. pokoknya semuanya data.
>
> Ronny
>   



-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Endy Muhardin
On Wednesday 20 September 2006 18:28, Ronny Haryanto wrote:

> Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
> supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
> klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
> semakin banyak dan akurat.

Saya tanya lagi ya mas Ronny. 
Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam dan 
Mark as Ham. 
Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini 
ya?

Logikanya, setelah beberapa tahun digunakan, harusnya kan si Bayes di komputer 
saya ini sudah lumayan cerdas, karena sudah dilatih bertahun-tahun. 

Pertanyaan saya, misalnya saya punya komputer lain, untuk gampangnya sama-sama 
pakai KMail, bisakah kita copy-paste hasil latihan ini ke komputer yang lain?

Sedikit lebih general, tidak hanya KMail, misalnya kita mengoperasikan mail 
server. Bisakah kita migrasi hasil latihan Bayes ke server lain?

Kalau bisa, mungkin bisa diberikan referensi tentang cara melakukannya. 

Terima kasih, 
-- 
Endy Muhardin
http://endy.artivisi.com
Y! : endymuhardin
-- life learn contribute --

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



RE: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Aryaseta

# Kalo saya biasanya email yg lolos dr bayesian
# saya pindahkan secara manual ke folder "uncaught", trus saya jalankan
# sa-learn secara periodik utk membaca isi uncaught itu utk melatih.

Maksudnya memindahkan secara manual ke folder "uncaught" ini apa om?
Caranya gmn?


-dhani



-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Ronny Haryanto
On Wed, Sep 20, 2006 at 11:50:42AM +0700, Aryaseta wrote:
> Saya punya scenario begini, berhubung user masih sering mendapatkan email
> spam.
> 
> Saya buat Account [EMAIL PROTECTED] yang fungsinya menampung forward email 
> spam
> dari user mailserver saya.
> 
> Misalkan user mailserver saya namanya  [EMAIL PROTECTED] mendapatkan email 
> spam
> dari [EMAIL PROTECTED], trus email tersebut di forward ke [EMAIL PROTECTED]
> 
> Trus saya jalankan 
> # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/cur
> # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/new
> 
> Kira2 yang didetect sebagai spam account yg mana? 
> account [EMAIL PROTECTED] atau account pengirim email spam yg diforward tadi
> ([EMAIL PROTECTED]) ?

Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya
dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan
mana header mana isi, dia tidak tahu mana pengirim mana penerima,
pokoknya apapun yg ada di emailnya dipake utk membangun databasenya.
Kelebihannya menggunakan Bayesian classification ini adalah sistemnya
tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar
sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita
mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian
saya pindahkan secara manual ke folder "uncaught", trus saya jalankan
sa-learn secara periodik utk membaca isi uncaught itu utk melatih.
(Atau mungkin ada email client yg otomatis bisa memanggil sa-learn
atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar
mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya
seperti apa.

Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
semakin banyak dan akurat.

Menjawab pertanyaan anda, ya belum tentu email yg mana yg akan
dianggap spam. Tergantung database trainingnya seperti apa, kalo
kurang dilatih ya akurasinya rendah. Sekali lagi, waktu sistemnya
melakukan klasifikasi (ini spam atau bukan) dia tidak perlu tau bahwa
data yg sedang dia klasifikasi itu adalah sebuah email, jadi dia tidak
tau menahu soal pengirim, penerima, MIME, dsb. pokoknya semuanya data.

Ronny


signature.asc
Description: Digital signature


[tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Aryaseta
Dear All,

Saya punya scenario begini, berhubung user masih sering mendapatkan email
spam.

Saya buat Account [EMAIL PROTECTED] yang fungsinya menampung forward email spam
dari user mailserver saya.

Misalkan user mailserver saya namanya  [EMAIL PROTECTED] mendapatkan email spam
dari [EMAIL PROTECTED], trus email tersebut di forward ke [EMAIL PROTECTED]

Trus saya jalankan 
# sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/cur
# sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/new

Kira2 yang didetect sebagai spam account yg mana? 
account [EMAIL PROTECTED] atau account pengirim email spam yg diforward tadi
([EMAIL PROTECTED]) ?

Thanks...


-Dhani



-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis