Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-22 Terurut Topik Ronny Haryanto
On Fri, Sep 22, 2006 at 09:40:11AM +0700, - Cygnus - wrote:
 Ronny Haryanto wrote:
 Ya itu juga bisa, tapi tidak akan seakurat kalo kita sendiri yg
 melatih. SA sendiri, tanpa bayes learning, itu aja sering false
 positives (at least buat saya). Jelek banget kalo false positive lalu
 dijadikan bahan learning spam otomatis bayes, ngotor2in database yg
 udah susah2 dilatih. Bisa diunlearn sih, tapi sama aja ngerepotin,
 kita mesti cek sendiri satu2 mana yg false positive mana yg nggak,
 sama aja boong, mending sekalian manual ngelatihnya.
 
 Ronny
   
 
 Yah banyak jalan menuju roma sih :).

Hm, bukan masalah selera sih. Tapi ini masalahnya jalan yg satu sudah
pasti menuju Roma, sedangkan jalan satunya belum tentu. Kalo ditrain
manually kemungkinan false positives dianggap spam adalah nol (kecuali
salah ngetrain), sedangkan kalo automated training berdasarkan SA
rules ada kemungkinan false positives.

Ronny


signature.asc
Description: Digital signature


Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-22 Terurut Topik - Cygnus -

Ronny Haryanto wrote:

Hm, bukan masalah selera sih. Tapi ini masalahnya jalan yg satu sudah
pasti menuju Roma, sedangkan jalan satunya belum tentu. Kalo ditrain
manually kemungkinan false positives dianggap spam adalah nol (kecuali
salah ngetrain), sedangkan kalo automated training berdasarkan SA
rules ada kemungkinan false positives.

Ronny
  


Iya. Baru nyadar tadi pas iseng2 liat message yg di tag spam, ternyata 
ada  yg scoring bayes nya min, padahal itu spam beneran. Rupanya 
kemarin2 kebantu sama rule SA yg lain, tp bayesnya sedikit ngawur. 
Makasih buat tips nya


--
- Cygnus -

Send instant messages to your online friends http://asia.messenger.yahoo.com 


--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-21 Terurut Topik A r j u n a
On Thursday 21 September 2006 09:10, Endy Muhardin wrote:
 On Wednesday 20 September 2006 18:28, Ronny Haryanto wrote:
  Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
  supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
  klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
  semakin banyak dan akurat.

 Saya tanya lagi ya mas Ronny.
 Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam
 dan Mark as Ham.
 Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini
 ya?

pertanyaannya adalah (kalau sesuai dengan subject topik ini)
apakah si kmail ini terintegrasi dengan spamassassin?

-- 
I am human and I need to be loved
Just like everybody else does

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-21 Terurut Topik Ronny Haryanto
On Thu, Sep 21, 2006 at 09:10:41AM +0700, Endy Muhardin wrote:
 Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark
 as Spam dan Mark as Ham. Berarti kita bisa langsung training si
 Bayes dengan menggunakan tombol2 ini ya?

Saya tidak familiar dg feature itu dari KMail. Silakan cek ke
dokumentasinya. Tapi prinsip garis besarnya sih sepertinya sama.

 Logikanya, setelah beberapa tahun digunakan, harusnya kan si Bayes di 
 komputer 
 saya ini sudah lumayan cerdas, karena sudah dilatih bertahun-tahun. 

Tapi jangan lupa kalo spam juga selalu evolving, jadi sistemnya
mungkin sudah bagus dalam mengklasifikasikan spam2 yg sudah familiar,
tapi yg baru2 mungkin nggak. Jadi perlu dilatih terus(*) walaupun
mungkin makin lama makin jarang perlu melatihnya. Makanya kalo ada yg
lolos saya masukin ke folder uncaught yg dicek secara periodik oleh
sa-learn saya, atau anda bisa pake mark as spam dan sejenisnya kalo
anda pake sistem lain.

 Sedikit lebih general, tidak hanya KMail, misalnya kita mengoperasikan mail 
 server. Bisakah kita migrasi hasil latihan Bayes ke server lain?

Harusnya sih bisa asal sistemnya bisa membaca databasenya. Kan belum
tentu KMail dan SpamAssassin menggunakan format yg sama utk database
Bayesian learningnya, misalnya.

Ronny

(*) Pengetahuan AI saya agak kurang, jadi mohon dikoreksi kalo salah.
Seingat saya Bayesian learning dan jenis2 algorithm klasifikasinya ini
termasuk supervised learning, jadi butuh dilatih berdasarkan apriori
knowledge. Hanya karena dia sudah dilatih bertahun2 bukan berarti dia
bisa mengklasifikasi dg baik sesuatu yg belum pernah dilihatnya.
http://en.wikipedia.org/wiki/Pattern_recognition


signature.asc
Description: Digital signature


Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-21 Terurut Topik Hari Hendaryanto

senopati wrote:

Saya menggunakan spamassassin juga di mail server, pada client,
menggunakan Thunderbird. Thunderbird juga mampu kita latih untuk
mempelajari isi spam seperti bayesian. Apa ada metode yang mudah untuk
memindahkan database dari thunderbird ke spamassassin pada mail server ?
krna selama ini menggunakan cara manual dengan copy paste isi dari
message ke mail server, baru dijalankan sa-learn-nya.



saya punya trik untuk melatih spamassassin dengan memaanfaatkan email yg 
sudah di train oleh thunderbird(linux version) sebagai junkmail.


yg di butuhkan cuma program mb2md

kalo pakai distro based debian bisa di install dengan cara
apt-get install mb2md


mb2md -s /home/harry/.mozilla-thunderbird/dobio2px.default/Mail/Local\ 
Folders/csm.sbd/official.sbd/quarantine.sbd/junkyard -d /home/harry/spam/

(sesuaikan path folder junkmail yg ada di email anda)

command diatas akan mengkonversi format email mbox yg berada di folder 
junkmail thunderbird 
/home/harry/.mozilla-thunderbird/dobio2px.default/Mail/Local\ 
Folders/csm.sbd/official.sbd/quarantine.sbd/junkyard ke format maildir 
dan di simpan ke folder /home/harry/spam/


setelah proses konversi selesai kita copy ke server email tempat si 
spamassassin yg mau kita training, bisa menggunakan rsync.


untuk lebih mudahnya kita buat shell script aja
(ini contoh punya saya)

#!/bin/sh

RSYNC=/usr/bin/rsync
SSH=/usr/bin/ssh
KEY=/home/harry/key/flame-rsync-key
RUSER=root
RHOST=172.18.52.1
RPATH1=/root/spam/
LPATH1=/home/harry/spam/cur/

$RSYNC -az -e $SSH -i $KEY $LPATH1 [EMAIL PROTECTED]:$RPATH1

rm -rfv /home/harry/spam/*

note:

KEY=/home/harry/key/flame-rsync-key untuk automatisasi login.
tutorialnya ada di sini http://www.jdmz.net/ssh/

data2 junkmail yg sudah berada di email server siap di pakai untuk 
mentraining data bayesian si spammassassin


#!/bin/bash

SADIR=/var/spool/amavis/.spamassassin
DBPATH=/var/spool/amavis/.spamassassin/bayes
SPAMFOLDERS=\
/root/spam \

for spamfolder in $SPAMFOLDERS ; do \
echo Learning spam from $spamfolder ; \
nice sa-learn --spam --showdots --dbpath $DBPATH $spamfolder
done

chown -R amavis:amavis $SADIR

note: semua path sesuaikan dengan yg ada di environment anda masing2

semoga membantu

regards


PT.CITRA SARI MAKMUR
SATELLITE  TERRESTRIAL NETWORK

Connecting the distance - anytime, anywhere, any content

--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-21 Terurut Topik Ronny Haryanto
On Thu, Sep 21, 2006 at 11:25:05AM +0700, A r j u n a wrote:
 On Thursday 21 September 2006 09:10, Endy Muhardin wrote:
  On Wednesday 20 September 2006 18:28, Ronny Haryanto wrote:
   Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
   supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
   klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
   semakin banyak dan akurat.
 
  Saya tanya lagi ya mas Ronny.
  Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam
  dan Mark as Ham.
  Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini
  ya?
 
 pertanyaannya adalah (kalau sesuai dengan subject topik ini)
 apakah si kmail ini terintegrasi dengan spamassassin?

KMail mungkin punya feature Bayesian built-in. Mungkin lho.

Ronny


signature.asc
Description: Digital signature


Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-21 Terurut Topik Ronny Haryanto
On Thu, Sep 21, 2006 at 12:05:22PM +0700, - Cygnus - wrote:
 IMHO, sebenarnya kalo dipikir2, nggak perlu dengan cara manual, karena 
 seingat saya ada opsi bayes_auto_learn_threshold_spam dan 
 bayes_auto_learn_threshold_ham di file misc_10.cf (untuk SA 3.1.x), atau 
 di local.cf (3.0.x , kalo nggak salah). Ini bisa digunakan untuk melatih 
 bayes secara otomatis untuk setiap email yang diperiksa dengan 
 memberikan nilai batas tertentu, mana yang akan dianggap sebagai spam 
 dan mana yang ham.

Ya itu juga bisa, tapi tidak akan seakurat kalo kita sendiri yg
melatih. SA sendiri, tanpa bayes learning, itu aja sering false
positives (at least buat saya). Jelek banget kalo false positive lalu
dijadikan bahan learning spam otomatis bayes, ngotor2in database yg
udah susah2 dilatih. Bisa diunlearn sih, tapi sama aja ngerepotin,
kita mesti cek sendiri satu2 mana yg false positive mana yg nggak,
sama aja boong, mending sekalian manual ngelatihnya.

Ronny


signature.asc
Description: Digital signature


Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-21 Terurut Topik - Cygnus -

Ronny Haryanto wrote:

Ya itu juga bisa, tapi tidak akan seakurat kalo kita sendiri yg
melatih. SA sendiri, tanpa bayes learning, itu aja sering false
positives (at least buat saya). Jelek banget kalo false positive lalu
dijadikan bahan learning spam otomatis bayes, ngotor2in database yg
udah susah2 dilatih. Bisa diunlearn sih, tapi sama aja ngerepotin,
kita mesti cek sendiri satu2 mana yg false positive mana yg nggak,
sama aja boong, mending sekalian manual ngelatihnya.

Ronny
  


Yah banyak jalan menuju roma sih :). Saya sendiri sih lebih suka pakai 
mekanisme di atas plus adjustment scoring untuk beberapa rule yang buggy 
(berdasarkan google), atau berdasarkan log. So far sih false positives 
nggak ada. Kalau false negatives, iya untuk spam2 berbahasa Indonesia 
molos semua :(. Mungkin untuk yang ini musti train manual (baru 
kepikiran). Ntar tak cobain deh


--
- Cygnus -

Send instant messages to your online friends http://asia.messenger.yahoo.com 


--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



[tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Aryaseta
Dear All,

Saya punya scenario begini, berhubung user masih sering mendapatkan email
spam.

Saya buat Account [EMAIL PROTECTED] yang fungsinya menampung forward email spam
dari user mailserver saya.

Misalkan user mailserver saya namanya  [EMAIL PROTECTED] mendapatkan email spam
dari [EMAIL PROTECTED], trus email tersebut di forward ke [EMAIL PROTECTED]

Trus saya jalankan 
# sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/cur
# sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/new

Kira2 yang didetect sebagai spam account yg mana? 
account [EMAIL PROTECTED] atau account pengirim email spam yg diforward tadi
([EMAIL PROTECTED]) ?

Thanks...


-Dhani



-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Ronny Haryanto
On Wed, Sep 20, 2006 at 11:50:42AM +0700, Aryaseta wrote:
 Saya punya scenario begini, berhubung user masih sering mendapatkan email
 spam.
 
 Saya buat Account [EMAIL PROTECTED] yang fungsinya menampung forward email 
 spam
 dari user mailserver saya.
 
 Misalkan user mailserver saya namanya  [EMAIL PROTECTED] mendapatkan email 
 spam
 dari [EMAIL PROTECTED], trus email tersebut di forward ke [EMAIL PROTECTED]
 
 Trus saya jalankan 
 # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/cur
 # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/new
 
 Kira2 yang didetect sebagai spam account yg mana? 
 account [EMAIL PROTECTED] atau account pengirim email spam yg diforward tadi
 ([EMAIL PROTECTED]) ?

Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya
dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan
mana header mana isi, dia tidak tahu mana pengirim mana penerima,
pokoknya apapun yg ada di emailnya dipake utk membangun databasenya.
Kelebihannya menggunakan Bayesian classification ini adalah sistemnya
tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar
sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita
mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian
saya pindahkan secara manual ke folder uncaught, trus saya jalankan
sa-learn secara periodik utk membaca isi uncaught itu utk melatih.
(Atau mungkin ada email client yg otomatis bisa memanggil sa-learn
atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar
mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya
seperti apa.

Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
semakin banyak dan akurat.

Menjawab pertanyaan anda, ya belum tentu email yg mana yg akan
dianggap spam. Tergantung database trainingnya seperti apa, kalo
kurang dilatih ya akurasinya rendah. Sekali lagi, waktu sistemnya
melakukan klasifikasi (ini spam atau bukan) dia tidak perlu tau bahwa
data yg sedang dia klasifikasi itu adalah sebuah email, jadi dia tidak
tau menahu soal pengirim, penerima, MIME, dsb. pokoknya semuanya data.

Ronny


signature.asc
Description: Digital signature


RE: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Aryaseta

# Kalo saya biasanya email yg lolos dr bayesian
# saya pindahkan secara manual ke folder uncaught, trus saya jalankan
# sa-learn secara periodik utk membaca isi uncaught itu utk melatih.

Maksudnya memindahkan secara manual ke folder uncaught ini apa om?
Caranya gmn?


-dhani



-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik Endy Muhardin
On Wednesday 20 September 2006 18:28, Ronny Haryanto wrote:

 Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
 supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
 klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
 semakin banyak dan akurat.

Saya tanya lagi ya mas Ronny. 
Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam dan 
Mark as Ham. 
Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini 
ya?

Logikanya, setelah beberapa tahun digunakan, harusnya kan si Bayes di komputer 
saya ini sudah lumayan cerdas, karena sudah dilatih bertahun-tahun. 

Pertanyaan saya, misalnya saya punya komputer lain, untuk gampangnya sama-sama 
pakai KMail, bisakah kita copy-paste hasil latihan ini ke komputer yang lain?

Sedikit lebih general, tidak hanya KMail, misalnya kita mengoperasikan mail 
server. Bisakah kita migrasi hasil latihan Bayes ke server lain?

Kalau bisa, mungkin bisa diberikan referensi tentang cara melakukannya. 

Terima kasih, 
-- 
Endy Muhardin
http://endy.artivisi.com
Y! : endymuhardin
-- life learn contribute --

-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis



Re: [tanya-jawab] sa-learn Spam Assasin

2006-09-20 Terurut Topik senopati
Saya menggunakan spamassassin juga di mail server, pada client,
menggunakan Thunderbird. Thunderbird juga mampu kita latih untuk
mempelajari isi spam seperti bayesian. Apa ada metode yang mudah untuk
memindahkan database dari thunderbird ke spamassassin pada mail server ?
krna selama ini menggunakan cara manual dengan copy paste isi dari
message ke mail server, baru dijalankan sa-learn-nya.

 Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya
 dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan
 mana header mana isi, dia tidak tahu mana pengirim mana penerima,
 pokoknya apapun yg ada di emailnya dipake utk membangun databasenya.
 Kelebihannya menggunakan Bayesian classification ini adalah sistemnya
 tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar
 sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita
 mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian
 saya pindahkan secara manual ke folder uncaught, trus saya jalankan
 sa-learn secara periodik utk membaca isi uncaught itu utk melatih.
 (Atau mungkin ada email client yg otomatis bisa memanggil sa-learn
 atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar
 mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya
 seperti apa.

 Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
 supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
 klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
 semakin banyak dan akurat.

 Menjawab pertanyaan anda, ya belum tentu email yg mana yg akan
 dianggap spam. Tergantung database trainingnya seperti apa, kalo
 kurang dilatih ya akurasinya rendah. Sekali lagi, waktu sistemnya
 melakukan klasifikasi (ini spam atau bukan) dia tidak perlu tau bahwa
 data yg sedang dia klasifikasi itu adalah sebuah email, jadi dia tidak
 tau menahu soal pengirim, penerima, MIME, dsb. pokoknya semuanya data.

 Ronny
   



-- 
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis