Re: [tanya-jawab] sa-learn Spam Assasin
On Fri, Sep 22, 2006 at 09:40:11AM +0700, - Cygnus - wrote: Ronny Haryanto wrote: Ya itu juga bisa, tapi tidak akan seakurat kalo kita sendiri yg melatih. SA sendiri, tanpa bayes learning, itu aja sering false positives (at least buat saya). Jelek banget kalo false positive lalu dijadikan bahan learning spam otomatis bayes, ngotor2in database yg udah susah2 dilatih. Bisa diunlearn sih, tapi sama aja ngerepotin, kita mesti cek sendiri satu2 mana yg false positive mana yg nggak, sama aja boong, mending sekalian manual ngelatihnya. Ronny Yah banyak jalan menuju roma sih :). Hm, bukan masalah selera sih. Tapi ini masalahnya jalan yg satu sudah pasti menuju Roma, sedangkan jalan satunya belum tentu. Kalo ditrain manually kemungkinan false positives dianggap spam adalah nol (kecuali salah ngetrain), sedangkan kalo automated training berdasarkan SA rules ada kemungkinan false positives. Ronny signature.asc Description: Digital signature
Re: [tanya-jawab] sa-learn Spam Assasin
Ronny Haryanto wrote: Hm, bukan masalah selera sih. Tapi ini masalahnya jalan yg satu sudah pasti menuju Roma, sedangkan jalan satunya belum tentu. Kalo ditrain manually kemungkinan false positives dianggap spam adalah nol (kecuali salah ngetrain), sedangkan kalo automated training berdasarkan SA rules ada kemungkinan false positives. Ronny Iya. Baru nyadar tadi pas iseng2 liat message yg di tag spam, ternyata ada yg scoring bayes nya min, padahal itu spam beneran. Rupanya kemarin2 kebantu sama rule SA yg lain, tp bayesnya sedikit ngawur. Makasih buat tips nya -- - Cygnus - Send instant messages to your online friends http://asia.messenger.yahoo.com -- FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab Unsubscribe: kirim email ke [EMAIL PROTECTED] Arsip dan info milis selengkapnya di http://linux.or.id/milis
Re: [tanya-jawab] sa-learn Spam Assasin
On Thursday 21 September 2006 09:10, Endy Muhardin wrote: On Wednesday 20 September 2006 18:28, Ronny Haryanto wrote: Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga, supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga semakin banyak dan akurat. Saya tanya lagi ya mas Ronny. Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam dan Mark as Ham. Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini ya? pertanyaannya adalah (kalau sesuai dengan subject topik ini) apakah si kmail ini terintegrasi dengan spamassassin? -- I am human and I need to be loved Just like everybody else does -- FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab Unsubscribe: kirim email ke [EMAIL PROTECTED] Arsip dan info milis selengkapnya di http://linux.or.id/milis
Re: [tanya-jawab] sa-learn Spam Assasin
On Thu, Sep 21, 2006 at 09:10:41AM +0700, Endy Muhardin wrote: Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam dan Mark as Ham. Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini ya? Saya tidak familiar dg feature itu dari KMail. Silakan cek ke dokumentasinya. Tapi prinsip garis besarnya sih sepertinya sama. Logikanya, setelah beberapa tahun digunakan, harusnya kan si Bayes di komputer saya ini sudah lumayan cerdas, karena sudah dilatih bertahun-tahun. Tapi jangan lupa kalo spam juga selalu evolving, jadi sistemnya mungkin sudah bagus dalam mengklasifikasikan spam2 yg sudah familiar, tapi yg baru2 mungkin nggak. Jadi perlu dilatih terus(*) walaupun mungkin makin lama makin jarang perlu melatihnya. Makanya kalo ada yg lolos saya masukin ke folder uncaught yg dicek secara periodik oleh sa-learn saya, atau anda bisa pake mark as spam dan sejenisnya kalo anda pake sistem lain. Sedikit lebih general, tidak hanya KMail, misalnya kita mengoperasikan mail server. Bisakah kita migrasi hasil latihan Bayes ke server lain? Harusnya sih bisa asal sistemnya bisa membaca databasenya. Kan belum tentu KMail dan SpamAssassin menggunakan format yg sama utk database Bayesian learningnya, misalnya. Ronny (*) Pengetahuan AI saya agak kurang, jadi mohon dikoreksi kalo salah. Seingat saya Bayesian learning dan jenis2 algorithm klasifikasinya ini termasuk supervised learning, jadi butuh dilatih berdasarkan apriori knowledge. Hanya karena dia sudah dilatih bertahun2 bukan berarti dia bisa mengklasifikasi dg baik sesuatu yg belum pernah dilihatnya. http://en.wikipedia.org/wiki/Pattern_recognition signature.asc Description: Digital signature
Re: [tanya-jawab] sa-learn Spam Assasin
senopati wrote: Saya menggunakan spamassassin juga di mail server, pada client, menggunakan Thunderbird. Thunderbird juga mampu kita latih untuk mempelajari isi spam seperti bayesian. Apa ada metode yang mudah untuk memindahkan database dari thunderbird ke spamassassin pada mail server ? krna selama ini menggunakan cara manual dengan copy paste isi dari message ke mail server, baru dijalankan sa-learn-nya. saya punya trik untuk melatih spamassassin dengan memaanfaatkan email yg sudah di train oleh thunderbird(linux version) sebagai junkmail. yg di butuhkan cuma program mb2md kalo pakai distro based debian bisa di install dengan cara apt-get install mb2md mb2md -s /home/harry/.mozilla-thunderbird/dobio2px.default/Mail/Local\ Folders/csm.sbd/official.sbd/quarantine.sbd/junkyard -d /home/harry/spam/ (sesuaikan path folder junkmail yg ada di email anda) command diatas akan mengkonversi format email mbox yg berada di folder junkmail thunderbird /home/harry/.mozilla-thunderbird/dobio2px.default/Mail/Local\ Folders/csm.sbd/official.sbd/quarantine.sbd/junkyard ke format maildir dan di simpan ke folder /home/harry/spam/ setelah proses konversi selesai kita copy ke server email tempat si spamassassin yg mau kita training, bisa menggunakan rsync. untuk lebih mudahnya kita buat shell script aja (ini contoh punya saya) #!/bin/sh RSYNC=/usr/bin/rsync SSH=/usr/bin/ssh KEY=/home/harry/key/flame-rsync-key RUSER=root RHOST=172.18.52.1 RPATH1=/root/spam/ LPATH1=/home/harry/spam/cur/ $RSYNC -az -e $SSH -i $KEY $LPATH1 [EMAIL PROTECTED]:$RPATH1 rm -rfv /home/harry/spam/* note: KEY=/home/harry/key/flame-rsync-key untuk automatisasi login. tutorialnya ada di sini http://www.jdmz.net/ssh/ data2 junkmail yg sudah berada di email server siap di pakai untuk mentraining data bayesian si spammassassin #!/bin/bash SADIR=/var/spool/amavis/.spamassassin DBPATH=/var/spool/amavis/.spamassassin/bayes SPAMFOLDERS=\ /root/spam \ for spamfolder in $SPAMFOLDERS ; do \ echo Learning spam from $spamfolder ; \ nice sa-learn --spam --showdots --dbpath $DBPATH $spamfolder done chown -R amavis:amavis $SADIR note: semua path sesuaikan dengan yg ada di environment anda masing2 semoga membantu regards PT.CITRA SARI MAKMUR SATELLITE TERRESTRIAL NETWORK Connecting the distance - anytime, anywhere, any content -- FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab Unsubscribe: kirim email ke [EMAIL PROTECTED] Arsip dan info milis selengkapnya di http://linux.or.id/milis
Re: [tanya-jawab] sa-learn Spam Assasin
On Thu, Sep 21, 2006 at 11:25:05AM +0700, A r j u n a wrote: On Thursday 21 September 2006 09:10, Endy Muhardin wrote: On Wednesday 20 September 2006 18:28, Ronny Haryanto wrote: Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga, supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga semakin banyak dan akurat. Saya tanya lagi ya mas Ronny. Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam dan Mark as Ham. Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini ya? pertanyaannya adalah (kalau sesuai dengan subject topik ini) apakah si kmail ini terintegrasi dengan spamassassin? KMail mungkin punya feature Bayesian built-in. Mungkin lho. Ronny signature.asc Description: Digital signature
Re: [tanya-jawab] sa-learn Spam Assasin
On Thu, Sep 21, 2006 at 12:05:22PM +0700, - Cygnus - wrote: IMHO, sebenarnya kalo dipikir2, nggak perlu dengan cara manual, karena seingat saya ada opsi bayes_auto_learn_threshold_spam dan bayes_auto_learn_threshold_ham di file misc_10.cf (untuk SA 3.1.x), atau di local.cf (3.0.x , kalo nggak salah). Ini bisa digunakan untuk melatih bayes secara otomatis untuk setiap email yang diperiksa dengan memberikan nilai batas tertentu, mana yang akan dianggap sebagai spam dan mana yang ham. Ya itu juga bisa, tapi tidak akan seakurat kalo kita sendiri yg melatih. SA sendiri, tanpa bayes learning, itu aja sering false positives (at least buat saya). Jelek banget kalo false positive lalu dijadikan bahan learning spam otomatis bayes, ngotor2in database yg udah susah2 dilatih. Bisa diunlearn sih, tapi sama aja ngerepotin, kita mesti cek sendiri satu2 mana yg false positive mana yg nggak, sama aja boong, mending sekalian manual ngelatihnya. Ronny signature.asc Description: Digital signature
Re: [tanya-jawab] sa-learn Spam Assasin
Ronny Haryanto wrote: Ya itu juga bisa, tapi tidak akan seakurat kalo kita sendiri yg melatih. SA sendiri, tanpa bayes learning, itu aja sering false positives (at least buat saya). Jelek banget kalo false positive lalu dijadikan bahan learning spam otomatis bayes, ngotor2in database yg udah susah2 dilatih. Bisa diunlearn sih, tapi sama aja ngerepotin, kita mesti cek sendiri satu2 mana yg false positive mana yg nggak, sama aja boong, mending sekalian manual ngelatihnya. Ronny Yah banyak jalan menuju roma sih :). Saya sendiri sih lebih suka pakai mekanisme di atas plus adjustment scoring untuk beberapa rule yang buggy (berdasarkan google), atau berdasarkan log. So far sih false positives nggak ada. Kalau false negatives, iya untuk spam2 berbahasa Indonesia molos semua :(. Mungkin untuk yang ini musti train manual (baru kepikiran). Ntar tak cobain deh -- - Cygnus - Send instant messages to your online friends http://asia.messenger.yahoo.com -- FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab Unsubscribe: kirim email ke [EMAIL PROTECTED] Arsip dan info milis selengkapnya di http://linux.or.id/milis
[tanya-jawab] sa-learn Spam Assasin
Dear All, Saya punya scenario begini, berhubung user masih sering mendapatkan email spam. Saya buat Account [EMAIL PROTECTED] yang fungsinya menampung forward email spam dari user mailserver saya. Misalkan user mailserver saya namanya [EMAIL PROTECTED] mendapatkan email spam dari [EMAIL PROTECTED], trus email tersebut di forward ke [EMAIL PROTECTED] Trus saya jalankan # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/cur # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/new Kira2 yang didetect sebagai spam account yg mana? account [EMAIL PROTECTED] atau account pengirim email spam yg diforward tadi ([EMAIL PROTECTED]) ? Thanks... -Dhani -- FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab Unsubscribe: kirim email ke [EMAIL PROTECTED] Arsip dan info milis selengkapnya di http://linux.or.id/milis
Re: [tanya-jawab] sa-learn Spam Assasin
On Wed, Sep 20, 2006 at 11:50:42AM +0700, Aryaseta wrote: Saya punya scenario begini, berhubung user masih sering mendapatkan email spam. Saya buat Account [EMAIL PROTECTED] yang fungsinya menampung forward email spam dari user mailserver saya. Misalkan user mailserver saya namanya [EMAIL PROTECTED] mendapatkan email spam dari [EMAIL PROTECTED], trus email tersebut di forward ke [EMAIL PROTECTED] Trus saya jalankan # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/cur # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/new Kira2 yang didetect sebagai spam account yg mana? account [EMAIL PROTECTED] atau account pengirim email spam yg diforward tadi ([EMAIL PROTECTED]) ? Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan mana header mana isi, dia tidak tahu mana pengirim mana penerima, pokoknya apapun yg ada di emailnya dipake utk membangun databasenya. Kelebihannya menggunakan Bayesian classification ini adalah sistemnya tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian saya pindahkan secara manual ke folder uncaught, trus saya jalankan sa-learn secara periodik utk membaca isi uncaught itu utk melatih. (Atau mungkin ada email client yg otomatis bisa memanggil sa-learn atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya seperti apa. Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga, supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga semakin banyak dan akurat. Menjawab pertanyaan anda, ya belum tentu email yg mana yg akan dianggap spam. Tergantung database trainingnya seperti apa, kalo kurang dilatih ya akurasinya rendah. Sekali lagi, waktu sistemnya melakukan klasifikasi (ini spam atau bukan) dia tidak perlu tau bahwa data yg sedang dia klasifikasi itu adalah sebuah email, jadi dia tidak tau menahu soal pengirim, penerima, MIME, dsb. pokoknya semuanya data. Ronny signature.asc Description: Digital signature
RE: [tanya-jawab] sa-learn Spam Assasin
# Kalo saya biasanya email yg lolos dr bayesian # saya pindahkan secara manual ke folder uncaught, trus saya jalankan # sa-learn secara periodik utk membaca isi uncaught itu utk melatih. Maksudnya memindahkan secara manual ke folder uncaught ini apa om? Caranya gmn? -dhani -- FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab Unsubscribe: kirim email ke [EMAIL PROTECTED] Arsip dan info milis selengkapnya di http://linux.or.id/milis
Re: [tanya-jawab] sa-learn Spam Assasin
On Wednesday 20 September 2006 18:28, Ronny Haryanto wrote: Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga, supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga semakin banyak dan akurat. Saya tanya lagi ya mas Ronny. Sekarang saya pakai KMail. Di toolbarnya kan ada tombol untuk Mark as Spam dan Mark as Ham. Berarti kita bisa langsung training si Bayes dengan menggunakan tombol2 ini ya? Logikanya, setelah beberapa tahun digunakan, harusnya kan si Bayes di komputer saya ini sudah lumayan cerdas, karena sudah dilatih bertahun-tahun. Pertanyaan saya, misalnya saya punya komputer lain, untuk gampangnya sama-sama pakai KMail, bisakah kita copy-paste hasil latihan ini ke komputer yang lain? Sedikit lebih general, tidak hanya KMail, misalnya kita mengoperasikan mail server. Bisakah kita migrasi hasil latihan Bayes ke server lain? Kalau bisa, mungkin bisa diberikan referensi tentang cara melakukannya. Terima kasih, -- Endy Muhardin http://endy.artivisi.com Y! : endymuhardin -- life learn contribute -- -- FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab Unsubscribe: kirim email ke [EMAIL PROTECTED] Arsip dan info milis selengkapnya di http://linux.or.id/milis
Re: [tanya-jawab] sa-learn Spam Assasin
Saya menggunakan spamassassin juga di mail server, pada client, menggunakan Thunderbird. Thunderbird juga mampu kita latih untuk mempelajari isi spam seperti bayesian. Apa ada metode yang mudah untuk memindahkan database dari thunderbird ke spamassassin pada mail server ? krna selama ini menggunakan cara manual dengan copy paste isi dari message ke mail server, baru dijalankan sa-learn-nya. Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan mana header mana isi, dia tidak tahu mana pengirim mana penerima, pokoknya apapun yg ada di emailnya dipake utk membangun databasenya. Kelebihannya menggunakan Bayesian classification ini adalah sistemnya tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian saya pindahkan secara manual ke folder uncaught, trus saya jalankan sa-learn secara periodik utk membaca isi uncaught itu utk melatih. (Atau mungkin ada email client yg otomatis bisa memanggil sa-learn atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya seperti apa. Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga, supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga semakin banyak dan akurat. Menjawab pertanyaan anda, ya belum tentu email yg mana yg akan dianggap spam. Tergantung database trainingnya seperti apa, kalo kurang dilatih ya akurasinya rendah. Sekali lagi, waktu sistemnya melakukan klasifikasi (ini spam atau bukan) dia tidak perlu tau bahwa data yg sedang dia klasifikasi itu adalah sebuah email, jadi dia tidak tau menahu soal pengirim, penerima, MIME, dsb. pokoknya semuanya data. Ronny -- FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab Unsubscribe: kirim email ke [EMAIL PROTECTED] Arsip dan info milis selengkapnya di http://linux.or.id/milis