Menurut pendapat saya, lucene dan compass tidak bisa dibandingkan 'apple to apple' karena Compass sebenarnya adalah integration framework yang jalannya di atas lucene juga. Lucene adalah Core Engine dari Search yang diantaranya fungsi utamanya adalah melakukan indexing. Compas mengintegrasikan lucene dengan java application framework lainnya seperti hibernate misalnya. Dalam melakukan indexing, compass tetap menggunakan Lucene. Saya belum pernah secara langsung menggunakan Compass, karena berat juga kalau saya menyimpan hasil crawl and index ke dalam database, terutama untuk internet apps, menurut saya compass ini cocok diimplementasikan untuk real time search diĀ intranet application. Atau mungkin ada rekan yang udah mencoba compass??
-andreas --- On Mon, 6/1/09, mujoko mujoko <mujoko.muj...@gmail.com> wrote: From: mujoko mujoko <mujoko.muj...@gmail.com> Subject: Re: [JUG-Indonesia] Distributed Computing in action : search.detik.com To: jug-indonesia@yahoogroups.com Date: Monday, June 1, 2009, 9:42 AM Om Andri nanya dung.. Kenapa pilih search engine Lucene ya ? enggak compass ? pernah melakukan komparasi gak ya ? Thanks for share On 5/26/09, andri yunanto <andri_...@yahoo. com> wrote: search.detik. com (bukan detiksearch. com) adalah search engine yang digunakan untuk mesin pencarian news/artikel di detik.com (http://wiki. apache.org/ hadoop/PoweredBy. Search.detik. com ini dibuat dengan menggunakan framework teknologi distributed computing dan 100% Java Code yang 100% open source (http://wiki. apache.org/ hadoop/PoweredBy). Fitur Search terdiri dari : 1. Basic News/Article Search berdasarkan waktu terkini 2. Pencarian berdasarkan relevansi antar dokumen (mirip pageRank) 3. Pencarian berdasarkan kombinasi logika waktu dan relevansi 4. Pencarian berdasarkan range tanggal (dari tanggal... sampai dengan tanggal...) 5. Pencarian berdasarkan lokasi berita 6. Pencarian berdasarkan waktu (hari ini, minggu ini, tahun ini, pencarian dalam arsip) 7. Pencarian dalam hasil pencarian Search engine yang menggunakan Lucene (http://lucene. apache.org/) dan Nutch (http://lucene. apache.org/ nutch/) sebagai engine utamanya ditambah menggunakan hadoop (http://hadoop. apache.org/ core/) sebagai running engine (hadoop adalah implementasi teknologi distributed computing yang dapat memproses data yang sangat besar secara paralel dan terdistribusi) . Fitur lainnya yang bisa dilihat di halaman utama search.detik. com yang juga menggunakan teknologi yang berbasis java n framework distributed computing : 1. Berita Terpopuler adalah list berita yang paling banyak dibaca oleh pembaca detik, dibuat dengan menggunakan hadoop dan pig script (http://hadoop. apache.org/ pig/ - script ini banyak digunakan di yahoo dan menjadi platform bahasa untuk high level language and analysis program dari very large data yang digunakan yahoo, seperti untuk yahoosearch dan yahoomail) 2. 10 Topik paling dicari adalah list kata-kata yang paling banyak dicari di search.detik. com, dibuat dengan menggunakan hadoop dan pig script. 3. 10 Topik paling populer adalah list kata-kata yang paling banyak terdapat di dalam artikel berita detik, dibuat dengan menggunakan hadoop dan hbase (http://hadoop. apache.org/ hbase/ - hadoop distributed database yang dibuat seperti Google BigTable -> http://labs. google.com/ papers/bigtable. html). Search.detik. com ini berjalan pada 2 cluster dengan menggunakan 9 komputer (beberapa komputer yang digunakan mempunyai spesifikasi sekelas nyaris hanya seperti PC biasa). Masih banyak yang akan dikembangkan didalam search engine ini, yang tentunya tetap menggunakan teknologi yang berbasiskan distributed computing dan pastinya tetap berbasis opensource. Segitu dulu sharingnya tentang search.detik. com, ditunggu kalo ada input, kritik n saran. Oh iya kita masih kekurangan banyak tenaga untuk ngembangin search ini, so kalo emang minat n udah biasa ngutik2 java n system network, silahkan join dengan kita, kirim email aja ke andreas(at)detik.com. Ok frens, tenkyu. -andreas -- Mujoko http://www.linkedin .com/in/mujoko