search.detik.com (bukan detiksearch.com) adalah search engine yang digunakan 
untuk mesin pencarian news/artikel di detik.com 
(http://wiki.apache.org/hadoop/PoweredBy. Search.detik.com ini dibuat dengan 
menggunakan framework teknologi distributed computing dan 100% Java Code yang 
100% open source (http://wiki.apache.org/hadoop/PoweredBy). Fitur Search 
terdiri dari :
1. Basic News/Article Search berdasarkan waktu terkini
2. Pencarian berdasarkan relevansi antar dokumen (mirip pageRank)
3. Pencarian berdasarkan kombinasi logika waktu dan relevansi
4. Pencarian berdasarkan range tanggal (dari tanggal... sampai dengan 
tanggal...)
5. Pencarian berdasarkan lokasi berita
6. Pencarian berdasarkan waktu (hari ini, minggu ini, tahun ini, pencarian 
dalam arsip)
7. Pencarian dalam hasil pencarian
Search engine yang menggunakan Lucene (http://lucene.apache.org/) dan Nutch 
(http://lucene.apache.org/nutch/) sebagai engine utamanya ditambah menggunakan 
hadoop (http://hadoop.apache.org/core/) sebagai running engine (hadoop adalah 
implementasi teknologi distributed computing yang dapat memproses data yang 
sangat besar secara paralel dan terdistribusi). 

Fitur lainnya yang bisa dilihat di halaman utama search.detik.com yang juga 
menggunakan teknologi yang berbasis java n framework distributed computing :
1. Berita Terpopuler adalah list berita yang paling banyak dibaca oleh pembaca 
detik, dibuat dengan menggunakan hadoop dan pig script 
(http://hadoop.apache.org/pig/ - script ini banyak digunakan di yahoo dan 
menjadi platform bahasa untuk high level language and analysis program dari 
very large data yang digunakan yahoo, seperti untuk yahoosearch dan yahoomail)
2. 10 Topik paling dicari adalah list kata-kata yang paling banyak dicari di 
search.detik.com, dibuat dengan menggunakan hadoop dan pig script.
3. 10 Topik paling populer adalah list kata-kata yang paling banyak terdapat di 
dalam artikel berita detik, dibuat dengan menggunakan hadoop dan hbase 
(http://hadoop.apache.org/hbase/ - hadoop distributed database yang dibuat 
seperti Google BigTable -> http://labs.google.com/papers/bigtable.html).

Search.detik.com ini berjalan pada 2 cluster dengan menggunakan 9 komputer 
(beberapa komputer yang digunakan mempunyai spesifikasi sekelas nyaris hanya 
seperti PC biasa).
Masih banyak yang akan dikembangkan didalam search engine ini, yang tentunya 
tetap menggunakan teknologi yang berbasiskan distributed computing dan pastinya 
tetap berbasis opensource.
Segitu dulu sharingnya tentang search.detik.com, ditunggu kalo ada input, 
kritik n saran.
Oh iya kita masih kekurangan banyak tenaga untuk ngembangin search ini, so kalo 
emang minat n udah biasa ngutik2 java n system network, silahkan join dengan 
kita, kirim email aja ke andreas(at)detik.com. Ok frens, tenkyu.

-andreas



      

Reply via email to