[id-ruby] Baca Wikipedia offline

Stian Haklev Wed, 16 May 2007 00:31:08 -0700

Teman2, terima kasih banyak atas semua masukan.

Memang indeksku lumayan besar untuk beberapa file aja... itu aku udah
pikirin dan di versi terakhir bisa memilih size indeksnya ketika membikin
arsip baru, kalau untuk Wikipedia aku pake ke-empat karakter pertama hex
indeks itu, kalau kamu cuma pake dua (utk misalkan packing beberapa ratus
website Ruby) dia hanya beberapa kb.


Kalau database yg beda, aku yakin ada banyak yang mungkin cocok, aku belum
coba. Tapi jangan pikirin terlalu mudah - memang untuk Wikipedia Indonesia
mungkin tidak sulit, dia tidak terlalu besar (sayangnya, mudah2an teman2 di
sini mau ikut mengembankannya), tapi kalau yg Jerman aja (aku belum sempat
download yg inggeris, yg empat kali lebih besar), dia kalau diunzip sekitar
50 GB... aku sangat tidak yakin bahwa packing dia dengan CHM akan berhasil
dengan baik (tapi aku tertarik kalo ada teman yg mau coba)... Karena program
saya (bagian lain, bukan zarchive) di bangun khusus utk Wikipedia aku bisa
memanfaatkan ketahuan saya tentang struktur halaman wikipedia, buang hal yg
tidak penting, dan packing yg lain dengan sangat mudah, sehingga file Jerman
itu jadi 1GB - dan sangat mudah dipake (kemarin aku sempat demonstrasi ke
pak Arie)...

Kalau HTML/PDF etc... nah, kalau download dumpfilenya, dia justru HTML...
Cuma, yg saya bilang, unzipnya dia 50GB dan 2 juta file... Kalau PDF, buat
aku tidak berguna, tapi content wikipedia kan terbuka, jadi silahkan siapa
yg mau nambah fitur atau cara mengunakan informasi itu.

Yg penting buat aku, Wikipedia itu ada banyak sekali informasi, tapi sampai
sekarang tidak mudah untuk didapat, kalau jauh dari internet. Aku pun mau
punya akses kepada sumber itu ketika aku di rumah tanpa wireless... sampai
sekarang sama sekali tidak ada solusi yg memungkinkan itu. Jadi aku coba
mengembankannya. Sekarang sudah lumayan berhasil, cuma tidak tau cara
menyebarluaskannya kepada teman2 yg tidak mau install ruby dan berbagai
macam libraries sendiri.

Makasih
Stian


[Non-text portions of this message have been removed]

[id-ruby] Baca Wikipedia offline

Kirim email ke