Semacam tokenizer ya ?
Kenapa tidak menggunakan Lucene ?
http://lucene.apache.org
2009/7/4 david_liauw
> Matrix nya termasuk SparseMatrixfrekuensi kemunculan term (kata) dalam
> tiap dokumen itulah yang digunakan sebagai pembobotnya.
Matrix nya termasuk SparseMatrixfrekuensi kemunculan term (kata) dalam tiap
dokumen itulah yang digunakan sebagai pembobotnya.
--- In jug-indonesia@yahoogroups.com, Jony Sugianto wrote:
>
> Saya kira matrixnya akan banyak kosongnya (sparsematrix), kenapa untuk
> methode penyimpanannya tidak
Saya kira matrixnya akan banyak kosongnya (sparsematrix), kenapa untuk
methode penyimpanannya tidak menggunakan sparsematrix implementasi yang
berbasis list saja. Jadi yang disimpan hanya informasi yang tidak kosong
saja. Jadi kalau jumlah dokumentnya 100 dan rata 2 keyword tiap
dokument
Tebakan saya: biasanya data mining walaupun column dan rownya besar, tapi
datanya sparse (tiap row nggak make semua column). Kalo begitu bisa pake
HashMap (ato TreeMap) dengan key berupa value pair.
Kalo angkanya beneran 1jt x 1jt, mestinya udah saatnya pake yg lebih berat
macemnya MapReduce (kan
Lu mau deteksi kalo ada perubahan di child parent dengan compare ArrayList
gitu ?
Gue kok kurang jelas dengan pertanyaan nya
Di contohnya Andi punya list dengan isi 12 dan Budi punya list dengan isi 13
Apa yang mau di compare ini ? Andi dan Budi kan beda orang ?
Yang lu override itu equals dan ha
2009/7/3 Ilhamsyah Edwar :
>
>
> Ups sori, 1 triliun.. Bener... Nolnya banyak dah.. :)
>
> Kalo di-split, tetap aja butuh memori sebanyak 8 byte x 1T = 8TB!!!
> Asumsi data yang dimasukkan adalah integer yang 8 byte.. Kayaknya perlu
> trik khusus nih. Mungkin bisa dengan diswap ke file untuk cache.
Ups sori, 1 triliun.. Bener... Nolnya banyak dah.. :)
Kalo di-split, tetap aja butuh memori sebanyak 8 byte x 1T = 8TB!!!
Asumsi data yang dimasukkan adalah integer yang 8 byte.. Kayaknya perlu
trik khusus nih. Mungkin bisa dengan diswap ke file untuk cache.
> -Original Message-
> From: j
1 triliun boss... bukan 1 milyar.
Satu point data(m.n) itu isinya apa saja Mas?
emang kalau di split enggak bisa ya? jadi dibagi per 1Kx1K di proses
bagian per bagian.
Ngeri denger nya... sejuta kali sejuta, kayak lagi ngitung aerodinamis
pesawat tempur
rgds,
jarvov
Ilhamsyah Edwar wrote:
>
>
Kayaknya kalo 1jt x 1jt terlalu besar deh.. Berarti ada 1milyar data.
Belum lagi memproses data sebesar itu, bisa butuh waktu beberapa jam
waktu running.
Saya dulu pernah coba pake vector of vector, cuman sanggup 1000x1000.
Lebih daripada itu out of memory. Sudah coba naikin XMS sampe 1.5GB gak
ku
saya lagi buat project data mining untuk clustering dokumen...semua dokumen
yang terindex di retrieve untuk diambil matrix TF-IDF nya, nah atribut yang
digunakan cukup besar???
tolong bantu saya thx
--- In jug-indonesia@yahoogroups.com, timotius sakti wrote:
>
> Untuk apa matrix sebesar it
Untuk apa matrix sebesar itu ? Mungkin bisa dijelaskan apa tujuannya jadi nanti
saya bisa bantu menggunakan cara lain yg juga solve masalah anda.
- Timotius Sakti
visit my blog:
http://nomoreac.wordpress.com
--- Pada Kam, 2/7/09, david_liauw menulis:
Dari: david_liauw
Topik: [JUG-Indonesi
11 matches
Mail list logo