Regards,
Tommy
- Original Message -
From: "ardiansyah" <[EMAIL PROTECTED]>
To:
Sent: Sunday, July 09, 2006 11:13 AM
Subject: Re: [ITCENTER] Algoritma kemiripan string
> Kemiripan pola huruf. Langsung aja dech, saya mau migrasi data dari Excel
ke MSSQL. Di file excel or
Untuk kemiripan kata (huruf) bisa saja dihitung berdasarkan jumlah kata.
Langkahnya bisa begini:
1. Parsing word dengan regular expresion space (space tokenizer). Dihitung
berapa kata untuk masing2 string. Ambil count untuk string dengan jumlah
terbanyak (m_cWords).
2. Compare tiap wor
Kemiripan pola huruf. Langsung aja dech, saya mau migrasi data dari Excel ke
MSSQL. Di file excel orang bisa tulis nama perush seenaknya:
PT Matahari Lintas Regional Indonesia
Matahari Lintas RI
PT. Matari Lintas
Matahari Lintas Regional, PT.
Tentunya keempat string itu cukup saya simpen satu
Saya pernah membaca sedikit tentang Information
Retrieval. Cuma saya bukan expertnya mas. DI sana ada
tokenizing, stemming dsb dsb yang akhirnya bisa
memenuhi kebutuhan mas.
--- ardiansyah <[EMAIL PROTECTED]> wrote:
> Apakah ada rekan2 yang bisa beri petunjuk bagaimana
> membandingkan dua buah st
setahu saya ada (3) kemiripian makna, kemiripian pengucapan dan kemiripian
pola huruf. Kalo yang makna saya kurang tau tapi kalo kemiripian pengucapan
namanya SOUNDEX sedangkan kemiripan pola huruf itu REGEX.
Soundex berbeda di tiap bahasa, untuk mulai silahkan kesini:
http://en.wikipedia.org/wiki
Gunakan REGEX (Regular Expressions). Ask google :P
On 7/7/06, ardiansyah <[EMAIL PROTECTED]> wrote:
>
> Apakah ada rekan2 yang bisa beri petunjuk bagaimana membandingkan dua
> buah string sehingga kita tau berapa persen kemiripannya?
>
> Contoh:
> string 1: "aku cinta kamu"
> string 2: "aku tida
Apakah ada rekan2 yang bisa beri petunjuk bagaimana membandingkan dua buah
string sehingga kita tau berapa persen kemiripannya?
Contoh:
string 1: "aku cinta kamu"
string 2: "aku tidak cinta kamu"
Mestinya kedua string itu boleh kita bilang mirip, karena hanya berbeda di kata
"tidak".
Kalau