On Sun, 20 Feb 2005 01:10:38 +0900, Pakcik <[EMAIL PROTECTED]> wrote: > > iseng2 bikin crawler, cari blog2 orang Indonesia. Ada ide nggak > gimana caranya mengenali site itu, site orang Indonesia?? > > metode skrg cuma cari kata2 yg cuman biasanya ada dalam bahasa > Indonesia, seperti "dan", "atau", "yang". kasih thresholdnya misalnya > 10, kalau ada 10 ditemukan, berarti site orang Indonesia.
Coba cari di google dengan kata kunci "web language identification" atau semacamnya. Link paling atas untuk kata kunci di atas malah paper soal identifikasi web bahasa Indonesia kerjaannya anak NUS. Ada juga yang bikin sensus bahasa di web, http://www.language-observatory.org/ Menurut jadwal di situ, bulan ini harusnya keluar sensus pertama. -husni-