anthyのwikiの「単語収集/未分類語」「単語収集/時事」
http://anthy.sourceforge.jp/cgi-bin/hiki/hiki.cgi?%C3%B1%B8%EC%BC%FD%BD%B8%2F%CC%A4%CA%AC%CE%E0%B8%EC
http://anthy.sourceforge.jp/cgi-bin/hiki/hiki.cgi?%C3%B1%B8%EC%BC%FD%BD%B8%2F%BB%FE%BB%F6
から単語をダウンロードして、 ~/.anthy/imported_words_default.d/wiki_wordに
保存するスクリプトを書いたので添付します。
実行するだけで書かれてる単語が使えるようになります。
--
--
CHAOS AND CHANCE!
Yusuke TABATA
#! /usr/bin/python
import urllib2
import os
import stat
import re
urls = [
"http://anthy.sourceforge.jp/cgi-bin/hiki/hiki.cgi?%C3%B1%B8%EC%BC%FD%BD%B8%2F%CC%A4%CA%AC%CE%E0%B8%EC",
"http://anthy.sourceforge.jp/cgi-bin/hiki/hiki.cgi?%C3%B1%B8%EC%BC%FD%BD%B8%2F%BB%FE%BB%F6"];
words = [];
def procline(line):
m =
re.match("<tr><td>([^<]+)</td><td>([^<]+)</td><td>([^<]+)</td><td>.+</td></tr>",
line);
if m:
(word, idx, wt) = m.groups();
us = unicode(idx + " " + wt + " " + word, 'EUC-JP').encode('UTF8')
global words
words.append(us)
pass
#
home = os.getenv("HOME")
dn = home+"/.anthy/imported_words_default.d/";
if (os.access(dn, os.F_OK)):
sm = os.stat(dn).st_mode;
if (not stat.S_ISDIR(sm)):
print dn + " :is not a directory"
exit(0);
else:
os.mkdir(dn)
for u in urls:
f = urllib2.urlopen(u)
line = f.readline()
while line:
procline(line)
line = f.readline()
f.close
words.sort()
wf = open(dn + "wiki_word",'w');
for w in words:
wf.write(w + "\n")
wf.close();
_______________________________________________
Anthy-dev mailing list
[email protected]
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev