Git repository で辞書(anthy.dic)の生成に関して変更を行いました。
今まで不透明であった点を整理するとともに、謎のファイル corpus_info と
weak_words を配布から削除しました。
anthy.dic の生成のフローは下記のようになっています。
--------------------------------------------- anthy.dic の生成のフロー
その(1): anthy.dep の生成
これは付属語関係の情報のファイルかな。
depgraph/*.depword
depgraph/conjugate.table
---[depgraph/mkdepgraph]---> anthy.dep (1)
その(2): anthy.wdic の生成
これは単語の辞書のファイル。
mkworddic/{extra.t,compound.t,adjust.t,utf8.t,udict},
alt-cannadic/{gcanna.ctd,gcannf.ctd,gtankan.ctd,g_fname.t}
---[mkworddic/mkworddic]---> anthy.wdic (2)
その(3): corpus_info, weak_words の生成
ここが不透明だったところ。
コーパスを使った情報のファイル群。
初めに "initial anthy.dic" があるとして、proccorpus と calctrans で
corpus_info, weak_words を生成する。
"initial anthy.dic"
calctrans/corpus.?.txt
---[calctrans/{proccorpus,calctrans}]---> corpus_info (3-1)
weak_words (3-2)
その(3)の続き:
そして、これを分類してバイナリにエンコーディングして 5 つのファイルを作る。
calctrans/{corpus_info,weak_words} (3-1,3-2)
---[calctrans/calctrans]---> anthy.cand_info (3)
anthy.trans_info (4)
anthy.corpus_array (5)
anthy.corpus_bucket (6)
anthy.weak_words (7)
その(4): その(1)、その(2)、その(3)、その(3)の続きで作ったファイルをまと
めて anthy.dic を作る。
(1) depgraph/anthy.dep
(2) mkworddic/anthy.wdic
(3) calctrans/anthy.cand_info
(4) calctrans/anthy.trans_info
(5) calctrans/anthy.corpus_array
(6) calctrans/anthy.corpus_bucket
(7) calctrans/anthy.weak_words
---[mkanthydic/mkfiledic]--->anthy.dic
---------------------------------------------
これまでの構成の問題は、上記のフローの "initial anthy.dic" で、ここは、
付属語関係、単語の辞書だけの情報でコーパス関係情報は空の anthy.dic で始
めるべきところでしたが、ソース配布を作成する開発者の操作によっては間違っ
てしまうことがありえました。また、corpus_info と weak_words は、付属語
関係、単語の辞書の内容に依存しますが、ソース配布に含まれるものを使う、
というやや不正確な情報の形態でした。
今回、コーパス関連の処理をコーパス関係情報が空でもこけないように修正し、
anthy.dep と anthy.wdicから initial-anthy.dic を生成する段階を作りまし
た。これによって、生成の手順が透明になり、付属語関係、単語の辞書に変更
があった際、コーパス関係情報を生成し、anthy.dic が生成されるなど、改善
されました。
--
_______________________________________________
Anthy-dev mailing list
[email protected]
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev