Git repository で辞書(anthy.dic)の生成に関して変更を行いました。
今まで不透明であった点を整理するとともに、謎のファイル corpus_info と weak_words を配布から削除しました。 anthy.dic の生成のフローは下記のようになっています。 --------------------------------------------- anthy.dic の生成のフロー その(1): anthy.dep の生成 これは付属語関係の情報のファイルかな。 depgraph/*.depword depgraph/conjugate.table ---[depgraph/mkdepgraph]---> anthy.dep (1) その(2): anthy.wdic の生成 これは単語の辞書のファイル。 mkworddic/{extra.t,compound.t,adjust.t,utf8.t,udict}, alt-cannadic/{gcanna.ctd,gcannf.ctd,gtankan.ctd,g_fname.t} ---[mkworddic/mkworddic]---> anthy.wdic (2) その(3): corpus_info, weak_words の生成 ここが不透明だったところ。 コーパスを使った情報のファイル群。 初めに "initial anthy.dic" があるとして、proccorpus と calctrans で corpus_info, weak_words を生成する。 "initial anthy.dic" calctrans/corpus.?.txt ---[calctrans/{proccorpus,calctrans}]---> corpus_info (3-1) weak_words (3-2) その(3)の続き: そして、これを分類してバイナリにエンコーディングして 5 つのファイルを作る。 calctrans/{corpus_info,weak_words} (3-1,3-2) ---[calctrans/calctrans]---> anthy.cand_info (3) anthy.trans_info (4) anthy.corpus_array (5) anthy.corpus_bucket (6) anthy.weak_words (7) その(4): その(1)、その(2)、その(3)、その(3)の続きで作ったファイルをまと めて anthy.dic を作る。 (1) depgraph/anthy.dep (2) mkworddic/anthy.wdic (3) calctrans/anthy.cand_info (4) calctrans/anthy.trans_info (5) calctrans/anthy.corpus_array (6) calctrans/anthy.corpus_bucket (7) calctrans/anthy.weak_words ---[mkanthydic/mkfiledic]--->anthy.dic --------------------------------------------- これまでの構成の問題は、上記のフローの "initial anthy.dic" で、ここは、 付属語関係、単語の辞書だけの情報でコーパス関係情報は空の anthy.dic で始 めるべきところでしたが、ソース配布を作成する開発者の操作によっては間違っ てしまうことがありえました。また、corpus_info と weak_words は、付属語 関係、単語の辞書の内容に依存しますが、ソース配布に含まれるものを使う、 というやや不正確な情報の形態でした。 今回、コーパス関連の処理をコーパス関係情報が空でもこけないように修正し、 anthy.dep と anthy.wdicから initial-anthy.dic を生成する段階を作りまし た。これによって、生成の手順が透明になり、付属語関係、単語の辞書に変更 があった際、コーパス関係情報を生成し、anthy.dic が生成されるなど、改善 されました。 -- _______________________________________________ Anthy-dev mailing list Anthy-dev@lists.sourceforge.jp http://lists.sourceforge.jp/mailman/listinfo/anthy-dev