皆様:
溜まっているのは相変わらずですが、進んでいるところは進んでいます。
下記にこれまでの進捗/今後の予定を示します。ご意見ありましたらお願いしま
す。
Egg v4: 進展なし。
郵便番号: 7/31 版まで入れた。ITP は出したまま package 作成はしていない。
Anthy:
(1) テスト: 進展なし。
テストを書く段階に至っていないかも。
(2) Ubuntu の変更の取り込み
とりこめるところは取り込んだと思うので、おしまいの方向で。
(3) これまでの変更:
* wtype を用いた付属語の処理への変更: feature/depgraph-wt
自立語に続く付属語を認識する処理ですが、これまでの実装は、付属語のルー
ルの始まりのノードが ptab.h を使ったものになっていました。
自立語の品詞(wtab.h)とルールの始まり(ptab.h)で比較して、付属語を認識す
る、という処理でした。indepword.txt というファイルで ptab.h の自立語の
品詞でルールの始まりが定義されています。
ここを indepword-wt.txt というファイルで指定する wtab.h の品詞と付属語
のルールの結びつきに変更しました。
* 定期清掃のような管理仕事
ptab.h を使うのをやめ: janitor/no-ptab-use
日本語のリテラルを使わないように: janitor/segclass-eucjp-literal-removal
昔使ってたオンボロ実装の削除: janitor/remove-texttrie
辞書の mmap のまわりの清掃: janitor/mmap-readonly
* bug fixes:
* ~/.anthy/last-record2_default でおかしな ADD UNKNOWN_WORD のエント
リができるのを修正。
* anthy-agent での辞書の指定(--dic)の間違い修正。
(4) alt-depgraph-new の中で残るは本体の depgraph の変更。
wtab.h/ptab.h を変更したけれど depgraph の変更は採り入れていないので中
途半端です。
feature/ancill-words-dfa というブランチで DFA を作るので試しています。
次に、現在/alt-depgraph-newの node 遷移の詳細はまだ追えていません。
正規表現での記述が使えるかどうか少し検討しましたが、正規表現というより
も、<自立語>に続いて複数の<付属語>が続くというのを認識する処理ではない
かと感じています。
<自立語> <付属語>*
この <付属語> が続くというところをルールで書いていくと面倒な事になって
いるかなぁと感じています。
付属語の要素をルール記述するのは良いとしても、付属語のつながりは別のと
ころで見る方法もあるかなぁ。
--
_______________________________________________
Anthy-dev mailing list
[email protected]
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev