(2010年07月20日 09:21), NIIBE Yutaka wrote:
> 参考のため、結果を添付します。
7/20 の時点では付属語の属性の値の扱いに間違いがあり、だいぶ状態の数が
少なくなっていました。
その後、さらに実装を進め、DFA を使って anthy が動くところまで作りました。
40年前の Hopcroft さん、Gries さんの論文を読んで実装しました。
ブランチ feature/ancill-words-dfa で作業しました。とりあえず動いていま
す。
今のところ、20文字までの付属語と文字数に制限をつけて、
# of NFA states: 15629
# of DFA states (before minimization): 54165
# of DFA states: 47883
となっています。
calctrans/proccorpus の出力する結果で比較して、付属語が master と同じく
認識されていることを確認しました。
一応ここまで作ってみて、思うことはいろいろありました。
まぁ、これって(現状でも)やりすぎで、あまりデキが良くないかもしれません。
おいおい論点を書いていきますが、とりあえずすぐに見てわかる所を。
calctrans/proccorpus の出力で付属語の長いのを見てみると下記のようなのが
あります。
いことということにしておきましょう
えるようになるんじゃないかと
されてないんじゃないですかね
されてはいないみたいですけど
することになるんじゃないかと
ったということなんでしょうか
っていただけそうということで
っていただけませんでしょうか
ってくるなということぐらいでしょうか
できるようなものではないんですけどね
できるようになるみたいですが
になってるんじゃないですかね
になってるんじゃないんですか
らせていただくことになりました
らないということになるはずです
るということになるんですかね
「良くやってる」と言えなくもないですが、これらは、
* 「...こと」と「ということ...」で区切る
* 「...ように」と「なるんじゃ...」で区切る
* 「...じゃ」と「ない...」で区切る
* 「...もの」と「では...」で区切る
* 「...いない」と「みたい...」で区切る
* 「...に」と「なる...」で区切る
...
などわけてもいいのではないでしょうか。
また、下記はやりすぎかも。
くなっているのかもしれません
しているだけかもしれませんが
「しれません」て付属語として扱うのは微妙かも。
--
_______________________________________________
Anthy-dev mailing list
[email protected]
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev