大泉様:
alt-depgraph-new の変更のうち、divide.sh の変更について。
この変更によって、コーパスから1文節ごとのものと2文節ごとのものを作って、
これまでの生のコーパスに加えて proccorpus の入力となる、という理解で正
しいでしょうか。
この変更がいいのかどうか、判断がつかないので教えてください。
これまでのコーパスでの加点に加えて、一文節でも加点され、二つの文節の結
びつきでも加点される。... ということだと思うのですが、ここでやりたい処
理は、コーパスとして加点(だけ)ではないのでしょうか。
|あたらしい|あさが|きた| |新しい|朝が|来た|
と例示があったときに、この並びでこの変換を期待しましょう、ということで
すよね。個々の分節でも加点し、二つの文節の結びつきでも加点すれば、結果
として、
|新しい|朝が|来た|
は多分、出やすくなるでしょう。でも他がでにくくなるという影響もあります
よね。長いこの文だとこの並びだけど、短いこの文だとこっちでしょ、という
ケースはないかしらん。
自動で全部当てはめることではないのではないかなぁ、と感じます。
また、もしすべてに当てはめるのであれば、proccorpus の処理を変更するとい
うやり方もあるかなぁ、と考えました。
--
_______________________________________________
Anthy-dev mailing list
[email protected]
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev