Dear All,
I would like to train a TokenizerME model by following the instruction in
the 1.5.3 manual (
https://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer.training.api
).

A portion of the training corpus:

Ich erkläre die am Freitag<SPLIT>, dem Dezember unterbrochene
Sitzungsperiode des Europäischen Parlaments für wiederaufgenommen<SPLIT>,
wünsche Ihnen nochmals alles Gute zum Jahreswechsel und hoffe<SPLIT>, daß
Sie schöne Ferien hatten .

Wie Sie feststellen konnten , ist der gefürchtete " Millenium-Bug " nicht
eingetreten .

Doch sind Bürger einiger unserer Mitgliedstaaten Opfer von schrecklichen
Naturkatastrophen geworden .

I use the following command:

opennlp TokenizerTrainer -model de-token.bin -lang de -data
de-token.train -encoding UTF-8

The tokenizer using the newly trained model outputs same as the input
string. Any idea, why the trained model is not working? Any help will be
appreciated. Thanks in advance.

Best Regards,

Zahurul

Reply via email to