Sembla que el problema és que el tagger no reinicia les probabilitats de la
mateixa manera quan arriba a un final de frase o quan una frase comença. I
les probabilitats que hi assigna són diferents segons el context.

He aconseguit trobar un punt que fa que el primer cas canvie.+

En aquest cas, funciona correctament.

echo "Eren deu quatre homes. El marit havia estat fan de l'actor." |
apertium -d . cat-spa-disamb

En aquest cas, no

echo "Eren deu mil homes. El marit havia estat fan de l'actor." | apertium
-d . cat-spa-disamb

Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de
quatre acaba sent la mateixa, <num><mf><sp>), al tagger no li arriba la
mateixa informació.

Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la
paraula *deu*

En el primer cas, el resultat després de CG
és  ^deu/deu<num><mf><sp>/deu<n><f><sg>/deure<vblex><pri><p3><sg>$

S'han aplicat estes regles de
REMOVE: 
/¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>


En canvi, en el segon cas, al tagger li arriba
 ^deu/deu<num><mf><sp>/deure<vblex><pri><p3><sg>$

S'han aplicat les regles
/¬deu<n><f><sg><REMOVE:351:deu_num>/¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>$


El tagger de català es va entrenar fa molts anys, amb diccionaris molt
diferents, i amb una entrada extremadament més ambigua que ara, ja que
no teníem l'elevada quantitat de regles CG que tenim ara.

Crec que la millor solució seria reentrenar el tagger, i comparar els
resultats.

Gema <grami...@prompsit.com>, vosaltres teniu instruccions de com fer
l'entrenament amb el tagger antic?

Marc <marc.riera.irigo...@gmail.com>, seria molt complex fer-ho amb el
mateix que vas fer l'anglés?

-- 
< Xavi Ivars >
< http://xavi.ivars.me >
_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Reply via email to