Sembla que el problema és que el tagger no reinicia les probabilitats de la mateixa manera quan arriba a un final de frase o quan una frase comença. I les probabilitats que hi assigna són diferents segons el context.
He aconseguit trobar un punt que fa que el primer cas canvie.+ En aquest cas, funciona correctament. echo "Eren deu quatre homes. El marit havia estat fan de l'actor." | apertium -d . cat-spa-disamb En aquest cas, no echo "Eren deu mil homes. El marit havia estat fan de l'actor." | apertium -d . cat-spa-disamb Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de quatre acaba sent la mateixa, <num><mf><sp>), al tagger no li arriba la mateixa informació. Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la paraula *deu* En el primer cas, el resultat després de CG és ^deu/deu<num><mf><sp>/deu<n><f><sg>/deure<vblex><pri><p3><sg>$ S'han aplicat estes regles de REMOVE: /¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod> En canvi, en el segon cas, al tagger li arriba ^deu/deu<num><mf><sp>/deure<vblex><pri><p3><sg>$ S'han aplicat les regles /¬deu<n><f><sg><REMOVE:351:deu_num>/¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>$ El tagger de català es va entrenar fa molts anys, amb diccionaris molt diferents, i amb una entrada extremadament més ambigua que ara, ja que no teníem l'elevada quantitat de regles CG que tenim ara. Crec que la millor solució seria reentrenar el tagger, i comparar els resultats. Gema <grami...@prompsit.com>, vosaltres teniu instruccions de com fer l'entrenament amb el tagger antic? Marc <marc.riera.irigo...@gmail.com>, seria molt complex fer-ho amb el mateix que vas fer l'anglés? -- < Xavi Ivars > < http://xavi.ivars.me >
_______________________________________________ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala