Hola,

Per entrenar el tagger, independentment de la tecnologia que s'utilitzi per
fer-ho, el que cal és un corpus monolingüe. Després cal analitzar-lo amb
Apertium per dividir-lo en unitats lèxiques segons el diccionari d'Apertium
i trobar les unitats lèxiques ambigües, i fer una desambiguació manual. És
una feina monòtona, però es pot fer progressivament i una vegada feta, si
es manté el corpus desambiguat actualitzat als canvis dels diccionaris, es
pot tornar a entrenar el tagger tantes vegades com es vulgui.

En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases extretes
de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000 paraules. Per
començar, podríem fer una prova amb les primeres 1.000 frases. Entenc que
si les tenim a l'apertium-cat vol dir que no hi ha problemes de llicències,
però confirmeu-m'ho, si us plau.

*Marc Riera*


Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dl., 21
d’oct. 2019 a les 11:30:

> Moltes gràcies, Xavi. Molt interessant.
>
> El problema del tagger (assignar probabilitats diferents a principi de
> frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
> continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
> començar sempre igual. No té sentit fer-ho d'una altra manera.
>
> El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió ara
> mateix és que no fa quasi res de productiu. Quan introduïm una paraula nova
> en el diccionari que crea ambigüitat (per exemple, una cosa molt simple com
> ara un substantiu que coincideix amb una forma verbal), el tagger falla
> moltíssim. Fa la impressió de tirar monedes a l'aire. I l'única manera
> d'arreglar-ho és fer més regles CG.
>
> Es pot arribar a crear un sistema de regles de desambiguació prou eficaç.
> Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un sistema
> de regles molt complet per a etiquetar. Ara, segons la finalitat, les
> regles han de ser lleugerament diferents. I el conjunt de regles pot
> arribar a ser prou voluminós. Hauríem de valorar  tot això.
>
> Salutacions,
> Jaume Ortolà
>
>
> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 20 d’oct. 2019
> a les 23:04:
>
>> Sembla que el problema és que el tagger no reinicia les probabilitats de
>> la mateixa manera quan arriba a un final de frase o quan una frase comença.
>> I les probabilitats que hi assigna són diferents segons el context.
>>
>> He aconseguit trobar un punt que fa que el primer cas canvie.+
>>
>> En aquest cas, funciona correctament.
>>
>> echo "Eren deu quatre homes. El marit havia estat fan de l'actor." |
>> apertium -d . cat-spa-disamb
>>
>> En aquest cas, no
>>
>> echo "Eren deu mil homes. El marit havia estat fan de l'actor." |
>> apertium -d . cat-spa-disamb
>>
>> Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de
>> quatre acaba sent la mateixa, <num><mf><sp>), al tagger no li arriba la
>> mateixa informació.
>>
>> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la
>> paraula *deu*
>>
>> En el primer cas, el resultat després de CG
>> és  ^deu/deu<num><mf><sp>/deu<n><f><sg>/deure<vblex><pri><p3><sg>$
>>
>> S'han aplicat estes regles de
>> REMOVE: 
>> /¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>
>>
>>
>> En canvi, en el segon cas, al tagger li arriba
>>  ^deu/deu<num><mf><sp>/deure<vblex><pri><p3><sg>$
>>
>> S'han aplicat les regles
>> /¬deu<n><f><sg><REMOVE:351:deu_num>/¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>$
>>
>>
>> El tagger de català es va entrenar fa molts anys, amb diccionaris molt
>> diferents, i amb una entrada extremadament més ambigua que ara, ja que
>> no teníem l'elevada quantitat de regles CG que tenim ara.
>>
>> Crec que la millor solució seria reentrenar el tagger, i comparar els
>> resultats.
>>
>> Gema <grami...@prompsit.com>, vosaltres teniu instruccions de com fer
>> l'entrenament amb el tagger antic?
>>
>> Marc <marc.riera.irigo...@gmail.com>, seria molt complex fer-ho amb el
>> mateix que vas fer l'anglés?
>>
>> --
>> < Xavi Ivars >
>> < http://xavi.ivars.me >
>>
>
_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Reply via email to