Hola, Per entrenar el tagger, independentment de la tecnologia que s'utilitzi per fer-ho, el que cal és un corpus monolingüe. Després cal analitzar-lo amb Apertium per dividir-lo en unitats lèxiques segons el diccionari d'Apertium i trobar les unitats lèxiques ambigües, i fer una desambiguació manual. És una feina monòtona, però es pot fer progressivament i una vegada feta, si es manté el corpus desambiguat actualitzat als canvis dels diccionaris, es pot tornar a entrenar el tagger tantes vegades com es vulgui.
En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases extretes de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000 paraules. Per començar, podríem fer una prova amb les primeres 1.000 frases. Entenc que si les tenim a l'apertium-cat vol dir que no hi ha problemes de llicències, però confirmeu-m'ho, si us plau. *Marc Riera* Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dl., 21 d’oct. 2019 a les 11:30: > Moltes gràcies, Xavi. Molt interessant. > > El problema del tagger (assignar probabilitats diferents a principi de > frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no > continuarem exposats al mateix risc. Quan comença una frase nova, hauria de > començar sempre igual. No té sentit fer-ho d'una altra manera. > > El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió ara > mateix és que no fa quasi res de productiu. Quan introduïm una paraula nova > en el diccionari que crea ambigüitat (per exemple, una cosa molt simple com > ara un substantiu que coincideix amb una forma verbal), el tagger falla > moltíssim. Fa la impressió de tirar monedes a l'aire. I l'única manera > d'arreglar-ho és fer més regles CG. > > Es pot arribar a crear un sistema de regles de desambiguació prou eficaç. > Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un sistema > de regles molt complet per a etiquetar. Ara, segons la finalitat, les > regles han de ser lleugerament diferents. I el conjunt de regles pot > arribar a ser prou voluminós. Hauríem de valorar tot això. > > Salutacions, > Jaume Ortolà > > > Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 20 d’oct. 2019 > a les 23:04: > >> Sembla que el problema és que el tagger no reinicia les probabilitats de >> la mateixa manera quan arriba a un final de frase o quan una frase comença. >> I les probabilitats que hi assigna són diferents segons el context. >> >> He aconseguit trobar un punt que fa que el primer cas canvie.+ >> >> En aquest cas, funciona correctament. >> >> echo "Eren deu quatre homes. El marit havia estat fan de l'actor." | >> apertium -d . cat-spa-disamb >> >> En aquest cas, no >> >> echo "Eren deu mil homes. El marit havia estat fan de l'actor." | >> apertium -d . cat-spa-disamb >> >> Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de >> quatre acaba sent la mateixa, <num><mf><sp>), al tagger no li arriba la >> mateixa informació. >> >> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la >> paraula *deu* >> >> En el primer cas, el resultat després de CG >> és ^deu/deu<num><mf><sp>/deu<n><f><sg>/deure<vblex><pri><p3><sg>$ >> >> S'han aplicat estes regles de >> REMOVE: >> /¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod> >> >> >> En canvi, en el segon cas, al tagger li arriba >> ^deu/deu<num><mf><sp>/deure<vblex><pri><p3><sg>$ >> >> S'han aplicat les regles >> /¬deu<n><f><sg><REMOVE:351:deu_num>/¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>$ >> >> >> El tagger de català es va entrenar fa molts anys, amb diccionaris molt >> diferents, i amb una entrada extremadament més ambigua que ara, ja que >> no teníem l'elevada quantitat de regles CG que tenim ara. >> >> Crec que la millor solució seria reentrenar el tagger, i comparar els >> resultats. >> >> Gema <grami...@prompsit.com>, vosaltres teniu instruccions de com fer >> l'entrenament amb el tagger antic? >> >> Marc <marc.riera.irigo...@gmail.com>, seria molt complex fer-ho amb el >> mateix que vas fer l'anglés? >> >> -- >> < Xavi Ivars > >> < http://xavi.ivars.me > >> >
_______________________________________________ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala