Re: [Apertium-catala] resultats diferents inexplicables del tagger

Jaume Ortolà i Font Fri, 25 Oct 2019 05:11:14 -0700

Bon dia,

Abans de decidir res, hauríem de tenir clar quin és el problema que volem
resoldre. Per això suggereixo que arrepleguem exemples de frases que no
resolem bé i vegem com es podrien resoldre.


Una situació típica que em ve al cap és l'ambigüitat nom-adj/verb quan al
voltant de la paraula no hi ha elements que determinin clarament de què es
tracta. Per exemple: "..., si no completa [adj/verb?], ... ". En aquests
casos, a vegades es pot resoldre mirant "més enllà" de les paraules del
voltant, però no sé si el tagger arriba a aquest "més enllà". Podria ser
que el tagger no resolgui el que necessitem.

¿Podríeu explicar exactament quins paràmetres mira el tagger? Mira les
etiquetes POS, i en el resultat influeix les que hi ha abans/després?

Si hagués de dissenyar ara un desambiguador estadístic o automàtic, triaria
amb més compte els paràmetres. A més de les etiquetes, miraria si la
paraula (i les del voltant) està en majúscula; si som a principi o final de
frase; i també, per què no, formes i lemes (els més freqüents, tants com
n'admeti el sistema).

Jaume



Missatge de Marc Riera Irigoyen <marc.riera.irigo...@gmail.com> del dia
dv., 25 d’oct. 2019 a les 11:42:

> Jo també estic d'acord que el tagger estadístic és útil. Tot i que el
> tagger i CG al final serveixen per al mateix, cadascun té avantatges i es
> poden complementar. Així doncs, en CG és molt fàcil crear regles generals
> de desambiguació manualment, però si s'han de tractar casos molt més
> específics on la solució "correcta" no és sempre la mateixa, sovint cal
> crear moltes regles i es complica massa. En canvi, amb un bon entrenament,
> el tagger pot inferir aquesta mena de regles i resoldre-ho.
>
> Pel que fa a l'etiquetatge del corpus de català:
>
> 1. Crec que val la pena aprofitar el tagger antic i les regles de CG per
> crear la versió desambiguada. En qualsevol cas, caldria fer-ho amb un
> editor que permetés editar els dos fitxers (ambigu i desambiguat) alhora i
> que marqués les diferències. Després tot seria paciència.
>
> 2. Hauríem d'escriure pautes d'etiquetatge en català, com ja s'ha fet per
> a l'anglès i el portuguès. Exemple:
> http://wiki.apertium.org/wiki/Tagging_guidelines_for_English
>
> *Marc Riera*
>
>
> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dc., 23 d’oct. 2019
> a les 20:37:
>
>> Jo crec que tindre un tagger estadístic és molt útil.
>>
>> Primer, en velocitat: és mooooolt més ràpid que CG. A més, l'anàlisi
>> morfològica és un problema "resolt" en el processament del llenguatge
>> natural (i, en això, segur que Mikel en podrà dir molt més).
>>
>> El problema que tenim amb el tagger actual és que es va entrenar amb
>> etiquetes diferents a les que tenim ara al diccionari: al llarg dels anys,
>> els diccionaris han crescut moltíssim, s'han refinat les etiquetes
>> (creant-ne de noves), i el tagger no s'ha reentrenat mai amb un corpus
>> etiquetat "a la nova manera". Per això calen tants pedaços.
>>
>> A més, com bé diu Hèctor, com que el que hem anat fent al CG són
>> "pedaços", la majoria de regles que tenim són extremadament específiques
>> per a arreglar coses que sabem que el tagger farà malament (quan,
>> idealment, haurien de ser coses que sabem que el tagger "no pot fer".
>>
>> Marc va experimentar el canvi de tindre un tagger "obsolet" a un
>> "entrenat" per al conjunt d'etiquetes que s'utilitza actualment en el seu
>> GSoC anglès-català. I crec que els resultats van ser molt positius.
>>
>> Marc, tu com ho faries? Analitzaries el corpus amb el tagger actual, per
>> a després corregir el resultat (i tindre així un corpus desambiguat? O
>> seria millor deixar les ambigüitats i resoldre-les a mà?
>>
>> Jo crec que la primera opció serà millor: hi haurà moltes menys coses a
>> editar (tot i que els errors poden ser més difícils de detectar).
>>
>> Mikel, tu què en penses de tot això?
>>
>>
>>
>>
>> Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dt., 22
>> d’oct. 2019 a les 12:31:
>>
>>> Encara que tinguem un munt de regles, n'hi ha un munt que podrien
>>> "compactar-se" i reescriure's amb menys regles. Per exemple, pràcticament
>>> totes les regles de concordança que utilitzen $$ i que estan quadruplicades
>>> poden reescriure's en una línia amb &&, tal com va explicar en Tino fa uns
>>> mesos (hi ha exemples a apertium-ita). Per altra banda, en el CG hi ha
>>> molta cosa ad-hoc: inicialment eren només pedaços per al tagger "estàndard"
>>> i prou. Repensant-ho, segur que hi ha regles que es poden generalitzar,
>>> però fins ara no ha calgut fer-ho. Dic això perquè el miler de regles que
>>> diu en Jaume que tenim, de fet, si es reestructuressin bé, estic convençut
>>> que passarien a ser, més o menys, la tercera part del que hi ha ara. Per
>>> això, em temo que, si llancem el tagger primigeni, caldrà fer força feina.
>>> Si surt més a compte, amb l'experiència que ja tenim amb CG, que etiquetar
>>> un corpus manual, no ho sabria dir. Un etiquetatge estadístic també té
>>> avantatges (alguna vegada ho havia comentat en Marc, que potser té exemples
>>> al cap).
>>>
>>> Hèctor
>>>
>>> Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dt., 22
>>> d’oct. 2019 a les 13:08:
>>>
>>>> Bon dia,
>>>>
>>>> Més observacions.
>>>>
>>>> He vist que en els fitxers de CG de català i castellà tenim gairebé un
>>>> miler de regles de desambiguació (una mica menys). En LanguageTool en tenim
>>>> 1200.
>>>>
>>>> Això em reforça la intuïció que el tagger no aporta quasi res de
>>>> valuós.
>>>>
>>>> Crec que hem de plantejar-nos aquesta disjuntiva. Què serà més útil?
>>>> 1) Fer la feina d'etiquetar mig milió de paraules per a entrenar el
>>>> tagger, i obtenir uns resultats dubtosos, que no controlarem.
>>>> 2) Completar les regles de desambiguació CG (què pot fer falta? 300-400
>>>> regles més?). Aquestes regles probablement farien falta de totes maneres.
>>>>
>>>> Les qüestions difícils que esmenta Hèctor no ens les resoldrà el tagger
>>>> estadístic. Això em sembla evident.
>>>>
>>>> En qualsevol cas, s'han de fer proves. Començaré mirant què queda per
>>>> desambiguar sense el tagger.
>>>>
>>>> Què en penseu?
>>>>
>>>> Jaume
>>>>
>>>> Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dl., 21
>>>> d’oct. 2019 a les 20:21:
>>>>
>>>>> Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a
>>>>> corpus a desambiguar. Tenint en compte que els traductors s'utilitzen molt
>>>>> per a documents de l'administració, crec que el corpus també hauria de
>>>>> contenir documents administratius (eventualment, de diferents
>>>>> administracions). Penseu, per exemple, que a la Viquipèdia no trobareu
>>>>> pràcticament cap forma verbal amb "vós", mentre que sí que són habituals 
>>>>> en
>>>>> la correspondència de l'administració. Però, com apunta en Marc, cal tenir
>>>>> en compte la qüestió de les llicències d'ús que poden tenir aquests textos
>>>>> (amb els de la Viquipèdia no veig que n'hi hagi i per això són a
>>>>> apertium-cat).
>>>>>
>>>>> En tot cas, del que sobretot voldria advertir és que el corpus que es
>>>>> faci servir, després no s'hauria d'emprar per a testejar els traductors,
>>>>> tal com estic fent jo ara amb les frases de la Viquipèdia que en Marc
>>>>> proposa d'utilitzar com a corpus. Altrament, ens creurem que tenim
>>>>> traductors genials i serà, en bona part, perquè el nombre d'errors de
>>>>> desambiguació serà mínim en el corpus de prova en qüestió. Extreure corpus
>>>>> de les viquipèdies no és complicat. Sempre que m'ha calgut en diferents
>>>>> llengües m'he limitat a seguir les instruccions que hi ha a la wiki.
>>>>>
>>>>> Tenir un corpus desambiguat també servirà per aclarir algunes coses
>>>>> que almenys jo segueixo sense tenir gaire clares, com, per exemple, com se
>>>>> suposa que cal analitzar "com" en diferents contextos, o "però" i
>>>>> "tanmateix" entre comes enmig d'una oració (i, de passada, documentar-ho a
>>>>> la wiki).
>>>>>
>>>>> Hèctor
>>>>>
>>>>> Missatge de Marc Riera Irigoyen <marc.riera.irigo...@gmail.com> del
>>>>> dia dl., 21 d’oct. 2019 a les 20:20:
>>>>>
>>>>>> Hola,
>>>>>>
>>>>>> Per entrenar el tagger, independentment de la tecnologia que
>>>>>> s'utilitzi per fer-ho, el que cal és un corpus monolingüe. Després cal
>>>>>> analitzar-lo amb Apertium per dividir-lo en unitats lèxiques segons el
>>>>>> diccionari d'Apertium i trobar les unitats lèxiques ambigües, i fer una
>>>>>> desambiguació manual. És una feina monòtona, però es pot fer
>>>>>> progressivament i una vegada feta, si es manté el corpus desambiguat
>>>>>> actualitzat als canvis dels diccionaris, es pot tornar a entrenar el 
>>>>>> tagger
>>>>>> tantes vegades com es vulgui.
>>>>>>
>>>>>> En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases
>>>>>> extretes de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000
>>>>>> paraules. Per començar, podríem fer una prova amb les primeres 1.000
>>>>>> frases. Entenc que si les tenim a l'apertium-cat vol dir que no hi ha
>>>>>> problemes de llicències, però confirmeu-m'ho, si us plau.
>>>>>>
>>>>>> *Marc Riera*
>>>>>>
>>>>>>
>>>>>> Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dl.,
>>>>>> 21 d’oct. 2019 a les 11:30:
>>>>>>
>>>>>>> Moltes gràcies, Xavi. Molt interessant.
>>>>>>>
>>>>>>> El problema del tagger (assignar probabilitats diferents a principi
>>>>>>> de frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè 
>>>>>>> si
>>>>>>> no continuarem exposats al mateix risc. Quan comença una frase nova, 
>>>>>>> hauria
>>>>>>> de començar sempre igual. No té sentit fer-ho d'una altra manera.
>>>>>>>
>>>>>>> El tagger, efectivament, caldria entrenar-lo de nou. La meua
>>>>>>> impressió ara mateix és que no fa quasi res de productiu. Quan introduïm
>>>>>>> una paraula nova en el diccionari que crea ambigüitat (per exemple, una
>>>>>>> cosa molt simple com ara un substantiu que coincideix amb una forma
>>>>>>> verbal), el tagger falla moltíssim. Fa la impressió de tirar monedes a
>>>>>>> l'aire. I l'única manera d'arreglar-ho és fer més regles CG.
>>>>>>>
>>>>>>> Es pot arribar a crear un sistema de regles de desambiguació prou
>>>>>>> eficaç. Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té 
>>>>>>> un
>>>>>>> sistema de regles molt complet per a etiquetar. Ara, segons la 
>>>>>>> finalitat,
>>>>>>> les regles han de ser lleugerament diferents. I el conjunt de regles pot
>>>>>>> arribar a ser prou voluminós. Hauríem de valorar  tot això.
>>>>>>>
>>>>>>> Salutacions,
>>>>>>> Jaume Ortolà
>>>>>>>
>>>>>>>
>>>>>>> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 20
>>>>>>> d’oct. 2019 a les 23:04:
>>>>>>>
>>>>>>>> Sembla que el problema és que el tagger no reinicia les
>>>>>>>> probabilitats de la mateixa manera quan arriba a un final de frase o 
>>>>>>>> quan
>>>>>>>> una frase comença. I les probabilitats que hi assigna són diferents 
>>>>>>>> segons
>>>>>>>> el context.
>>>>>>>>
>>>>>>>> He aconseguit trobar un punt que fa que el primer cas canvie.+
>>>>>>>>
>>>>>>>> En aquest cas, funciona correctament.
>>>>>>>>
>>>>>>>> echo "Eren deu quatre homes. El marit havia estat fan de l'actor."
>>>>>>>> | apertium -d . cat-spa-disamb
>>>>>>>>
>>>>>>>> En aquest cas, no
>>>>>>>>
>>>>>>>> echo "Eren deu mil homes. El marit havia estat fan de l'actor." |
>>>>>>>> apertium -d . cat-spa-disamb
>>>>>>>>
>>>>>>>> Tot i que sembla igual ("deu quatre" no té cap sentit, però
>>>>>>>> l'anàlisi de quatre acaba sent la mateixa, <num><mf><sp>), al tagger 
>>>>>>>> no li
>>>>>>>> arriba la mateixa informació.
>>>>>>>>
>>>>>>>> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi
>>>>>>>> de la paraula *deu*
>>>>>>>>
>>>>>>>> En el primer cas, el resultat després de CG
>>>>>>>> és  ^deu/deu<num><mf><sp>/deu<n><f><sg>/deure<vblex><pri><p3><sg>$
>>>>>>>>
>>>>>>>> S'han aplicat estes regles de
>>>>>>>> REMOVE: 
>>>>>>>> /¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>
>>>>>>>>
>>>>>>>>
>>>>>>>> En canvi, en el segon cas, al tagger li arriba
>>>>>>>>  ^deu/deu<num><mf><sp>/deure<vblex><pri><p3><sg>$
>>>>>>>>
>>>>>>>> S'han aplicat les regles
>>>>>>>> /¬deu<n><f><sg><REMOVE:351:deu_num>/¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>$
>>>>>>>>
>>>>>>>>
>>>>>>>> El tagger de català es va entrenar fa molts anys, amb diccionaris
>>>>>>>> molt diferents, i amb una entrada extremadament més ambigua que ara, 
>>>>>>>> ja que
>>>>>>>> no teníem l'elevada quantitat de regles CG que tenim ara.
>>>>>>>>
>>>>>>>> Crec que la millor solució seria reentrenar el tagger, i comparar
>>>>>>>> els resultats.
>>>>>>>>
>>>>>>>> Gema <grami...@prompsit.com>, vosaltres teniu instruccions de com
>>>>>>>> fer l'entrenament amb el tagger antic?
>>>>>>>>
>>>>>>>> Marc <marc.riera.irigo...@gmail.com>, seria molt complex fer-ho
>>>>>>>> amb el mateix que vas fer l'anglés?
>>>>>>>>
>>>>>>>> --
>>>>>>>> < Xavi Ivars >
>>>>>>>> < http://xavi.ivars.me >
>>>>>>>>
>>>>>>> _______________________________________________
>>>>>> Apertium-catala mailing list
>>>>>> Apertium-catala@lists.sourceforge.net
>>>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>>>>
>>>>> _______________________________________________
>>>>> Apertium-catala mailing list
>>>>> Apertium-catala@lists.sourceforge.net
>>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>>>
>>>>
>>
>> --
>> < Xavi Ivars >
>> < http://xavi.ivars.me >
>> _______________________________________________
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
> _______________________________________________
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>

_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Re: [Apertium-catala] resultats diferents inexplicables del tagger

Reply via email to