Bon dia, Abans de decidir res, hauríem de tenir clar quin és el problema que volem resoldre. Per això suggereixo que arrepleguem exemples de frases que no resolem bé i vegem com es podrien resoldre.
Una situació típica que em ve al cap és l'ambigüitat nom-adj/verb quan al voltant de la paraula no hi ha elements que determinin clarament de què es tracta. Per exemple: "..., si no completa [adj/verb?], ... ". En aquests casos, a vegades es pot resoldre mirant "més enllà" de les paraules del voltant, però no sé si el tagger arriba a aquest "més enllà". Podria ser que el tagger no resolgui el que necessitem. ¿Podríeu explicar exactament quins paràmetres mira el tagger? Mira les etiquetes POS, i en el resultat influeix les que hi ha abans/després? Si hagués de dissenyar ara un desambiguador estadístic o automàtic, triaria amb més compte els paràmetres. A més de les etiquetes, miraria si la paraula (i les del voltant) està en majúscula; si som a principi o final de frase; i també, per què no, formes i lemes (els més freqüents, tants com n'admeti el sistema). Jaume Missatge de Marc Riera Irigoyen <marc.riera.irigo...@gmail.com> del dia dv., 25 d’oct. 2019 a les 11:42: > Jo també estic d'acord que el tagger estadístic és útil. Tot i que el > tagger i CG al final serveixen per al mateix, cadascun té avantatges i es > poden complementar. Així doncs, en CG és molt fàcil crear regles generals > de desambiguació manualment, però si s'han de tractar casos molt més > específics on la solució "correcta" no és sempre la mateixa, sovint cal > crear moltes regles i es complica massa. En canvi, amb un bon entrenament, > el tagger pot inferir aquesta mena de regles i resoldre-ho. > > Pel que fa a l'etiquetatge del corpus de català: > > 1. Crec que val la pena aprofitar el tagger antic i les regles de CG per > crear la versió desambiguada. En qualsevol cas, caldria fer-ho amb un > editor que permetés editar els dos fitxers (ambigu i desambiguat) alhora i > que marqués les diferències. Després tot seria paciència. > > 2. Hauríem d'escriure pautes d'etiquetatge en català, com ja s'ha fet per > a l'anglès i el portuguès. Exemple: > http://wiki.apertium.org/wiki/Tagging_guidelines_for_English > > *Marc Riera* > > > Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dc., 23 d’oct. 2019 > a les 20:37: > >> Jo crec que tindre un tagger estadístic és molt útil. >> >> Primer, en velocitat: és mooooolt més ràpid que CG. A més, l'anàlisi >> morfològica és un problema "resolt" en el processament del llenguatge >> natural (i, en això, segur que Mikel en podrà dir molt més). >> >> El problema que tenim amb el tagger actual és que es va entrenar amb >> etiquetes diferents a les que tenim ara al diccionari: al llarg dels anys, >> els diccionaris han crescut moltíssim, s'han refinat les etiquetes >> (creant-ne de noves), i el tagger no s'ha reentrenat mai amb un corpus >> etiquetat "a la nova manera". Per això calen tants pedaços. >> >> A més, com bé diu Hèctor, com que el que hem anat fent al CG són >> "pedaços", la majoria de regles que tenim són extremadament específiques >> per a arreglar coses que sabem que el tagger farà malament (quan, >> idealment, haurien de ser coses que sabem que el tagger "no pot fer". >> >> Marc va experimentar el canvi de tindre un tagger "obsolet" a un >> "entrenat" per al conjunt d'etiquetes que s'utilitza actualment en el seu >> GSoC anglès-català. I crec que els resultats van ser molt positius. >> >> Marc, tu com ho faries? Analitzaries el corpus amb el tagger actual, per >> a després corregir el resultat (i tindre així un corpus desambiguat? O >> seria millor deixar les ambigüitats i resoldre-les a mà? >> >> Jo crec que la primera opció serà millor: hi haurà moltes menys coses a >> editar (tot i que els errors poden ser més difícils de detectar). >> >> Mikel, tu què en penses de tot això? >> >> >> >> >> Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dt., 22 >> d’oct. 2019 a les 12:31: >> >>> Encara que tinguem un munt de regles, n'hi ha un munt que podrien >>> "compactar-se" i reescriure's amb menys regles. Per exemple, pràcticament >>> totes les regles de concordança que utilitzen $$ i que estan quadruplicades >>> poden reescriure's en una línia amb &&, tal com va explicar en Tino fa uns >>> mesos (hi ha exemples a apertium-ita). Per altra banda, en el CG hi ha >>> molta cosa ad-hoc: inicialment eren només pedaços per al tagger "estàndard" >>> i prou. Repensant-ho, segur que hi ha regles que es poden generalitzar, >>> però fins ara no ha calgut fer-ho. Dic això perquè el miler de regles que >>> diu en Jaume que tenim, de fet, si es reestructuressin bé, estic convençut >>> que passarien a ser, més o menys, la tercera part del que hi ha ara. Per >>> això, em temo que, si llancem el tagger primigeni, caldrà fer força feina. >>> Si surt més a compte, amb l'experiència que ja tenim amb CG, que etiquetar >>> un corpus manual, no ho sabria dir. Un etiquetatge estadístic també té >>> avantatges (alguna vegada ho havia comentat en Marc, que potser té exemples >>> al cap). >>> >>> Hèctor >>> >>> Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dt., 22 >>> d’oct. 2019 a les 13:08: >>> >>>> Bon dia, >>>> >>>> Més observacions. >>>> >>>> He vist que en els fitxers de CG de català i castellà tenim gairebé un >>>> miler de regles de desambiguació (una mica menys). En LanguageTool en tenim >>>> 1200. >>>> >>>> Això em reforça la intuïció que el tagger no aporta quasi res de >>>> valuós. >>>> >>>> Crec que hem de plantejar-nos aquesta disjuntiva. Què serà més útil? >>>> 1) Fer la feina d'etiquetar mig milió de paraules per a entrenar el >>>> tagger, i obtenir uns resultats dubtosos, que no controlarem. >>>> 2) Completar les regles de desambiguació CG (què pot fer falta? 300-400 >>>> regles més?). Aquestes regles probablement farien falta de totes maneres. >>>> >>>> Les qüestions difícils que esmenta Hèctor no ens les resoldrà el tagger >>>> estadístic. Això em sembla evident. >>>> >>>> En qualsevol cas, s'han de fer proves. Començaré mirant què queda per >>>> desambiguar sense el tagger. >>>> >>>> Què en penseu? >>>> >>>> Jaume >>>> >>>> Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dl., 21 >>>> d’oct. 2019 a les 20:21: >>>> >>>>> Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a >>>>> corpus a desambiguar. Tenint en compte que els traductors s'utilitzen molt >>>>> per a documents de l'administració, crec que el corpus també hauria de >>>>> contenir documents administratius (eventualment, de diferents >>>>> administracions). Penseu, per exemple, que a la Viquipèdia no trobareu >>>>> pràcticament cap forma verbal amb "vós", mentre que sí que són habituals >>>>> en >>>>> la correspondència de l'administració. Però, com apunta en Marc, cal tenir >>>>> en compte la qüestió de les llicències d'ús que poden tenir aquests textos >>>>> (amb els de la Viquipèdia no veig que n'hi hagi i per això són a >>>>> apertium-cat). >>>>> >>>>> En tot cas, del que sobretot voldria advertir és que el corpus que es >>>>> faci servir, després no s'hauria d'emprar per a testejar els traductors, >>>>> tal com estic fent jo ara amb les frases de la Viquipèdia que en Marc >>>>> proposa d'utilitzar com a corpus. Altrament, ens creurem que tenim >>>>> traductors genials i serà, en bona part, perquè el nombre d'errors de >>>>> desambiguació serà mínim en el corpus de prova en qüestió. Extreure corpus >>>>> de les viquipèdies no és complicat. Sempre que m'ha calgut en diferents >>>>> llengües m'he limitat a seguir les instruccions que hi ha a la wiki. >>>>> >>>>> Tenir un corpus desambiguat també servirà per aclarir algunes coses >>>>> que almenys jo segueixo sense tenir gaire clares, com, per exemple, com se >>>>> suposa que cal analitzar "com" en diferents contextos, o "però" i >>>>> "tanmateix" entre comes enmig d'una oració (i, de passada, documentar-ho a >>>>> la wiki). >>>>> >>>>> Hèctor >>>>> >>>>> Missatge de Marc Riera Irigoyen <marc.riera.irigo...@gmail.com> del >>>>> dia dl., 21 d’oct. 2019 a les 20:20: >>>>> >>>>>> Hola, >>>>>> >>>>>> Per entrenar el tagger, independentment de la tecnologia que >>>>>> s'utilitzi per fer-ho, el que cal és un corpus monolingüe. Després cal >>>>>> analitzar-lo amb Apertium per dividir-lo en unitats lèxiques segons el >>>>>> diccionari d'Apertium i trobar les unitats lèxiques ambigües, i fer una >>>>>> desambiguació manual. És una feina monòtona, però es pot fer >>>>>> progressivament i una vegada feta, si es manté el corpus desambiguat >>>>>> actualitzat als canvis dels diccionaris, es pot tornar a entrenar el >>>>>> tagger >>>>>> tantes vegades com es vulgui. >>>>>> >>>>>> En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases >>>>>> extretes de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000 >>>>>> paraules. Per començar, podríem fer una prova amb les primeres 1.000 >>>>>> frases. Entenc que si les tenim a l'apertium-cat vol dir que no hi ha >>>>>> problemes de llicències, però confirmeu-m'ho, si us plau. >>>>>> >>>>>> *Marc Riera* >>>>>> >>>>>> >>>>>> Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dl., >>>>>> 21 d’oct. 2019 a les 11:30: >>>>>> >>>>>>> Moltes gràcies, Xavi. Molt interessant. >>>>>>> >>>>>>> El problema del tagger (assignar probabilitats diferents a principi >>>>>>> de frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè >>>>>>> si >>>>>>> no continuarem exposats al mateix risc. Quan comença una frase nova, >>>>>>> hauria >>>>>>> de començar sempre igual. No té sentit fer-ho d'una altra manera. >>>>>>> >>>>>>> El tagger, efectivament, caldria entrenar-lo de nou. La meua >>>>>>> impressió ara mateix és que no fa quasi res de productiu. Quan introduïm >>>>>>> una paraula nova en el diccionari que crea ambigüitat (per exemple, una >>>>>>> cosa molt simple com ara un substantiu que coincideix amb una forma >>>>>>> verbal), el tagger falla moltíssim. Fa la impressió de tirar monedes a >>>>>>> l'aire. I l'única manera d'arreglar-ho és fer més regles CG. >>>>>>> >>>>>>> Es pot arribar a crear un sistema de regles de desambiguació prou >>>>>>> eficaç. Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té >>>>>>> un >>>>>>> sistema de regles molt complet per a etiquetar. Ara, segons la >>>>>>> finalitat, >>>>>>> les regles han de ser lleugerament diferents. I el conjunt de regles pot >>>>>>> arribar a ser prou voluminós. Hauríem de valorar tot això. >>>>>>> >>>>>>> Salutacions, >>>>>>> Jaume Ortolà >>>>>>> >>>>>>> >>>>>>> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 20 >>>>>>> d’oct. 2019 a les 23:04: >>>>>>> >>>>>>>> Sembla que el problema és que el tagger no reinicia les >>>>>>>> probabilitats de la mateixa manera quan arriba a un final de frase o >>>>>>>> quan >>>>>>>> una frase comença. I les probabilitats que hi assigna són diferents >>>>>>>> segons >>>>>>>> el context. >>>>>>>> >>>>>>>> He aconseguit trobar un punt que fa que el primer cas canvie.+ >>>>>>>> >>>>>>>> En aquest cas, funciona correctament. >>>>>>>> >>>>>>>> echo "Eren deu quatre homes. El marit havia estat fan de l'actor." >>>>>>>> | apertium -d . cat-spa-disamb >>>>>>>> >>>>>>>> En aquest cas, no >>>>>>>> >>>>>>>> echo "Eren deu mil homes. El marit havia estat fan de l'actor." | >>>>>>>> apertium -d . cat-spa-disamb >>>>>>>> >>>>>>>> Tot i que sembla igual ("deu quatre" no té cap sentit, però >>>>>>>> l'anàlisi de quatre acaba sent la mateixa, <num><mf><sp>), al tagger >>>>>>>> no li >>>>>>>> arriba la mateixa informació. >>>>>>>> >>>>>>>> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi >>>>>>>> de la paraula *deu* >>>>>>>> >>>>>>>> En el primer cas, el resultat després de CG >>>>>>>> és ^deu/deu<num><mf><sp>/deu<n><f><sg>/deure<vblex><pri><p3><sg>$ >>>>>>>> >>>>>>>> S'han aplicat estes regles de >>>>>>>> REMOVE: >>>>>>>> /¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod> >>>>>>>> >>>>>>>> >>>>>>>> En canvi, en el segon cas, al tagger li arriba >>>>>>>> ^deu/deu<num><mf><sp>/deure<vblex><pri><p3><sg>$ >>>>>>>> >>>>>>>> S'han aplicat les regles >>>>>>>> /¬deu<n><f><sg><REMOVE:351:deu_num>/¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>$ >>>>>>>> >>>>>>>> >>>>>>>> El tagger de català es va entrenar fa molts anys, amb diccionaris >>>>>>>> molt diferents, i amb una entrada extremadament més ambigua que ara, >>>>>>>> ja que >>>>>>>> no teníem l'elevada quantitat de regles CG que tenim ara. >>>>>>>> >>>>>>>> Crec que la millor solució seria reentrenar el tagger, i comparar >>>>>>>> els resultats. >>>>>>>> >>>>>>>> Gema <grami...@prompsit.com>, vosaltres teniu instruccions de com >>>>>>>> fer l'entrenament amb el tagger antic? >>>>>>>> >>>>>>>> Marc <marc.riera.irigo...@gmail.com>, seria molt complex fer-ho >>>>>>>> amb el mateix que vas fer l'anglés? >>>>>>>> >>>>>>>> -- >>>>>>>> < Xavi Ivars > >>>>>>>> < http://xavi.ivars.me > >>>>>>>> >>>>>>> _______________________________________________ >>>>>> Apertium-catala mailing list >>>>>> Apertium-catala@lists.sourceforge.net >>>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>>>>> >>>>> _______________________________________________ >>>>> Apertium-catala mailing list >>>>> Apertium-catala@lists.sourceforge.net >>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>>>> >>>> >> >> -- >> < Xavi Ivars > >> < http://xavi.ivars.me > >> _______________________________________________ >> Apertium-catala mailing list >> Apertium-catala@lists.sourceforge.net >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> > _______________________________________________ > Apertium-catala mailing list > Apertium-catala@lists.sourceforge.net > https://lists.sourceforge.net/lists/listinfo/apertium-catala >
_______________________________________________ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala