Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a corpus
a desambiguar. Tenint en compte que els traductors s'utilitzen molt per a
documents de l'administració, crec que el corpus també hauria de contenir
documents administratius (eventualment, de diferents administracions).
Penseu, per exemple, que a la Viquipèdia no trobareu pràcticament cap forma
verbal amb "vós", mentre que sí que són habituals en la correspondència de
l'administració. Però, com apunta en Marc, cal tenir en compte la qüestió
de les llicències d'ús que poden tenir aquests textos (amb els de la
Viquipèdia no veig que n'hi hagi i per això són a apertium-cat).

En tot cas, del que sobretot voldria advertir és que el corpus que es faci
servir, després no s'hauria d'emprar per a testejar els traductors, tal com
estic fent jo ara amb les frases de la Viquipèdia que en Marc proposa
d'utilitzar com a corpus. Altrament, ens creurem que tenim traductors
genials i serà, en bona part, perquè el nombre d'errors de desambiguació
serà mínim en el corpus de prova en qüestió. Extreure corpus de les
viquipèdies no és complicat. Sempre que m'ha calgut en diferents llengües
m'he limitat a seguir les instruccions que hi ha a la wiki.

Tenir un corpus desambiguat també servirà per aclarir algunes coses que
almenys jo segueixo sense tenir gaire clares, com, per exemple, com se
suposa que cal analitzar "com" en diferents contextos, o "però" i
"tanmateix" entre comes enmig d'una oració (i, de passada, documentar-ho a
la wiki).

Hèctor

Missatge de Marc Riera Irigoyen <marc.riera.irigo...@gmail.com> del dia
dl., 21 d’oct. 2019 a les 20:20:

> Hola,
>
> Per entrenar el tagger, independentment de la tecnologia que s'utilitzi
> per fer-ho, el que cal és un corpus monolingüe. Després cal analitzar-lo
> amb Apertium per dividir-lo en unitats lèxiques segons el diccionari
> d'Apertium i trobar les unitats lèxiques ambigües, i fer una desambiguació
> manual. És una feina monòtona, però es pot fer progressivament i una vegada
> feta, si es manté el corpus desambiguat actualitzat als canvis dels
> diccionaris, es pot tornar a entrenar el tagger tantes vegades com es
> vulgui.
>
> En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases extretes
> de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000 paraules. Per
> començar, podríem fer una prova amb les primeres 1.000 frases. Entenc que
> si les tenim a l'apertium-cat vol dir que no hi ha problemes de llicències,
> però confirmeu-m'ho, si us plau.
>
> *Marc Riera*
>
>
> Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dl., 21
> d’oct. 2019 a les 11:30:
>
>> Moltes gràcies, Xavi. Molt interessant.
>>
>> El problema del tagger (assignar probabilitats diferents a principi de
>> frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
>> continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
>> començar sempre igual. No té sentit fer-ho d'una altra manera.
>>
>> El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió
>> ara mateix és que no fa quasi res de productiu. Quan introduïm una paraula
>> nova en el diccionari que crea ambigüitat (per exemple, una cosa molt
>> simple com ara un substantiu que coincideix amb una forma verbal), el
>> tagger falla moltíssim. Fa la impressió de tirar monedes a l'aire. I
>> l'única manera d'arreglar-ho és fer més regles CG.
>>
>> Es pot arribar a crear un sistema de regles de desambiguació prou eficaç.
>> Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un sistema
>> de regles molt complet per a etiquetar. Ara, segons la finalitat, les
>> regles han de ser lleugerament diferents. I el conjunt de regles pot
>> arribar a ser prou voluminós. Hauríem de valorar  tot això.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 20 d’oct.
>> 2019 a les 23:04:
>>
>>> Sembla que el problema és que el tagger no reinicia les probabilitats de
>>> la mateixa manera quan arriba a un final de frase o quan una frase comença.
>>> I les probabilitats que hi assigna són diferents segons el context.
>>>
>>> He aconseguit trobar un punt que fa que el primer cas canvie.+
>>>
>>> En aquest cas, funciona correctament.
>>>
>>> echo "Eren deu quatre homes. El marit havia estat fan de l'actor." |
>>> apertium -d . cat-spa-disamb
>>>
>>> En aquest cas, no
>>>
>>> echo "Eren deu mil homes. El marit havia estat fan de l'actor." |
>>> apertium -d . cat-spa-disamb
>>>
>>> Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de
>>> quatre acaba sent la mateixa, <num><mf><sp>), al tagger no li arriba la
>>> mateixa informació.
>>>
>>> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la
>>> paraula *deu*
>>>
>>> En el primer cas, el resultat després de CG
>>> és  ^deu/deu<num><mf><sp>/deu<n><f><sg>/deure<vblex><pri><p3><sg>$
>>>
>>> S'han aplicat estes regles de
>>> REMOVE: 
>>> /¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>
>>>
>>>
>>> En canvi, en el segon cas, al tagger li arriba
>>>  ^deu/deu<num><mf><sp>/deure<vblex><pri><p3><sg>$
>>>
>>> S'han aplicat les regles
>>> /¬deu<n><f><sg><REMOVE:351:deu_num>/¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>$
>>>
>>>
>>> El tagger de català es va entrenar fa molts anys, amb diccionaris molt
>>> diferents, i amb una entrada extremadament més ambigua que ara, ja que
>>> no teníem l'elevada quantitat de regles CG que tenim ara.
>>>
>>> Crec que la millor solució seria reentrenar el tagger, i comparar els
>>> resultats.
>>>
>>> Gema <grami...@prompsit.com>, vosaltres teniu instruccions de com fer
>>> l'entrenament amb el tagger antic?
>>>
>>> Marc <marc.riera.irigo...@gmail.com>, seria molt complex fer-ho amb el
>>> mateix que vas fer l'anglés?
>>>
>>> --
>>> < Xavi Ivars >
>>> < http://xavi.ivars.me >
>>>
>> _______________________________________________
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Reply via email to