Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-25 Thread Jaume Ortolà i Font
Bon dia,

Abans de decidir res, hauríem de tenir clar quin és el problema que volem
resoldre. Per això suggereixo que arrepleguem exemples de frases que no
resolem bé i vegem com es podrien resoldre.

Una situació típica que em ve al cap és l'ambigüitat nom-adj/verb quan al
voltant de la paraula no hi ha elements que determinin clarament de què es
tracta. Per exemple: "..., si no completa [adj/verb?], ... ". En aquests
casos, a vegades es pot resoldre mirant "més enllà" de les paraules del
voltant, però no sé si el tagger arriba a aquest "més enllà". Podria ser
que el tagger no resolgui el que necessitem.

¿Podríeu explicar exactament quins paràmetres mira el tagger? Mira les
etiquetes POS, i en el resultat influeix les que hi ha abans/després?

Si hagués de dissenyar ara un desambiguador estadístic o automàtic, triaria
amb més compte els paràmetres. A més de les etiquetes, miraria si la
paraula (i les del voltant) està en majúscula; si som a principi o final de
frase; i també, per què no, formes i lemes (els més freqüents, tants com
n'admeti el sistema).

Jaume



Missatge de Marc Riera Irigoyen  del dia
dv., 25 d’oct. 2019 a les 11:42:

> Jo també estic d'acord que el tagger estadístic és útil. Tot i que el
> tagger i CG al final serveixen per al mateix, cadascun té avantatges i es
> poden complementar. Així doncs, en CG és molt fàcil crear regles generals
> de desambiguació manualment, però si s'han de tractar casos molt més
> específics on la solució "correcta" no és sempre la mateixa, sovint cal
> crear moltes regles i es complica massa. En canvi, amb un bon entrenament,
> el tagger pot inferir aquesta mena de regles i resoldre-ho.
>
> Pel que fa a l'etiquetatge del corpus de català:
>
> 1. Crec que val la pena aprofitar el tagger antic i les regles de CG per
> crear la versió desambiguada. En qualsevol cas, caldria fer-ho amb un
> editor que permetés editar els dos fitxers (ambigu i desambiguat) alhora i
> que marqués les diferències. Després tot seria paciència.
>
> 2. Hauríem d'escriure pautes d'etiquetatge en català, com ja s'ha fet per
> a l'anglès i el portuguès. Exemple:
> http://wiki.apertium.org/wiki/Tagging_guidelines_for_English
>
> *Marc Riera*
>
>
> Missatge de Xavi Ivars  del dia dc., 23 d’oct. 2019
> a les 20:37:
>
>> Jo crec que tindre un tagger estadístic és molt útil.
>>
>> Primer, en velocitat: és molt més ràpid que CG. A més, l'anàlisi
>> morfològica és un problema "resolt" en el processament del llenguatge
>> natural (i, en això, segur que Mikel en podrà dir molt més).
>>
>> El problema que tenim amb el tagger actual és que es va entrenar amb
>> etiquetes diferents a les que tenim ara al diccionari: al llarg dels anys,
>> els diccionaris han crescut moltíssim, s'han refinat les etiquetes
>> (creant-ne de noves), i el tagger no s'ha reentrenat mai amb un corpus
>> etiquetat "a la nova manera". Per això calen tants pedaços.
>>
>> A més, com bé diu Hèctor, com que el que hem anat fent al CG són
>> "pedaços", la majoria de regles que tenim són extremadament específiques
>> per a arreglar coses que sabem que el tagger farà malament (quan,
>> idealment, haurien de ser coses que sabem que el tagger "no pot fer".
>>
>> Marc va experimentar el canvi de tindre un tagger "obsolet" a un
>> "entrenat" per al conjunt d'etiquetes que s'utilitza actualment en el seu
>> GSoC anglès-català. I crec que els resultats van ser molt positius.
>>
>> Marc, tu com ho faries? Analitzaries el corpus amb el tagger actual, per
>> a després corregir el resultat (i tindre així un corpus desambiguat? O
>> seria millor deixar les ambigüitats i resoldre-les a mà?
>>
>> Jo crec que la primera opció serà millor: hi haurà moltes menys coses a
>> editar (tot i que els errors poden ser més difícils de detectar).
>>
>> Mikel, tu què en penses de tot això?
>>
>>
>>
>>
>> Missatge de Hèctor Alòs i Font  del dia dt., 22
>> d’oct. 2019 a les 12:31:
>>
>>> Encara que tinguem un munt de regles, n'hi ha un munt que podrien
>>> "compactar-se" i reescriure's amb menys regles. Per exemple, pràcticament
>>> totes les regles de concordança que utilitzen $$ i que estan quadruplicades
>>> poden reescriure's en una línia amb &&, tal com va explicar en Tino fa uns
>>> mesos (hi ha exemples a apertium-ita). Per altra banda, en el CG hi ha
>>> molta cosa ad-hoc: inicialment eren només pedaços per al tagger "estàndard"
>>> i prou. Repensant-ho, segur que hi ha regles que es poden generalitzar,
>>> però fins ara no ha calgut fer-ho. Dic això perquè el miler de regles que
>>> diu en Jaume que tenim, de fet, si es reestructuressin bé, estic convençut
>>> que passarien a ser, més o menys, la tercera part del que hi ha ara. Per
>>> això, em temo que, si llancem el tagger primigeni, caldrà fer força feina.
>>> Si surt més a compte, amb l'experiència que ja tenim amb CG, que etiquetar
>>> un corpus manual, no ho sabria dir. Un etiquetatge estadístic també té
>>> avantatges (alguna vegada ho havia comentat en Marc, que potser té exemples
>>> 

Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-23 Thread Xavi Ivars
Jo crec que tindre un tagger estadístic és molt útil.

Primer, en velocitat: és molt més ràpid que CG. A més, l'anàlisi
morfològica és un problema "resolt" en el processament del llenguatge
natural (i, en això, segur que Mikel en podrà dir molt més).

El problema que tenim amb el tagger actual és que es va entrenar amb
etiquetes diferents a les que tenim ara al diccionari: al llarg dels anys,
els diccionaris han crescut moltíssim, s'han refinat les etiquetes
(creant-ne de noves), i el tagger no s'ha reentrenat mai amb un corpus
etiquetat "a la nova manera". Per això calen tants pedaços.

A més, com bé diu Hèctor, com que el que hem anat fent al CG són "pedaços",
la majoria de regles que tenim són extremadament específiques per a
arreglar coses que sabem que el tagger farà malament (quan, idealment,
haurien de ser coses que sabem que el tagger "no pot fer".

Marc va experimentar el canvi de tindre un tagger "obsolet" a un "entrenat"
per al conjunt d'etiquetes que s'utilitza actualment en el seu GSoC
anglès-català. I crec que els resultats van ser molt positius.

Marc, tu com ho faries? Analitzaries el corpus amb el tagger actual, per a
després corregir el resultat (i tindre així un corpus desambiguat? O seria
millor deixar les ambigüitats i resoldre-les a mà?

Jo crec que la primera opció serà millor: hi haurà moltes menys coses a
editar (tot i que els errors poden ser més difícils de detectar).

Mikel, tu què en penses de tot això?




Missatge de Hèctor Alòs i Font  del dia dt., 22
d’oct. 2019 a les 12:31:

> Encara que tinguem un munt de regles, n'hi ha un munt que podrien
> "compactar-se" i reescriure's amb menys regles. Per exemple, pràcticament
> totes les regles de concordança que utilitzen $$ i que estan quadruplicades
> poden reescriure's en una línia amb &&, tal com va explicar en Tino fa uns
> mesos (hi ha exemples a apertium-ita). Per altra banda, en el CG hi ha
> molta cosa ad-hoc: inicialment eren només pedaços per al tagger "estàndard"
> i prou. Repensant-ho, segur que hi ha regles que es poden generalitzar,
> però fins ara no ha calgut fer-ho. Dic això perquè el miler de regles que
> diu en Jaume que tenim, de fet, si es reestructuressin bé, estic convençut
> que passarien a ser, més o menys, la tercera part del que hi ha ara. Per
> això, em temo que, si llancem el tagger primigeni, caldrà fer força feina.
> Si surt més a compte, amb l'experiència que ja tenim amb CG, que etiquetar
> un corpus manual, no ho sabria dir. Un etiquetatge estadístic també té
> avantatges (alguna vegada ho havia comentat en Marc, que potser té exemples
> al cap).
>
> Hèctor
>
> Missatge de Jaume Ortolà i Font  del dia dt., 22
> d’oct. 2019 a les 13:08:
>
>> Bon dia,
>>
>> Més observacions.
>>
>> He vist que en els fitxers de CG de català i castellà tenim gairebé un
>> miler de regles de desambiguació (una mica menys). En LanguageTool en tenim
>> 1200.
>>
>> Això em reforça la intuïció que el tagger no aporta quasi res de valuós.
>>
>> Crec que hem de plantejar-nos aquesta disjuntiva. Què serà més útil?
>> 1) Fer la feina d'etiquetar mig milió de paraules per a entrenar el
>> tagger, i obtenir uns resultats dubtosos, que no controlarem.
>> 2) Completar les regles de desambiguació CG (què pot fer falta? 300-400
>> regles més?). Aquestes regles probablement farien falta de totes maneres.
>>
>> Les qüestions difícils que esmenta Hèctor no ens les resoldrà el tagger
>> estadístic. Això em sembla evident.
>>
>> En qualsevol cas, s'han de fer proves. Començaré mirant què queda per
>> desambiguar sense el tagger.
>>
>> Què en penseu?
>>
>> Jaume
>>
>> Missatge de Hèctor Alòs i Font  del dia dl., 21
>> d’oct. 2019 a les 20:21:
>>
>>> Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a
>>> corpus a desambiguar. Tenint en compte que els traductors s'utilitzen molt
>>> per a documents de l'administració, crec que el corpus també hauria de
>>> contenir documents administratius (eventualment, de diferents
>>> administracions). Penseu, per exemple, que a la Viquipèdia no trobareu
>>> pràcticament cap forma verbal amb "vós", mentre que sí que són habituals en
>>> la correspondència de l'administració. Però, com apunta en Marc, cal tenir
>>> en compte la qüestió de les llicències d'ús que poden tenir aquests textos
>>> (amb els de la Viquipèdia no veig que n'hi hagi i per això són a
>>> apertium-cat).
>>>
>>> En tot cas, del que sobretot voldria advertir és que el corpus que es
>>> faci servir, després no s'hauria d'emprar per a testejar els traductors,
>>> tal com estic fent jo ara amb les frases de la Viquipèdia que en Marc
>>> proposa d'utilitzar com a corpus. Altrament, ens creurem que tenim
>>> traductors genials i serà, en bona part, perquè el nombre d'errors de
>>> desambiguació serà mínim en el corpus de prova en qüestió. Extreure corpus
>>> de les viquipèdies no és complicat. Sempre que m'ha calgut en diferents
>>> llengües m'he limitat a seguir les instruccions que hi ha a la wiki.
>>>
>>> Tenir un 

Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-22 Thread Hèctor Alòs i Font
Encara que tinguem un munt de regles, n'hi ha un munt que podrien
"compactar-se" i reescriure's amb menys regles. Per exemple, pràcticament
totes les regles de concordança que utilitzen $$ i que estan quadruplicades
poden reescriure's en una línia amb &&, tal com va explicar en Tino fa uns
mesos (hi ha exemples a apertium-ita). Per altra banda, en el CG hi ha
molta cosa ad-hoc: inicialment eren només pedaços per al tagger "estàndard"
i prou. Repensant-ho, segur que hi ha regles que es poden generalitzar,
però fins ara no ha calgut fer-ho. Dic això perquè el miler de regles que
diu en Jaume que tenim, de fet, si es reestructuressin bé, estic convençut
que passarien a ser, més o menys, la tercera part del que hi ha ara. Per
això, em temo que, si llancem el tagger primigeni, caldrà fer força feina.
Si surt més a compte, amb l'experiència que ja tenim amb CG, que etiquetar
un corpus manual, no ho sabria dir. Un etiquetatge estadístic també té
avantatges (alguna vegada ho havia comentat en Marc, que potser té exemples
al cap).

Hèctor

Missatge de Jaume Ortolà i Font  del dia dt., 22
d’oct. 2019 a les 13:08:

> Bon dia,
>
> Més observacions.
>
> He vist que en els fitxers de CG de català i castellà tenim gairebé un
> miler de regles de desambiguació (una mica menys). En LanguageTool en tenim
> 1200.
>
> Això em reforça la intuïció que el tagger no aporta quasi res de valuós.
>
> Crec que hem de plantejar-nos aquesta disjuntiva. Què serà més útil?
> 1) Fer la feina d'etiquetar mig milió de paraules per a entrenar el
> tagger, i obtenir uns resultats dubtosos, que no controlarem.
> 2) Completar les regles de desambiguació CG (què pot fer falta? 300-400
> regles més?). Aquestes regles probablement farien falta de totes maneres.
>
> Les qüestions difícils que esmenta Hèctor no ens les resoldrà el tagger
> estadístic. Això em sembla evident.
>
> En qualsevol cas, s'han de fer proves. Començaré mirant què queda per
> desambiguar sense el tagger.
>
> Què en penseu?
>
> Jaume
>
> Missatge de Hèctor Alòs i Font  del dia dl., 21
> d’oct. 2019 a les 20:21:
>
>> Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a
>> corpus a desambiguar. Tenint en compte que els traductors s'utilitzen molt
>> per a documents de l'administració, crec que el corpus també hauria de
>> contenir documents administratius (eventualment, de diferents
>> administracions). Penseu, per exemple, que a la Viquipèdia no trobareu
>> pràcticament cap forma verbal amb "vós", mentre que sí que són habituals en
>> la correspondència de l'administració. Però, com apunta en Marc, cal tenir
>> en compte la qüestió de les llicències d'ús que poden tenir aquests textos
>> (amb els de la Viquipèdia no veig que n'hi hagi i per això són a
>> apertium-cat).
>>
>> En tot cas, del que sobretot voldria advertir és que el corpus que es
>> faci servir, després no s'hauria d'emprar per a testejar els traductors,
>> tal com estic fent jo ara amb les frases de la Viquipèdia que en Marc
>> proposa d'utilitzar com a corpus. Altrament, ens creurem que tenim
>> traductors genials i serà, en bona part, perquè el nombre d'errors de
>> desambiguació serà mínim en el corpus de prova en qüestió. Extreure corpus
>> de les viquipèdies no és complicat. Sempre que m'ha calgut en diferents
>> llengües m'he limitat a seguir les instruccions que hi ha a la wiki.
>>
>> Tenir un corpus desambiguat també servirà per aclarir algunes coses que
>> almenys jo segueixo sense tenir gaire clares, com, per exemple, com se
>> suposa que cal analitzar "com" en diferents contextos, o "però" i
>> "tanmateix" entre comes enmig d'una oració (i, de passada, documentar-ho a
>> la wiki).
>>
>> Hèctor
>>
>> Missatge de Marc Riera Irigoyen  del dia
>> dl., 21 d’oct. 2019 a les 20:20:
>>
>>> Hola,
>>>
>>> Per entrenar el tagger, independentment de la tecnologia que s'utilitzi
>>> per fer-ho, el que cal és un corpus monolingüe. Després cal analitzar-lo
>>> amb Apertium per dividir-lo en unitats lèxiques segons el diccionari
>>> d'Apertium i trobar les unitats lèxiques ambigües, i fer una desambiguació
>>> manual. És una feina monòtona, però es pot fer progressivament i una vegada
>>> feta, si es manté el corpus desambiguat actualitzat als canvis dels
>>> diccionaris, es pot tornar a entrenar el tagger tantes vegades com es
>>> vulgui.
>>>
>>> En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases
>>> extretes de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000
>>> paraules. Per començar, podríem fer una prova amb les primeres 1.000
>>> frases. Entenc que si les tenim a l'apertium-cat vol dir que no hi ha
>>> problemes de llicències, però confirmeu-m'ho, si us plau.
>>>
>>> *Marc Riera*
>>>
>>>
>>> Missatge de Jaume Ortolà i Font  del dia dl., 21
>>> d’oct. 2019 a les 11:30:
>>>
 Moltes gràcies, Xavi. Molt interessant.

 El problema del tagger (assignar probabilitats diferents a principi de
 frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si 

Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-22 Thread Jaume Ortolà i Font
Bon dia,

Més observacions.

He vist que en els fitxers de CG de català i castellà tenim gairebé un
miler de regles de desambiguació (una mica menys). En LanguageTool en tenim
1200.

Això em reforça la intuïció que el tagger no aporta quasi res de valuós.

Crec que hem de plantejar-nos aquesta disjuntiva. Què serà més útil?
1) Fer la feina d'etiquetar mig milió de paraules per a entrenar el tagger,
i obtenir uns resultats dubtosos, que no controlarem.
2) Completar les regles de desambiguació CG (què pot fer falta? 300-400
regles més?). Aquestes regles probablement farien falta de totes maneres.

Les qüestions difícils que esmenta Hèctor no ens les resoldrà el tagger
estadístic. Això em sembla evident.

En qualsevol cas, s'han de fer proves. Començaré mirant què queda per
desambiguar sense el tagger.

Què en penseu?

Jaume

Missatge de Hèctor Alòs i Font  del dia dl., 21
d’oct. 2019 a les 20:21:

> Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a
> corpus a desambiguar. Tenint en compte que els traductors s'utilitzen molt
> per a documents de l'administració, crec que el corpus també hauria de
> contenir documents administratius (eventualment, de diferents
> administracions). Penseu, per exemple, que a la Viquipèdia no trobareu
> pràcticament cap forma verbal amb "vós", mentre que sí que són habituals en
> la correspondència de l'administració. Però, com apunta en Marc, cal tenir
> en compte la qüestió de les llicències d'ús que poden tenir aquests textos
> (amb els de la Viquipèdia no veig que n'hi hagi i per això són a
> apertium-cat).
>
> En tot cas, del que sobretot voldria advertir és que el corpus que es faci
> servir, després no s'hauria d'emprar per a testejar els traductors, tal com
> estic fent jo ara amb les frases de la Viquipèdia que en Marc proposa
> d'utilitzar com a corpus. Altrament, ens creurem que tenim traductors
> genials i serà, en bona part, perquè el nombre d'errors de desambiguació
> serà mínim en el corpus de prova en qüestió. Extreure corpus de les
> viquipèdies no és complicat. Sempre que m'ha calgut en diferents llengües
> m'he limitat a seguir les instruccions que hi ha a la wiki.
>
> Tenir un corpus desambiguat també servirà per aclarir algunes coses que
> almenys jo segueixo sense tenir gaire clares, com, per exemple, com se
> suposa que cal analitzar "com" en diferents contextos, o "però" i
> "tanmateix" entre comes enmig d'una oració (i, de passada, documentar-ho a
> la wiki).
>
> Hèctor
>
> Missatge de Marc Riera Irigoyen  del dia
> dl., 21 d’oct. 2019 a les 20:20:
>
>> Hola,
>>
>> Per entrenar el tagger, independentment de la tecnologia que s'utilitzi
>> per fer-ho, el que cal és un corpus monolingüe. Després cal analitzar-lo
>> amb Apertium per dividir-lo en unitats lèxiques segons el diccionari
>> d'Apertium i trobar les unitats lèxiques ambigües, i fer una desambiguació
>> manual. És una feina monòtona, però es pot fer progressivament i una vegada
>> feta, si es manté el corpus desambiguat actualitzat als canvis dels
>> diccionaris, es pot tornar a entrenar el tagger tantes vegades com es
>> vulgui.
>>
>> En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases extretes
>> de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000 paraules. Per
>> començar, podríem fer una prova amb les primeres 1.000 frases. Entenc que
>> si les tenim a l'apertium-cat vol dir que no hi ha problemes de llicències,
>> però confirmeu-m'ho, si us plau.
>>
>> *Marc Riera*
>>
>>
>> Missatge de Jaume Ortolà i Font  del dia dl., 21
>> d’oct. 2019 a les 11:30:
>>
>>> Moltes gràcies, Xavi. Molt interessant.
>>>
>>> El problema del tagger (assignar probabilitats diferents a principi de
>>> frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
>>> continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
>>> començar sempre igual. No té sentit fer-ho d'una altra manera.
>>>
>>> El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió
>>> ara mateix és que no fa quasi res de productiu. Quan introduïm una paraula
>>> nova en el diccionari que crea ambigüitat (per exemple, una cosa molt
>>> simple com ara un substantiu que coincideix amb una forma verbal), el
>>> tagger falla moltíssim. Fa la impressió de tirar monedes a l'aire. I
>>> l'única manera d'arreglar-ho és fer més regles CG.
>>>
>>> Es pot arribar a crear un sistema de regles de desambiguació prou
>>> eficaç. Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un
>>> sistema de regles molt complet per a etiquetar. Ara, segons la finalitat,
>>> les regles han de ser lleugerament diferents. I el conjunt de regles pot
>>> arribar a ser prou voluminós. Hauríem de valorar  tot això.
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>> Missatge de Xavi Ivars  del dia dg., 20 d’oct.
>>> 2019 a les 23:04:
>>>
 Sembla que el problema és que el tagger no reinicia les probabilitats
 de la mateixa manera quan arriba a un final de frase o quan una 

Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-21 Thread Hèctor Alòs i Font
Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a corpus
a desambiguar. Tenint en compte que els traductors s'utilitzen molt per a
documents de l'administració, crec que el corpus també hauria de contenir
documents administratius (eventualment, de diferents administracions).
Penseu, per exemple, que a la Viquipèdia no trobareu pràcticament cap forma
verbal amb "vós", mentre que sí que són habituals en la correspondència de
l'administració. Però, com apunta en Marc, cal tenir en compte la qüestió
de les llicències d'ús que poden tenir aquests textos (amb els de la
Viquipèdia no veig que n'hi hagi i per això són a apertium-cat).

En tot cas, del que sobretot voldria advertir és que el corpus que es faci
servir, després no s'hauria d'emprar per a testejar els traductors, tal com
estic fent jo ara amb les frases de la Viquipèdia que en Marc proposa
d'utilitzar com a corpus. Altrament, ens creurem que tenim traductors
genials i serà, en bona part, perquè el nombre d'errors de desambiguació
serà mínim en el corpus de prova en qüestió. Extreure corpus de les
viquipèdies no és complicat. Sempre que m'ha calgut en diferents llengües
m'he limitat a seguir les instruccions que hi ha a la wiki.

Tenir un corpus desambiguat també servirà per aclarir algunes coses que
almenys jo segueixo sense tenir gaire clares, com, per exemple, com se
suposa que cal analitzar "com" en diferents contextos, o "però" i
"tanmateix" entre comes enmig d'una oració (i, de passada, documentar-ho a
la wiki).

Hèctor

Missatge de Marc Riera Irigoyen  del dia
dl., 21 d’oct. 2019 a les 20:20:

> Hola,
>
> Per entrenar el tagger, independentment de la tecnologia que s'utilitzi
> per fer-ho, el que cal és un corpus monolingüe. Després cal analitzar-lo
> amb Apertium per dividir-lo en unitats lèxiques segons el diccionari
> d'Apertium i trobar les unitats lèxiques ambigües, i fer una desambiguació
> manual. És una feina monòtona, però es pot fer progressivament i una vegada
> feta, si es manté el corpus desambiguat actualitzat als canvis dels
> diccionaris, es pot tornar a entrenar el tagger tantes vegades com es
> vulgui.
>
> En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases extretes
> de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000 paraules. Per
> començar, podríem fer una prova amb les primeres 1.000 frases. Entenc que
> si les tenim a l'apertium-cat vol dir que no hi ha problemes de llicències,
> però confirmeu-m'ho, si us plau.
>
> *Marc Riera*
>
>
> Missatge de Jaume Ortolà i Font  del dia dl., 21
> d’oct. 2019 a les 11:30:
>
>> Moltes gràcies, Xavi. Molt interessant.
>>
>> El problema del tagger (assignar probabilitats diferents a principi de
>> frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
>> continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
>> començar sempre igual. No té sentit fer-ho d'una altra manera.
>>
>> El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió
>> ara mateix és que no fa quasi res de productiu. Quan introduïm una paraula
>> nova en el diccionari que crea ambigüitat (per exemple, una cosa molt
>> simple com ara un substantiu que coincideix amb una forma verbal), el
>> tagger falla moltíssim. Fa la impressió de tirar monedes a l'aire. I
>> l'única manera d'arreglar-ho és fer més regles CG.
>>
>> Es pot arribar a crear un sistema de regles de desambiguació prou eficaç.
>> Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un sistema
>> de regles molt complet per a etiquetar. Ara, segons la finalitat, les
>> regles han de ser lleugerament diferents. I el conjunt de regles pot
>> arribar a ser prou voluminós. Hauríem de valorar  tot això.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>> Missatge de Xavi Ivars  del dia dg., 20 d’oct.
>> 2019 a les 23:04:
>>
>>> Sembla que el problema és que el tagger no reinicia les probabilitats de
>>> la mateixa manera quan arriba a un final de frase o quan una frase comença.
>>> I les probabilitats que hi assigna són diferents segons el context.
>>>
>>> He aconseguit trobar un punt que fa que el primer cas canvie.+
>>>
>>> En aquest cas, funciona correctament.
>>>
>>> echo "Eren deu quatre homes. El marit havia estat fan de l'actor." |
>>> apertium -d . cat-spa-disamb
>>>
>>> En aquest cas, no
>>>
>>> echo "Eren deu mil homes. El marit havia estat fan de l'actor." |
>>> apertium -d . cat-spa-disamb
>>>
>>> Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de
>>> quatre acaba sent la mateixa, ), al tagger no li arriba la
>>> mateixa informació.
>>>
>>> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la
>>> paraula *deu*
>>>
>>> En el primer cas, el resultat després de CG
>>> és  ^deu/deu/deu/deure$
>>>
>>> S'han aplicat estes regles de
>>> REMOVE: 
>>> /¬deure/¬deure
>>>
>>>
>>> En canvi, en el segon cas, al tagger li arriba
>>>  ^deu/deu/deure$
>>>
>>> S'han aplicat les regles
>>> /¬deu/¬deure/¬deure$
>>>
>>>
>>> El 

Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-21 Thread Marc Riera Irigoyen
Hola,

Per entrenar el tagger, independentment de la tecnologia que s'utilitzi per
fer-ho, el que cal és un corpus monolingüe. Després cal analitzar-lo amb
Apertium per dividir-lo en unitats lèxiques segons el diccionari d'Apertium
i trobar les unitats lèxiques ambigües, i fer una desambiguació manual. És
una feina monòtona, però es pot fer progressivament i una vegada feta, si
es manté el corpus desambiguat actualitzat als canvis dels diccionaris, es
pot tornar a entrenar el tagger tantes vegades com es vulgui.

En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases extretes
de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000 paraules. Per
començar, podríem fer una prova amb les primeres 1.000 frases. Entenc que
si les tenim a l'apertium-cat vol dir que no hi ha problemes de llicències,
però confirmeu-m'ho, si us plau.

*Marc Riera*


Missatge de Jaume Ortolà i Font  del dia dl., 21
d’oct. 2019 a les 11:30:

> Moltes gràcies, Xavi. Molt interessant.
>
> El problema del tagger (assignar probabilitats diferents a principi de
> frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
> continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
> començar sempre igual. No té sentit fer-ho d'una altra manera.
>
> El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió ara
> mateix és que no fa quasi res de productiu. Quan introduïm una paraula nova
> en el diccionari que crea ambigüitat (per exemple, una cosa molt simple com
> ara un substantiu que coincideix amb una forma verbal), el tagger falla
> moltíssim. Fa la impressió de tirar monedes a l'aire. I l'única manera
> d'arreglar-ho és fer més regles CG.
>
> Es pot arribar a crear un sistema de regles de desambiguació prou eficaç.
> Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un sistema
> de regles molt complet per a etiquetar. Ara, segons la finalitat, les
> regles han de ser lleugerament diferents. I el conjunt de regles pot
> arribar a ser prou voluminós. Hauríem de valorar  tot això.
>
> Salutacions,
> Jaume Ortolà
>
>
> Missatge de Xavi Ivars  del dia dg., 20 d’oct. 2019
> a les 23:04:
>
>> Sembla que el problema és que el tagger no reinicia les probabilitats de
>> la mateixa manera quan arriba a un final de frase o quan una frase comença.
>> I les probabilitats que hi assigna són diferents segons el context.
>>
>> He aconseguit trobar un punt que fa que el primer cas canvie.+
>>
>> En aquest cas, funciona correctament.
>>
>> echo "Eren deu quatre homes. El marit havia estat fan de l'actor." |
>> apertium -d . cat-spa-disamb
>>
>> En aquest cas, no
>>
>> echo "Eren deu mil homes. El marit havia estat fan de l'actor." |
>> apertium -d . cat-spa-disamb
>>
>> Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de
>> quatre acaba sent la mateixa, ), al tagger no li arriba la
>> mateixa informació.
>>
>> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la
>> paraula *deu*
>>
>> En el primer cas, el resultat després de CG
>> és  ^deu/deu/deu/deure$
>>
>> S'han aplicat estes regles de
>> REMOVE: 
>> /¬deure/¬deure
>>
>>
>> En canvi, en el segon cas, al tagger li arriba
>>  ^deu/deu/deure$
>>
>> S'han aplicat les regles
>> /¬deu/¬deure/¬deure$
>>
>>
>> El tagger de català es va entrenar fa molts anys, amb diccionaris molt
>> diferents, i amb una entrada extremadament més ambigua que ara, ja que
>> no teníem l'elevada quantitat de regles CG que tenim ara.
>>
>> Crec que la millor solució seria reentrenar el tagger, i comparar els
>> resultats.
>>
>> Gema , vosaltres teniu instruccions de com fer
>> l'entrenament amb el tagger antic?
>>
>> Marc , seria molt complex fer-ho amb el
>> mateix que vas fer l'anglés?
>>
>> --
>> < Xavi Ivars >
>> < http://xavi.ivars.me >
>>
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-21 Thread Jaume Ortolà i Font
Moltes gràcies, Xavi. Molt interessant.

El problema del tagger (assignar probabilitats diferents a principi de
frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
començar sempre igual. No té sentit fer-ho d'una altra manera.

El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió ara
mateix és que no fa quasi res de productiu. Quan introduïm una paraula nova
en el diccionari que crea ambigüitat (per exemple, una cosa molt simple com
ara un substantiu que coincideix amb una forma verbal), el tagger falla
moltíssim. Fa la impressió de tirar monedes a l'aire. I l'única manera
d'arreglar-ho és fer més regles CG.

Es pot arribar a crear un sistema de regles de desambiguació prou eficaç.
Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un sistema
de regles molt complet per a etiquetar. Ara, segons la finalitat, les
regles han de ser lleugerament diferents. I el conjunt de regles pot
arribar a ser prou voluminós. Hauríem de valorar  tot això.

Salutacions,
Jaume Ortolà


Missatge de Xavi Ivars  del dia dg., 20 d’oct. 2019 a
les 23:04:

> Sembla que el problema és que el tagger no reinicia les probabilitats de
> la mateixa manera quan arriba a un final de frase o quan una frase comença.
> I les probabilitats que hi assigna són diferents segons el context.
>
> He aconseguit trobar un punt que fa que el primer cas canvie.+
>
> En aquest cas, funciona correctament.
>
> echo "Eren deu quatre homes. El marit havia estat fan de l'actor." |
> apertium -d . cat-spa-disamb
>
> En aquest cas, no
>
> echo "Eren deu mil homes. El marit havia estat fan de l'actor." | apertium
> -d . cat-spa-disamb
>
> Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de
> quatre acaba sent la mateixa, ), al tagger no li arriba la
> mateixa informació.
>
> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la
> paraula *deu*
>
> En el primer cas, el resultat després de CG
> és  ^deu/deu/deu/deure$
>
> S'han aplicat estes regles de
> REMOVE: 
> /¬deure/¬deure
>
>
> En canvi, en el segon cas, al tagger li arriba
>  ^deu/deu/deure$
>
> S'han aplicat les regles
> /¬deu/¬deure/¬deure$
>
>
> El tagger de català es va entrenar fa molts anys, amb diccionaris molt
> diferents, i amb una entrada extremadament més ambigua que ara, ja que
> no teníem l'elevada quantitat de regles CG que tenim ara.
>
> Crec que la millor solució seria reentrenar el tagger, i comparar els
> resultats.
>
> Gema , vosaltres teniu instruccions de com fer
> l'entrenament amb el tagger antic?
>
> Marc , seria molt complex fer-ho amb el
> mateix que vas fer l'anglés?
>
> --
> < Xavi Ivars >
> < http://xavi.ivars.me >
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-20 Thread Xavi Ivars
Sembla que el problema és que el tagger no reinicia les probabilitats de la
mateixa manera quan arriba a un final de frase o quan una frase comença. I
les probabilitats que hi assigna són diferents segons el context.

He aconseguit trobar un punt que fa que el primer cas canvie.+

En aquest cas, funciona correctament.

echo "Eren deu quatre homes. El marit havia estat fan de l'actor." |
apertium -d . cat-spa-disamb

En aquest cas, no

echo "Eren deu mil homes. El marit havia estat fan de l'actor." | apertium
-d . cat-spa-disamb

Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de
quatre acaba sent la mateixa, ), al tagger no li arriba la
mateixa informació.

Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la
paraula *deu*

En el primer cas, el resultat després de CG
és  ^deu/deu/deu/deure$

S'han aplicat estes regles de
REMOVE: 
/¬deure/¬deure


En canvi, en el segon cas, al tagger li arriba
 ^deu/deu/deure$

S'han aplicat les regles
/¬deu/¬deure/¬deure$


El tagger de català es va entrenar fa molts anys, amb diccionaris molt
diferents, i amb una entrada extremadament més ambigua que ara, ja que
no teníem l'elevada quantitat de regles CG que tenim ara.

Crec que la millor solució seria reentrenar el tagger, i comparar els
resultats.

Gema , vosaltres teniu instruccions de com fer
l'entrenament amb el tagger antic?

Marc , seria molt complex fer-ho amb el
mateix que vas fer l'anglés?

-- 
< Xavi Ivars >
< http://xavi.ivars.me >
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala