Re: [Apertium-catala] tractament de noms propis

2018-04-30 Thread Jaume Ortolà i Font
El dia 30 d’abril de 2018 a les 19:59, Hèctor Alòs i Font <
hectora...@gmail.com> ha escrit:

> He posat aquestes regles a apertium-cat i les he provades traduint al
> francès un corpus de 20.000 frases de la Viquipèdia catalana triades a
> l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms
> de reis, papes i aviram del ram (i les regles de selecció lèxica associades
> al tema). He afegit un pedaç per què les regles no s'apliquin amb els
> números romans:
>

Gràcies per provar-ho.

Això dels números romans en spa-cat no passa perquè es marquen com a .
En el fra-cat veig que es marquen com a adjectius.


> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
> (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans);
> #Posa com a lema la forma de la paraula marcada amb *
> # Amb els adjectius hi ha més risc d'error (!)
> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
> (0 MajIni) (NOT 0 segles_num_romans);  # Això no sé si és útil.
>
> Després d'això, he tornat a traduir el corpus i comparar amb la traducció
> feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet
> res malbé, però també no s'ha arreglat res. Evidentment, en un corpus
> periodístic amb més cognoms del país seria una altra historia. Cal dir
> també que el el diccionari català tenim els 5000 cognoms més freqüents a
> Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des
> del català, especialment de textos del Principat.
>

Jo crec que serà útil. En spa-cat passa molt. Acabo de passar un llista de
500 persones de València (nom i 2 cognoms) i ixen 31 cognoms susceptibles
d'haver estat "traduïts" spa>cat.

Però ara tinc un problema. He intenta fer el mateix cat>spa i veig que la
regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan s'espera
Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? Algú ho
pot provar?

Jaume


>
> El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> Bon dia,
>>
>> He fet una petita prova, i de moment és prou satisfactòria. He posat en
>> el fitxer CG spa:
>>
>> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C
>> (ant)) (0C Verb OR N OR A) (0 MajIni);
>> #Posa com a lema la forma de la paraula marcada amb *
>> # Amb els adjectius hi ha més risc d'error (!)
>> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
>> (0 MajIni);  # Això no sé si és útil.
>>
>> Com a resultat tenim spa-cat:
>>
>> Mónica *Naranjo   (era Mónica Taronger)
>> Alberto *Isla  (era Alberto Illa)
>> Juana *Corredera (era Juana Corredissa)
>> Enric *Morera   (era Enric Morera)
>> Moratal *Sastre(era Moratal Sastre)
>>
>> Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i
>> Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè
>> casualment la traducció spa-cat coincideix; en altres idiomes hauria donat
>> errors. També es pot forçar un @ en comptes de *. Però així crec que és
>> millor.
>>
>> Per a mi, aquest és el comportament ideal. No caldria res més. Ara
>> hauríem de fer més proves, i afegir alguna regla més per a contexts
>> semblants.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>> El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font <
>>> hectora...@gmail.com> ha escrit:
>>>
 De tota manera, afegir amb CG  una etiqueta especial o canviar
 l'etiqueta que hi hagi sembla complicat:
 - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per
 poder generar el cognom sense que surti un #

>>>
>>> Sí, això pensava. Entenc que Aperitum no permet generar res que no
>>> estigui definit en el diccionari de destinació. De totes maneres això seria
>>> un plus. De moment n'hi hauria prou evitant les falses traduccions  de
>>> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís
>>> "Antonio *Taló", si pogués ser.
>>>
>>> Jaume
>>>
>>>
>>>
 - Si el que es faci de CG és general per al tots els traductors que
 utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
 amb català llengua d'origen de la traducció (i l'equivalent per a
 apertium-cat).

 El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
 jaumeort...@gmail.com> ha escrit:

> Gràcies per la resposta, Hèctor.
>
> La nova versió ja està pràcticament tancada, i per tant ja no hi
> entrarien aquests canvis. Evidentment caldria provar-ho amb més temps.
>
> Les regles serien potents i caldria anar amb molt de compte. S'haurien
> de controlar molt bé tots els contextos. Jo ho veig factible. Pense en
> casos com:
>
> El señor *Subías* declara que... [Una paraula només reconeguda com a
> verb, en majúscula i voltada de minúscules].
> José María *Taló* García [Un verb en 

Re: [Apertium-catala] tractament de noms propis

2018-04-30 Thread Hèctor Alòs i Font
He posat aquestes regles a apertium-cat i les he provades traduint al
francès un corpus de 20.000 frases de la Viquipèdia catalana triades a
l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms
de reis, papes i aviram del ram (i les regles de selecció lèxica associades
al tema). He afegit un pedaç per què les regles no s'apliquin amb els
números romans:

SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
(0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans);
#Posa com a lema la forma de la paraula marcada amb *
# Amb els adjectius hi ha més risc d'error (!)
REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
(0 MajIni) (NOT 0 segles_num_romans);  # Això no sé si és útil.

Després d'això, he tornat a traduir el corpus i comparar amb la traducció
feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet
res malbé, però també no s'ha arreglat res. Evidentment, en un corpus
periodístic amb més cognoms del país seria una altra historia. Cal dir
també que el el diccionari català tenim els 5000 cognoms més freqüents a
Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des
del català, especialment de textos del Principat.

Cordialment,
Hèctor

El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Bon dia,
>
> He fet una petita prova, i de moment és prou satisfactòria. He posat en el
> fitxer CG spa:
>
> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
> (0C Verb OR N OR A) (0 MajIni);
> #Posa com a lema la forma de la paraula marcada amb *
> # Amb els adjectius hi ha més risc d'error (!)
> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
> (0 MajIni);  # Això no sé si és útil.
>
> Com a resultat tenim spa-cat:
>
> Mónica *Naranjo   (era Mónica Taronger)
> Alberto *Isla  (era Alberto Illa)
> Juana *Corredera (era Juana Corredissa)
> Enric *Morera   (era Enric Morera)
> Moratal *Sastre(era Moratal Sastre)
>
> Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i
> Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè
> casualment la traducció spa-cat coincideix; en altres idiomes hauria donat
> errors. També es pot forçar un @ en comptes de *. Però així crec que és
> millor.
>
> Per a mi, aquest és el comportament ideal. No caldria res més. Ara hauríem
> de fer més proves, i afegir alguna regla més per a contexts semblants.
>
> Salutacions,
> Jaume Ortolà
>
>
> El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font <
>> hectora...@gmail.com> ha escrit:
>>
>>> De tota manera, afegir amb CG  una etiqueta especial o canviar
>>> l'etiqueta que hi hagi sembla complicat:
>>> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per
>>> poder generar el cognom sense que surti un #
>>>
>>
>> Sí, això pensava. Entenc que Aperitum no permet generar res que no
>> estigui definit en el diccionari de destinació. De totes maneres això seria
>> un plus. De moment n'hi hauria prou evitant les falses traduccions  de
>> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís
>> "Antonio *Taló", si pogués ser.
>>
>> Jaume
>>
>>
>>
>>> - Si el que es faci de CG és general per al tots els traductors que
>>> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
>>> amb català llengua d'origen de la traducció (i l'equivalent per a
>>> apertium-cat).
>>>
>>> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
>>> jaumeort...@gmail.com> ha escrit:
>>>
 Gràcies per la resposta, Hèctor.

 La nova versió ja està pràcticament tancada, i per tant ja no hi
 entrarien aquests canvis. Evidentment caldria provar-ho amb més temps.

 Les regles serien potents i caldria anar amb molt de compte. S'haurien
 de controlar molt bé tots els contextos. Jo ho veig factible. Pense en
 casos com:

 El señor *Subías* declara que... [Una paraula només reconeguda com a
 verb, en majúscula i voltada de minúscules].
 José María *Taló* García [Un verb en majúscula voltat d'antropònims]
 Luis *Almería* Martínez [Un topònim voltat d'antropònims]
 Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim]
 ...

 Ho provarem.

 Salutacions,
 Jaume Ortolà


 El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font <
 hectora...@gmail.com> ha escrit:

> Jaume,
>
> El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i
> a la fi, sembla que seria no traduir les paraules que comencen amb
> majúscula si van més o menys seguides d'altres amb majúscula (o seria
> obligatòriament en presència d'alguna paraula desconeguda que també va en
> majúscula?). El problema és que això fàcilment acabarà fent que Creu Roja 
> o

Re: [Apertium-catala] tractament de noms propis

2018-04-30 Thread Jaume Ortolà i Font
Bon dia,

He fet una petita prova, i de moment és prou satisfactòria. He posat en el
fitxer CG spa:

SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
(0C Verb OR N OR A) (0 MajIni);
#Posa com a lema la forma de la paraula marcada amb *
# Amb els adjectius hi ha més risc d'error (!)
REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
(0 MajIni);  # Això no sé si és útil.

Com a resultat tenim spa-cat:

Mónica *Naranjo   (era Mónica Taronger)
Alberto *Isla  (era Alberto Illa)
Juana *Corredera (era Juana Corredissa)
Enric *Morera   (era Enric Morera)
Moratal *Sastre(era Moratal Sastre)

Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i
Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè
casualment la traducció spa-cat coincideix; en altres idiomes hauria donat
errors. També es pot forçar un @ en comptes de *. Però així crec que és
millor.

Per a mi, aquest és el comportament ideal. No caldria res més. Ara hauríem
de fer més proves, i afegir alguna regla més per a contexts semblants.

Salutacions,
Jaume Ortolà


El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font <
> hectora...@gmail.com> ha escrit:
>
>> De tota manera, afegir amb CG  una etiqueta especial o canviar
>> l'etiqueta que hi hagi sembla complicat:
>> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder
>> generar el cognom sense que surti un #
>>
>
> Sí, això pensava. Entenc que Aperitum no permet generar res que no estigui
> definit en el diccionari de destinació. De totes maneres això seria un
> plus. De moment n'hi hauria prou evitant les falses traduccions  de l'estil
> "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís "Antonio
> *Taló", si pogués ser.
>
> Jaume
>
>
>
>> - Si el que es faci de CG és general per al tots els traductors que
>> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
>> amb català llengua d'origen de la traducció (i l'equivalent per a
>> apertium-cat).
>>
>> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> Gràcies per la resposta, Hèctor.
>>>
>>> La nova versió ja està pràcticament tancada, i per tant ja no hi
>>> entrarien aquests canvis. Evidentment caldria provar-ho amb més temps.
>>>
>>> Les regles serien potents i caldria anar amb molt de compte. S'haurien
>>> de controlar molt bé tots els contextos. Jo ho veig factible. Pense en
>>> casos com:
>>>
>>> El señor *Subías* declara que... [Una paraula només reconeguda com a
>>> verb, en majúscula i voltada de minúscules].
>>> José María *Taló* García [Un verb en majúscula voltat d'antropònims]
>>> Luis *Almería* Martínez [Un topònim voltat d'antropònims]
>>> Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim]
>>> ...
>>>
>>> Ho provarem.
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>> El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font <
>>> hectora...@gmail.com> ha escrit:
>>>
 Jaume,

 El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i a
 la fi, sembla que seria no traduir les paraules que comencen amb majúscula
 si van més o menys seguides d'altres amb majúscula (o seria obligatòriament
 en presència d'alguna paraula desconeguda que també va en majúscula?). El
 problema és que això fàcilment acabarà fent que Creu Roja o Alps
 Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra banda,
 hi ha el problema que Domingo Rojo pot ser un nom de persona, però també un
 fet històric. A més, si s'accepten coses com "Juan de Dios" com una unitat,
 el sistema per reconèixer antropònims per no traduir-los pot començar a
 agafar moltes coses que no ho són, per exemple Joan d'Àustria seguirà sent
 Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no ho veig gens
 clar.

 A priori, però, la manera d'implementar coses d'aquestes sembla que
 sigui CG. Allà hi ha regles que tracten paraules començades per majúscula.
 El que hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí
 caldria afegir alguna cosa que no hi és.

 En tot cas, a una setmana de posar en marxa una nova versió, sembla que
 estem parlant d'un canvi molt important que s'hauria de provar a fons.
 Potser que no sigui el moment de fer-ho ara per a aquesta versió.

 Cordialment,
 Hèctor

 El dia 24 d’abril de 2018 a les 15:28, Jaume Ortolà i Font <
 jaumeort...@gmail.com> ha escrit:

> Bon dia,
>
> Em pregunte si seria possible de fer algunes regles per al tractament
> de noms de persona (noms i cognoms). Per més cognoms que afegim als
> diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom 
> sempre
> està present. Acabe de fer una prova spa-cat amb una llista de