Re: [Apertium-catala] tractament de noms propis

2018-05-02 Thread Jaume Ortolà i Font
Reenvio el missatge d'Hèctor i responc.

El dia 2 de maig de 2018 a les 19:33, Hèctor Alòs i Font <
hectora...@gmail.com> ha escrit:

> He pogut fer la prova. Els resultats són negatius. És millor no incloure
> la regla per al català (per al castellà, no sé). Fa més mal que bé.
>
> En un corpus de 5000 frases aleatòries de la Viquipèdia i traduint del
> català al francès, només he vist una millora: per a "Luis Firmin". En canvi
> ha espatllat: Alexandre Magne, sant Miquel Arcàngel, RESPOSTA AL VISITANT
> ("Al + Visitant"), Via Francisca Superior, Sant Antoni Abat, Justí Màrtir.
>

> Més complicats i més o menys tan nombrosos són una sèrie de casos que
> tenen a veure amb la Viquipèdia. Un exemple típic d'aquest tipus és:
>
> Mereixedor l'any 1980 del Premi Lletra d'Or; l'any 1982 de la Premi Creu
> de Sant Jordi Creu de Sant Jordi
>
Aquí el problema és la segona Creu, que es marca amb * per ser darrere de
> Jordi: "Premi Creu de Sant Jordi *Creu de Sant Jordi". Per descomptat, la
> frase és agramatical. És el resultat de "desviquitzar" l'article de la
> Viquipèdia. En un cas real, amb Wikimedia, no sé ben bé què passa.
> M'imagino que la parafernàlia de [[ ]] dels hipervincles estarà amagada en
> superblancs i, realment, el traductor deu rebre "frases" d'aquesta mena amb
> successions estranyes com "Creu de Sant Jordi Creu de Sant Jordi" que
> trenquen els nostres intents de desambiguació morfològica/anàlisi
> sintàctica. És un tema a estudiar, que supera el problema que ara mateix
> estem tractant.
>
> En tot cas, si no tenim en compte aquests casos (tot i que segurament
> hauríem), per 1 cosa arreglada en tenim com a mínim 6 d'espatllades.
>
> Per això, com deia, millor no afegir els canvis en apertium-cat.cat.rlx.
> Seria qüestió de comentar les dues regles que vaig posar de prova fa dos o
> tres dies.
>
> Aconsellaria fer la mateixa prova amb un corpus real amb la Viquipèdia en
> castellà. És possible que passi una cosa semblant.
>
>
No faig la mateixa avaluació d'aquests resultats.  Més aviat al contrari:
els veig positius.

En un comentari del codi jo deia que incloure els adjectius en la regla era
més arriscat. Però veient els teus resultats m'inclino per deixar-los.

Si es tradueix un adjectiu (o un nom) que acompanya un nom propi i el
resultat és correcte, és més aviat sort. Mira els casos que t'han eixit. En
francès el més normal és dir "Alexandre le Grand" i "Antoine le Grand" en
comptes de "Alexandre Grand" i "saint Antoine Abbé". També veig en un text
francès "Via Francisca Superior" (sembla un topònim) i no pas "Via
Francisca Supérieure".  Crec que podem relativitzar, doncs, que s'hagin
"espatllat" aquestes traduccions. És al contrari: la regla t'avisa que
probablement no estan bé.

I com es tradueix "Justí Màrtir"? El nom no es tradueix i el cognom sí?
Sincerament crec que és molt millor trobar-se "Justí *Màrtir" (amb avís de
possible error) que no "Justí Martyr" (sense avís, que pot fer que passem
per alt que cal escriure "Justin Martyr"). Els noms històrics s'han de
traduir sencers, no parcialment. En el cas d'Alexandre el nom coincideix,
casualment, en català i en francès. En cat>spa, m'estimo molt més
"Alejandro *Magno" que "Alejandro Magne".

"Al Visitant" no s'hauria d'haver espatllat perquè, encara que "Al" estigui
com a nom propi, no és solament nom propi. Això ja m'ho havia trobat jo
("Al Banco Central le incumben..."), i hauria d'estar arreglat. En castellà
va bé, però veig que en català falla. No sé per què. S'haurà de fer algun
retoc a la regla.

Jo vaig passar el corpus del Parlament europeu sencer (60 milions de
paraules). Forçant que la regla pose @ en comptes de *, veig exactament on
actua. La regla evita traduir un grapat considerable de cognoms. Només vaig
trobar dos problemes relacionats amb el format i la puntuació:

Bienvenida  [Títol d'un apartat que coincideix amb
un nom propi de persona i s'enganxa amb la frase següent. Ja està resolt
per a aquesta paraula.]
*Quiero donar les gràcies a ...

Martínez de Bedoya- *Fondos de Cohesió [No entén el guió com a separador.
No està resolt.]

Jo de moment ho veig molt positiu. I crec que és important. Els traductors
automàtics ixen en la premsa i en els programes d'humor precisament per
aquestes coses, que tenen una solució raonable. Faré més proves amb text de
les wikipèdies catalana i espanyola.

Salutacions,
Jaume





> El dia 1 de maig de 2018 a les 19:22, Hèctor Alòs i Font <
> hectora...@gmail.com> ha escrit:
>
>> Dubto que això canviï res. Si canviés, voldria dir que la resta
>> d'expressions regulars que diferencien entre majúscules i minúscules i no
>> contenen <> no funcionarien. De tota manera, no puc ara mateix provar-ho
>> bé. La inclusió de l'etiqueta  per a "primer", "segon", etc. m'està
>> fent petar tot. No havia entès que la introduíeu.
>>
>> El dia 1 de maig de 2018 a les 14:25, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> El dia 30 d’abril de 2018 a les 22:14, 

Re: [Apertium-catala] tractament de noms propis

2018-05-02 Thread Hèctor Alòs i Font
Dubto que això canviï res. Si canviés, voldria dir que la resta
d'expressions regulars que diferencien entre majúscules i minúscules i no
contenen <> no funcionarien. De tota manera, no puc ara mateix provar-ho
bé. La inclusió de l'etiqueta  per a "primer", "segon", etc. m'està
fent petar tot. No havia entès que la introduíeu.

El dia 1 de maig de 2018 a les 14:25, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> El dia 30 d’abril de 2018 a les 22:14, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> Però ara tinc un problema. He intentat fer el mateix cat>spa i veig que
>> la regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan
>> s'espera Joan *Taronger). No sé què pot ser. Alguna cosa de configuració?
>> Algú ho pot provar?
>>
>
> He trobat el problema. Era això:
>
> https://github.com/apertium/apertium-cat/commit/e8ca41ca9bd8
> 6fead8246868c901a7e2dd386c55
>
> Cal mirar les majúscules en la forma de la paraula, no en el lema, perquè
> el lema de paraules comunes està en minúscules, almenys en el primer pas.
> El lema de "Taronger" és "taronger" en morph.
>
> Hèctor: ¿Pots tornar a fer el test cat>fra? La regla segurament no feia
> res.
>
> Jaume
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] tractament de noms propis

2018-05-01 Thread Jaume Ortolà i Font
El dia 30 d’abril de 2018 a les 22:14, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Però ara tinc un problema. He intentat fer el mateix cat>spa i veig que la
> regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan s'espera
> Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? Algú ho
> pot provar?
>

He trobat el problema. Era això:

https://github.com/apertium/apertium-cat/commit/
e8ca41ca9bd86fead8246868c901a7e2dd386c55

Cal mirar les majúscules en la forma de la paraula, no en el lema, perquè
el lema de paraules comunes està en minúscules, almenys en el primer pas.
El lema de "Taronger" és "taronger" en morph.

Hèctor: ¿Pots tornar a fer el test cat>fra? La regla segurament no feia
res.

Jaume
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] tractament de noms propis

2018-04-30 Thread Jaume Ortolà i Font
El dia 30 d’abril de 2018 a les 19:59, Hèctor Alòs i Font <
hectora...@gmail.com> ha escrit:

> He posat aquestes regles a apertium-cat i les he provades traduint al
> francès un corpus de 20.000 frases de la Viquipèdia catalana triades a
> l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms
> de reis, papes i aviram del ram (i les regles de selecció lèxica associades
> al tema). He afegit un pedaç per què les regles no s'apliquin amb els
> números romans:
>

Gràcies per provar-ho.

Això dels números romans en spa-cat no passa perquè es marquen com a .
En el fra-cat veig que es marquen com a adjectius.


> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
> (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans);
> #Posa com a lema la forma de la paraula marcada amb *
> # Amb els adjectius hi ha més risc d'error (!)
> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
> (0 MajIni) (NOT 0 segles_num_romans);  # Això no sé si és útil.
>
> Després d'això, he tornat a traduir el corpus i comparar amb la traducció
> feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet
> res malbé, però també no s'ha arreglat res. Evidentment, en un corpus
> periodístic amb més cognoms del país seria una altra historia. Cal dir
> també que el el diccionari català tenim els 5000 cognoms més freqüents a
> Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des
> del català, especialment de textos del Principat.
>

Jo crec que serà útil. En spa-cat passa molt. Acabo de passar un llista de
500 persones de València (nom i 2 cognoms) i ixen 31 cognoms susceptibles
d'haver estat "traduïts" spa>cat.

Però ara tinc un problema. He intenta fer el mateix cat>spa i veig que la
regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan s'espera
Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? Algú ho
pot provar?

Jaume


>
> El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> Bon dia,
>>
>> He fet una petita prova, i de moment és prou satisfactòria. He posat en
>> el fitxer CG spa:
>>
>> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C
>> (ant)) (0C Verb OR N OR A) (0 MajIni);
>> #Posa com a lema la forma de la paraula marcada amb *
>> # Amb els adjectius hi ha més risc d'error (!)
>> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
>> (0 MajIni);  # Això no sé si és útil.
>>
>> Com a resultat tenim spa-cat:
>>
>> Mónica *Naranjo   (era Mónica Taronger)
>> Alberto *Isla  (era Alberto Illa)
>> Juana *Corredera (era Juana Corredissa)
>> Enric *Morera   (era Enric Morera)
>> Moratal *Sastre(era Moratal Sastre)
>>
>> Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i
>> Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè
>> casualment la traducció spa-cat coincideix; en altres idiomes hauria donat
>> errors. També es pot forçar un @ en comptes de *. Però així crec que és
>> millor.
>>
>> Per a mi, aquest és el comportament ideal. No caldria res més. Ara
>> hauríem de fer més proves, i afegir alguna regla més per a contexts
>> semblants.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>> El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font <
>>> hectora...@gmail.com> ha escrit:
>>>
 De tota manera, afegir amb CG  una etiqueta especial o canviar
 l'etiqueta que hi hagi sembla complicat:
 - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per
 poder generar el cognom sense que surti un #

>>>
>>> Sí, això pensava. Entenc que Aperitum no permet generar res que no
>>> estigui definit en el diccionari de destinació. De totes maneres això seria
>>> un plus. De moment n'hi hauria prou evitant les falses traduccions  de
>>> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís
>>> "Antonio *Taló", si pogués ser.
>>>
>>> Jaume
>>>
>>>
>>>
 - Si el que es faci de CG és general per al tots els traductors que
 utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
 amb català llengua d'origen de la traducció (i l'equivalent per a
 apertium-cat).

 El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
 jaumeort...@gmail.com> ha escrit:

> Gràcies per la resposta, Hèctor.
>
> La nova versió ja està pràcticament tancada, i per tant ja no hi
> entrarien aquests canvis. Evidentment caldria provar-ho amb més temps.
>
> Les regles serien potents i caldria anar amb molt de compte. S'haurien
> de controlar molt bé tots els contextos. Jo ho veig factible. Pense en
> casos com:
>
> El señor *Subías* declara que... [Una paraula només reconeguda com a
> verb, en majúscula i voltada de minúscules].
> José María *Taló* García [Un verb en 

Re: [Apertium-catala] tractament de noms propis

2018-04-30 Thread Hèctor Alòs i Font
He posat aquestes regles a apertium-cat i les he provades traduint al
francès un corpus de 20.000 frases de la Viquipèdia catalana triades a
l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms
de reis, papes i aviram del ram (i les regles de selecció lèxica associades
al tema). He afegit un pedaç per què les regles no s'apliquin amb els
números romans:

SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
(0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans);
#Posa com a lema la forma de la paraula marcada amb *
# Amb els adjectius hi ha més risc d'error (!)
REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
(0 MajIni) (NOT 0 segles_num_romans);  # Això no sé si és útil.

Després d'això, he tornat a traduir el corpus i comparar amb la traducció
feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet
res malbé, però també no s'ha arreglat res. Evidentment, en un corpus
periodístic amb més cognoms del país seria una altra historia. Cal dir
també que el el diccionari català tenim els 5000 cognoms més freqüents a
Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des
del català, especialment de textos del Principat.

Cordialment,
Hèctor

El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Bon dia,
>
> He fet una petita prova, i de moment és prou satisfactòria. He posat en el
> fitxer CG spa:
>
> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
> (0C Verb OR N OR A) (0 MajIni);
> #Posa com a lema la forma de la paraula marcada amb *
> # Amb els adjectius hi ha més risc d'error (!)
> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
> (0 MajIni);  # Això no sé si és útil.
>
> Com a resultat tenim spa-cat:
>
> Mónica *Naranjo   (era Mónica Taronger)
> Alberto *Isla  (era Alberto Illa)
> Juana *Corredera (era Juana Corredissa)
> Enric *Morera   (era Enric Morera)
> Moratal *Sastre(era Moratal Sastre)
>
> Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i
> Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè
> casualment la traducció spa-cat coincideix; en altres idiomes hauria donat
> errors. També es pot forçar un @ en comptes de *. Però així crec que és
> millor.
>
> Per a mi, aquest és el comportament ideal. No caldria res més. Ara hauríem
> de fer més proves, i afegir alguna regla més per a contexts semblants.
>
> Salutacions,
> Jaume Ortolà
>
>
> El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font <
>> hectora...@gmail.com> ha escrit:
>>
>>> De tota manera, afegir amb CG  una etiqueta especial o canviar
>>> l'etiqueta que hi hagi sembla complicat:
>>> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per
>>> poder generar el cognom sense que surti un #
>>>
>>
>> Sí, això pensava. Entenc que Aperitum no permet generar res que no
>> estigui definit en el diccionari de destinació. De totes maneres això seria
>> un plus. De moment n'hi hauria prou evitant les falses traduccions  de
>> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís
>> "Antonio *Taló", si pogués ser.
>>
>> Jaume
>>
>>
>>
>>> - Si el que es faci de CG és general per al tots els traductors que
>>> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
>>> amb català llengua d'origen de la traducció (i l'equivalent per a
>>> apertium-cat).
>>>
>>> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
>>> jaumeort...@gmail.com> ha escrit:
>>>
 Gràcies per la resposta, Hèctor.

 La nova versió ja està pràcticament tancada, i per tant ja no hi
 entrarien aquests canvis. Evidentment caldria provar-ho amb més temps.

 Les regles serien potents i caldria anar amb molt de compte. S'haurien
 de controlar molt bé tots els contextos. Jo ho veig factible. Pense en
 casos com:

 El señor *Subías* declara que... [Una paraula només reconeguda com a
 verb, en majúscula i voltada de minúscules].
 José María *Taló* García [Un verb en majúscula voltat d'antropònims]
 Luis *Almería* Martínez [Un topònim voltat d'antropònims]
 Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim]
 ...

 Ho provarem.

 Salutacions,
 Jaume Ortolà


 El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font <
 hectora...@gmail.com> ha escrit:

> Jaume,
>
> El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i
> a la fi, sembla que seria no traduir les paraules que comencen amb
> majúscula si van més o menys seguides d'altres amb majúscula (o seria
> obligatòriament en presència d'alguna paraula desconeguda que també va en
> majúscula?). El problema és que això fàcilment acabarà fent que Creu Roja 
> o

Re: [Apertium-catala] tractament de noms propis

2018-04-30 Thread Jaume Ortolà i Font
Bon dia,

He fet una petita prova, i de moment és prou satisfactòria. He posat en el
fitxer CG spa:

SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
(0C Verb OR N OR A) (0 MajIni);
#Posa com a lema la forma de la paraula marcada amb *
# Amb els adjectius hi ha més risc d'error (!)
REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
(0 MajIni);  # Això no sé si és útil.

Com a resultat tenim spa-cat:

Mónica *Naranjo   (era Mónica Taronger)
Alberto *Isla  (era Alberto Illa)
Juana *Corredera (era Juana Corredissa)
Enric *Morera   (era Enric Morera)
Moratal *Sastre(era Moratal Sastre)

Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i
Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè
casualment la traducció spa-cat coincideix; en altres idiomes hauria donat
errors. També es pot forçar un @ en comptes de *. Però així crec que és
millor.

Per a mi, aquest és el comportament ideal. No caldria res més. Ara hauríem
de fer més proves, i afegir alguna regla més per a contexts semblants.

Salutacions,
Jaume Ortolà


El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font <
> hectora...@gmail.com> ha escrit:
>
>> De tota manera, afegir amb CG  una etiqueta especial o canviar
>> l'etiqueta que hi hagi sembla complicat:
>> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder
>> generar el cognom sense que surti un #
>>
>
> Sí, això pensava. Entenc que Aperitum no permet generar res que no estigui
> definit en el diccionari de destinació. De totes maneres això seria un
> plus. De moment n'hi hauria prou evitant les falses traduccions  de l'estil
> "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís "Antonio
> *Taló", si pogués ser.
>
> Jaume
>
>
>
>> - Si el que es faci de CG és general per al tots els traductors que
>> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
>> amb català llengua d'origen de la traducció (i l'equivalent per a
>> apertium-cat).
>>
>> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> Gràcies per la resposta, Hèctor.
>>>
>>> La nova versió ja està pràcticament tancada, i per tant ja no hi
>>> entrarien aquests canvis. Evidentment caldria provar-ho amb més temps.
>>>
>>> Les regles serien potents i caldria anar amb molt de compte. S'haurien
>>> de controlar molt bé tots els contextos. Jo ho veig factible. Pense en
>>> casos com:
>>>
>>> El señor *Subías* declara que... [Una paraula només reconeguda com a
>>> verb, en majúscula i voltada de minúscules].
>>> José María *Taló* García [Un verb en majúscula voltat d'antropònims]
>>> Luis *Almería* Martínez [Un topònim voltat d'antropònims]
>>> Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim]
>>> ...
>>>
>>> Ho provarem.
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>> El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font <
>>> hectora...@gmail.com> ha escrit:
>>>
 Jaume,

 El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i a
 la fi, sembla que seria no traduir les paraules que comencen amb majúscula
 si van més o menys seguides d'altres amb majúscula (o seria obligatòriament
 en presència d'alguna paraula desconeguda que també va en majúscula?). El
 problema és que això fàcilment acabarà fent que Creu Roja o Alps
 Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra banda,
 hi ha el problema que Domingo Rojo pot ser un nom de persona, però també un
 fet històric. A més, si s'accepten coses com "Juan de Dios" com una unitat,
 el sistema per reconèixer antropònims per no traduir-los pot començar a
 agafar moltes coses que no ho són, per exemple Joan d'Àustria seguirà sent
 Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no ho veig gens
 clar.

 A priori, però, la manera d'implementar coses d'aquestes sembla que
 sigui CG. Allà hi ha regles que tracten paraules començades per majúscula.
 El que hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí
 caldria afegir alguna cosa que no hi és.

 En tot cas, a una setmana de posar en marxa una nova versió, sembla que
 estem parlant d'un canvi molt important que s'hauria de provar a fons.
 Potser que no sigui el moment de fer-ho ara per a aquesta versió.

 Cordialment,
 Hèctor

 El dia 24 d’abril de 2018 a les 15:28, Jaume Ortolà i Font <
 jaumeort...@gmail.com> ha escrit:

> Bon dia,
>
> Em pregunte si seria possible de fer algunes regles per al tractament
> de noms de persona (noms i cognoms). Per més cognoms que afegim als
> diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom 
> sempre
> està present. Acabe de fer una prova spa-cat amb una llista de 

Re: [Apertium-catala] tractament de noms propis

2018-04-24 Thread Hèctor Alòs i Font
Almenys en els tres primers casos semblen lògics. Potser també es podria
pensar en casos com Luis *Almería, *en què els casos en què un topònim
pugui anar just darrere d'un antropònim semblen rars (però el cas
contrari, *Almería
*Martínez, no funcionaria perquè topònim seguit d'antropònim sembla més
corrent: en *Almería *Martínez habló...).

De tota manera, afegir amb CG  una etiqueta especial o canviar l'etiqueta
que hi hagi sembla complicat:
- Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder
generar el cognom sense que surti un #
- Si el que es faci de CG és general per al tots els traductors que
utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
amb català llengua d'origen de la traducció (i l'equivalent per a
apertium-cat).

El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Gràcies per la resposta, Hèctor.
>
> La nova versió ja està pràcticament tancada, i per tant ja no hi entrarien
> aquests canvis. Evidentment caldria provar-ho amb més temps.
>
> Les regles serien potents i caldria anar amb molt de compte. S'haurien de
> controlar molt bé tots els contextos. Jo ho veig factible. Pense en casos
> com:
>
> El señor *Subías* declara que... [Una paraula només reconeguda com a
> verb, en majúscula i voltada de minúscules].
> José María *Taló* García [Un verb en majúscula voltat d'antropònims]
> Luis *Almería* Martínez [Un topònim voltat d'antropònims]
> Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim]
> ...
>
> Ho provarem.
>
> Salutacions,
> Jaume Ortolà
>
>
> El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font <
> hectora...@gmail.com> ha escrit:
>
>> Jaume,
>>
>> El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i a
>> la fi, sembla que seria no traduir les paraules que comencen amb majúscula
>> si van més o menys seguides d'altres amb majúscula (o seria obligatòriament
>> en presència d'alguna paraula desconeguda que també va en majúscula?). El
>> problema és que això fàcilment acabarà fent que Creu Roja o Alps
>> Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra banda,
>> hi ha el problema que Domingo Rojo pot ser un nom de persona, però també un
>> fet històric. A més, si s'accepten coses com "Juan de Dios" com una unitat,
>> el sistema per reconèixer antropònims per no traduir-los pot començar a
>> agafar moltes coses que no ho són, per exemple Joan d'Àustria seguirà sent
>> Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no ho veig gens
>> clar.
>>
>> A priori, però, la manera d'implementar coses d'aquestes sembla que sigui
>> CG. Allà hi ha regles que tracten paraules començades per majúscula. El que
>> hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí caldria
>> afegir alguna cosa que no hi és.
>>
>> En tot cas, a una setmana de posar en marxa una nova versió, sembla que
>> estem parlant d'un canvi molt important que s'hauria de provar a fons.
>> Potser que no sigui el moment de fer-ho ara per a aquesta versió.
>>
>> Cordialment,
>> Hèctor
>>
>> El dia 24 d’abril de 2018 a les 15:28, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> Bon dia,
>>>
>>> Em pregunte si seria possible de fer algunes regles per al tractament de
>>> noms de persona (noms i cognoms). Per més cognoms que afegim als
>>> diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom sempre
>>> està present. Acabe de fer una prova spa-cat amb una llista de 100 persones
>>> (nom i cognoms), i han eixit 14 traduccions falses, per diferents motius
>>> (alguns són topònims, paraules comunes, etc.) És un percentatge molt alt.
>>>
>>> Almeria
>>> Cirerer (Cerezo)
>>> Desemparats
>>> Plàcida
>>> Os (Hueso)
>>> Muntanyès
>>> el Campello (per Campello)
>>> Còrdova
>>> Diumenge roig (Domingo Rojo)
>>> Savina
>>> Francès
>>> Va talar (Taló)
>>> Juan de Déu
>>> Pujaves (Subías)
>>> Remeie (Remedio)
>>>
>>> Una solució és, evidentment, continuar afegint noms i cognoms als
>>> diccionaris i etiquetar-los correctament. Però això no s'acaba mai. Crec
>>> que es podrien fer algunes regles per a arreglar-ho. Conceptualment és
>>> senzill, però no sé si es pot implementar fàcilment.
>>>
>>> Si es troben 3-4 paraules seguides en majúscules, que són paraules
>>> desconegudes o barrejades amb noms propis, llavors no s'hauria de traduir
>>> cap paraula del grup i deixar-ho tal qual.
>>>
>>> O altres regles, ara pensant en paraules soltes. Per exemple, una
>>> paraula que només pot ser un verb (Subías, Taló, en espanyol) si està en
>>> majúscula en qualsevol lloc que no siga el principi de la frase, llavors no
>>> es tradueix. Etcètera.
>>>
>>> ¿Trobeu que té sentit fer aquestes regles? Ara, ¿es poden implementar?
>>> ¿En quin mòdul? Caldria poder detectar paraules en majúscula i indicar amb
>>> alguna marca "no traduïsques".
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>> 
>>> 

[Apertium-catala] tractament de noms propis

2018-04-24 Thread Jaume Ortolà i Font
Bon dia,

Em pregunte si seria possible de fer algunes regles per al tractament de
noms de persona (noms i cognoms). Per més cognoms que afegim als
diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom sempre
està present. Acabe de fer una prova spa-cat amb una llista de 100 persones
(nom i cognoms), i han eixit 14 traduccions falses, per diferents motius
(alguns són topònims, paraules comunes, etc.) És un percentatge molt alt.

Almeria
Cirerer (Cerezo)
Desemparats
Plàcida
Os (Hueso)
Muntanyès
el Campello (per Campello)
Còrdova
Diumenge roig (Domingo Rojo)
Savina
Francès
Va talar (Taló)
Juan de Déu
Pujaves (Subías)
Remeie (Remedio)

Una solució és, evidentment, continuar afegint noms i cognoms als
diccionaris i etiquetar-los correctament. Però això no s'acaba mai. Crec
que es podrien fer algunes regles per a arreglar-ho. Conceptualment és
senzill, però no sé si es pot implementar fàcilment.

Si es troben 3-4 paraules seguides en majúscules, que són paraules
desconegudes o barrejades amb noms propis, llavors no s'hauria de traduir
cap paraula del grup i deixar-ho tal qual.

O altres regles, ara pensant en paraules soltes. Per exemple, una paraula
que només pot ser un verb (Subías, Taló, en espanyol) si està en majúscula
en qualsevol lloc que no siga el principi de la frase, llavors no es
tradueix. Etcètera.

¿Trobeu que té sentit fer aquestes regles? Ara, ¿es poden implementar? ¿En
quin mòdul? Caldria poder detectar paraules en majúscula i indicar amb
alguna marca "no traduïsques".

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala