Reenvio el missatge d'Hèctor i responc.

El dia 2 de maig de 2018 a les 19:33, Hèctor Alòs i Font <
hectora...@gmail.com> ha escrit:

> He pogut fer la prova. Els resultats són negatius. És millor no incloure
> la regla per al català (per al castellà, no sé). Fa més mal que bé.
>
> En un corpus de 5000 frases aleatòries de la Viquipèdia i traduint del
> català al francès, només he vist una millora: per a "Luis Firmin". En canvi
> ha espatllat: Alexandre Magne, sant Miquel Arcàngel, RESPOSTA AL VISITANT
> ("Al + Visitant"), Via Francisca Superior, Sant Antoni Abat, Justí Màrtir.
>

> Més complicats i més o menys tan nombrosos són una sèrie de casos que
> tenen a veure amb la Viquipèdia. Un exemple típic d'aquest tipus és:
>
> Mereixedor l'any 1980 del Premi Lletra d'Or; l'any 1982 de la Premi Creu
> de Sant Jordi Creu de Sant Jordi
>
Aquí el problema és la segona Creu, que es marca amb * per ser darrere de
> Jordi: "Premi Creu de Sant Jordi *Creu de Sant Jordi". Per descomptat, la
> frase és agramatical. És el resultat de "desviquitzar" l'article de la
> Viquipèdia. En un cas real, amb Wikimedia, no sé ben bé què passa.
> M'imagino que la parafernàlia de [[ ]] dels hipervincles estarà amagada en
> superblancs i, realment, el traductor deu rebre "frases" d'aquesta mena amb
> successions estranyes com "Creu de Sant Jordi Creu de Sant Jordi" que
> trenquen els nostres intents de desambiguació morfològica/anàlisi
> sintàctica. És un tema a estudiar, que supera el problema que ara mateix
> estem tractant.
>
> En tot cas, si no tenim en compte aquests casos (tot i que segurament
> hauríem), per 1 cosa arreglada en tenim com a mínim 6 d'espatllades.
>
> Per això, com deia, millor no afegir els canvis en apertium-cat.cat.rlx.
> Seria qüestió de comentar les dues regles que vaig posar de prova fa dos o
> tres dies.
>
> Aconsellaria fer la mateixa prova amb un corpus real amb la Viquipèdia en
> castellà. És possible que passi una cosa semblant.
>
>
No faig la mateixa avaluació d'aquests resultats.  Més aviat al contrari:
els veig positius.

En un comentari del codi jo deia que incloure els adjectius en la regla era
més arriscat. Però veient els teus resultats m'inclino per deixar-los.

Si es tradueix un adjectiu (o un nom) que acompanya un nom propi i el
resultat és correcte, és més aviat sort. Mira els casos que t'han eixit. En
francès el més normal és dir "Alexandre le Grand" i "Antoine le Grand" en
comptes de "Alexandre Grand" i "saint Antoine Abbé". També veig en un text
francès "Via Francisca Superior" (sembla un topònim) i no pas "Via
Francisca Supérieure".  Crec que podem relativitzar, doncs, que s'hagin
"espatllat" aquestes traduccions. És al contrari: la regla t'avisa que
probablement no estan bé.

I com es tradueix "Justí Màrtir"? El nom no es tradueix i el cognom sí?
Sincerament crec que és molt millor trobar-se "Justí *Màrtir" (amb avís de
possible error) que no "Justí Martyr" (sense avís, que pot fer que passem
per alt que cal escriure "Justin Martyr"). Els noms històrics s'han de
traduir sencers, no parcialment. En el cas d'Alexandre el nom coincideix,
casualment, en català i en francès. En cat>spa, m'estimo molt més
"Alejandro *Magno" que "Alejandro Magne".

"Al Visitant" no s'hauria d'haver espatllat perquè, encara que "Al" estigui
com a nom propi, no és solament nom propi. Això ja m'ho havia trobat jo
("Al Banco Central le incumben..."), i hauria d'estar arreglat. En castellà
va bé, però veig que en català falla. No sé per què. S'haurà de fer algun
retoc a la regla.

Jo vaig passar el corpus del Parlament europeu sencer (60 milions de
paraules). Forçant que la regla pose @ en comptes de *, veig exactament on
actua. La regla evita traduir un grapat considerable de cognoms. Només vaig
trobar dos problemes relacionats amb el format i la puntuació:

Bienvenida                          [Títol d'un apartat que coincideix amb
un nom propi de persona i s'enganxa amb la frase següent. Ja està resolt
per a aquesta paraula.]
*Quiero donar les gràcies a ...

Martínez de Bedoya- *Fondos de Cohesió [No entén el guió com a separador.
No està resolt.]

Jo de moment ho veig molt positiu. I crec que és important. Els traductors
automàtics ixen en la premsa i en els programes d'humor precisament per
aquestes coses, que tenen una solució raonable. Faré més proves amb text de
les wikipèdies catalana i espanyola.

Salutacions,
Jaume





> El dia 1 de maig de 2018 a les 19:22, Hèctor Alòs i Font <
> hectora...@gmail.com> ha escrit:
>
>> Dubto que això canviï res. Si canviés, voldria dir que la resta
>> d'expressions regulars que diferencien entre majúscules i minúscules i no
>> contenen <> no funcionarien. De tota manera, no puc ara mateix provar-ho
>> bé. La inclusió de l'etiqueta <ord> per a "primer", "segon", etc. m'està
>> fent petar tot. No havia entès que la introduíeu.
>>
>> El dia 1 de maig de 2018 a les 14:25, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> El dia 30 d’abril de 2018 a les 22:14, Jaume Ortolà i Font <
>>> jaumeort...@gmail.com> ha escrit:
>>>
>>>> Però ara tinc un problema. He intentat fer el mateix cat>spa i veig que
>>>> la regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan
>>>> s'espera Joan *Taronger). No sé què pot ser. Alguna cosa de configuració?
>>>> Algú ho pot provar?
>>>>
>>>
>>> He trobat el problema. Era això:
>>>
>>> https://github.com/apertium/apertium-cat/commit/e8ca41ca9bd8
>>> 6fead8246868c901a7e2dd386c55
>>>
>>> Cal mirar les majúscules en la forma de la paraula, no en el lema,
>>> perquè el lema de paraules comunes està en minúscules, almenys en el primer
>>> pas. El lema de "Taronger" és "taronger" en morph.
>>>
>>> Hèctor: ¿Pots tornar a fer el test cat>fra? La regla segurament no feia
>>> res.
>>>
>>> Jaume
>>>
>>>
>>
>
------------------------------------------------------------------------------
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot
_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Reply via email to