Almenys en els tres primers casos semblen lògics. Potser també es podria
pensar en casos com Luis *Almería, *en què els casos en què un topònim
pugui anar just darrere d'un antropònim semblen rars (però el cas
contrari, *Almería
*Martínez, no funcionaria perquè topònim seguit d'antropònim sembla més
corrent: en *Almería *Martínez habló...).
De tota manera, afegir amb CG una etiqueta especial o canviar l'etiqueta
que hi hagi sembla complicat:
- Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder
generar el cognom sense que surti un #
- Si el que es faci de CG és general per al tots els traductors que
utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
amb català llengua d'origen de la traducció (i l'equivalent per a
apertium-cat).
El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:
> Gràcies per la resposta, Hèctor.
>
> La nova versió ja està pràcticament tancada, i per tant ja no hi entrarien
> aquests canvis. Evidentment caldria provar-ho amb més temps.
>
> Les regles serien potents i caldria anar amb molt de compte. S'haurien de
> controlar molt bé tots els contextos. Jo ho veig factible. Pense en casos
> com:
>
> El señor *Subías* declara que... [Una paraula només reconeguda com a
> verb, en majúscula i voltada de minúscules].
> José María *Taló* García [Un verb en majúscula voltat d'antropònims]
> Luis *Almería* Martínez [Un topònim voltat d'antropònims]
> Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim]
> ...
>
> Ho provarem.
>
> Salutacions,
> Jaume Ortolà
>
>
> El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font <
> hectora...@gmail.com> ha escrit:
>
>> Jaume,
>>
>> El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i a
>> la fi, sembla que seria no traduir les paraules que comencen amb majúscula
>> si van més o menys seguides d'altres amb majúscula (o seria obligatòriament
>> en presència d'alguna paraula desconeguda que també va en majúscula?). El
>> problema és que això fàcilment acabarà fent que Creu Roja o Alps
>> Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra banda,
>> hi ha el problema que Domingo Rojo pot ser un nom de persona, però també un
>> fet històric. A més, si s'accepten coses com "Juan de Dios" com una unitat,
>> el sistema per reconèixer antropònims per no traduir-los pot començar a
>> agafar moltes coses que no ho són, per exemple Joan d'Àustria seguirà sent
>> Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no ho veig gens
>> clar.
>>
>> A priori, però, la manera d'implementar coses d'aquestes sembla que sigui
>> CG. Allà hi ha regles que tracten paraules començades per majúscula. El que
>> hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí caldria
>> afegir alguna cosa que no hi és.
>>
>> En tot cas, a una setmana de posar en marxa una nova versió, sembla que
>> estem parlant d'un canvi molt important que s'hauria de provar a fons.
>> Potser que no sigui el moment de fer-ho ara per a aquesta versió.
>>
>> Cordialment,
>> Hèctor
>>
>> El dia 24 d’abril de 2018 a les 15:28, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> Bon dia,
>>>
>>> Em pregunte si seria possible de fer algunes regles per al tractament de
>>> noms de persona (noms i cognoms). Per més cognoms que afegim als
>>> diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom sempre
>>> està present. Acabe de fer una prova spa-cat amb una llista de 100 persones
>>> (nom i cognoms), i han eixit 14 traduccions falses, per diferents motius
>>> (alguns són topònims, paraules comunes, etc.) És un percentatge molt alt.
>>>
>>> Almeria
>>> Cirerer (Cerezo)
>>> Desemparats
>>> Plàcida
>>> Os (Hueso)
>>> Muntanyès
>>> el Campello (per Campello)
>>> Còrdova
>>> Diumenge roig (Domingo Rojo)
>>> Savina
>>> Francès
>>> Va talar (Taló)
>>> Juan de Déu
>>> Pujaves (Subías)
>>> Remeie (Remedio)
>>>
>>> Una solució és, evidentment, continuar afegint noms i cognoms als
>>> diccionaris i etiquetar-los correctament. Però això no s'acaba mai. Crec
>>> que es podrien fer algunes regles per a arreglar-ho. Conceptualment és
>>> senzill, però no sé si es pot implementar fàcilment.
>>>
>>> Si es troben 3-4 paraules seguides en majúscules, que són paraules
>>> desconegudes o barrejades amb noms propis, llavors no s'hauria de traduir
>>> cap paraula del grup i deixar-ho tal qual.
>>>
>>> O altres regles, ara pensant en paraules soltes. Per exemple, una
>>> paraula que només pot ser un verb (Subías, Taló, en espanyol) si està en
>>> majúscula en qualsevol lloc que no siga el principi de la frase, llavors no
>>> es tradueix. Etcètera.
>>>
>>> ¿Trobeu que té sentit fer aquestes regles? Ara, ¿es poden implementar?
>>> ¿En quin mòdul? Caldria poder detectar paraules en majúscula i indicar amb
>>> alguna marca "no traduïsques".
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>> ------------------------------------------------------------
>>> ------------------
>>> Check out the vibrant tech community on one of the world's most
>>> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
>>> _______________________________________________
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>>>
>>
>
------------------------------------------------------------------------------
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot
_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala