Re: [Apertium-catala] cat>spa com>#cómo

2018-04-24 Thread Hèctor Alòs i Font
Hola Jaume,

Ara se'm fa una mica difícil mirar coses en el cat-spa perquè tinc canvis
en el cat esperant de pujar quan tanquis la versió. Vaig intentar pujar
només algunes cosetes de desambiguació, però no vaig veure com fer-ho sense
pujar també paraules noves.

Exactament, què vols desambiguar en spa>cat? No sembla que hi hagi res a
desambiguar entre "como" i "cómo". Quant a cat>spa, ja hi ha algunes regles
per fer-ho (busca 'Com' en el fitxer rlx, en trobaràs cap a la línia 530).
És un tema complicat perquè els interrogatius no són només en les frases
amb punt d'interrogació, sinó també, per exemple en "no sé com t'ho fas".

I realment funciona això:
   cómo  com
como  com
?

Com tradueix "como"? (spa>cat)


El dia 25 d’abril de 2018 a les 0:53, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> He trobat un problema prou important en la traducció cat>spa perquè és una
> paraula molt comuna.
>
> Tots els "com" eren traduïts per "#cómo", perquè el tagger deixava només
> l'etiqueta . que duia a  aquesta entrada:
>
>cómo  com
>
> De moment, ho he resolt canviant l'entrada per aquestes dues:
>
>cómo  com n="itg"/>
> como  com n="adv"/>
>
> Suposo que es podria desambiguar l'interrogatiu quan hi ha interrogants
> (?) en la frase.
>
> M'imagino que ací fallen altres coses (el tagger?). Ho dic per si algú sap
> com està aquesta qüestió.
>
> Salutacions,
> Jaume Ortolà
>
>
> 
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] cat>spa com>#cómo

2018-04-24 Thread Jaume Ortolà i Font
He trobat un problema prou important en la traducció cat>spa perquè és una
paraula molt comuna.

Tots els "com" eren traduïts per "#cómo", perquè el tagger deixava només
l'etiqueta . que duia a  aquesta entrada:

   cómo  com

De moment, ho he resolt canviant l'entrada per aquestes dues:

   cómo  com
como  com

Suposo que es podria desambiguar l'interrogatiu quan hi ha interrogants (?) en
la frase.

M'imagino que ací fallen altres coses (el tagger?). Ho dic per si algú sap
com està aquesta qüestió.

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] tractament de noms propis

2018-04-24 Thread Hèctor Alòs i Font
Almenys en els tres primers casos semblen lògics. Potser també es podria
pensar en casos com Luis *Almería, *en què els casos en què un topònim
pugui anar just darrere d'un antropònim semblen rars (però el cas
contrari, *Almería
*Martínez, no funcionaria perquè topònim seguit d'antropònim sembla més
corrent: en *Almería *Martínez habló...).

De tota manera, afegir amb CG  una etiqueta especial o canviar l'etiqueta
que hi hagi sembla complicat:
- Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder
generar el cognom sense que surti un #
- Si el que es faci de CG és general per al tots els traductors que
utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
amb català llengua d'origen de la traducció (i l'equivalent per a
apertium-cat).

El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Gràcies per la resposta, Hèctor.
>
> La nova versió ja està pràcticament tancada, i per tant ja no hi entrarien
> aquests canvis. Evidentment caldria provar-ho amb més temps.
>
> Les regles serien potents i caldria anar amb molt de compte. S'haurien de
> controlar molt bé tots els contextos. Jo ho veig factible. Pense en casos
> com:
>
> El señor *Subías* declara que... [Una paraula només reconeguda com a
> verb, en majúscula i voltada de minúscules].
> José María *Taló* García [Un verb en majúscula voltat d'antropònims]
> Luis *Almería* Martínez [Un topònim voltat d'antropònims]
> Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim]
> ...
>
> Ho provarem.
>
> Salutacions,
> Jaume Ortolà
>
>
> El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font <
> hectora...@gmail.com> ha escrit:
>
>> Jaume,
>>
>> El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i a
>> la fi, sembla que seria no traduir les paraules que comencen amb majúscula
>> si van més o menys seguides d'altres amb majúscula (o seria obligatòriament
>> en presència d'alguna paraula desconeguda que també va en majúscula?). El
>> problema és que això fàcilment acabarà fent que Creu Roja o Alps
>> Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra banda,
>> hi ha el problema que Domingo Rojo pot ser un nom de persona, però també un
>> fet històric. A més, si s'accepten coses com "Juan de Dios" com una unitat,
>> el sistema per reconèixer antropònims per no traduir-los pot començar a
>> agafar moltes coses que no ho són, per exemple Joan d'Àustria seguirà sent
>> Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no ho veig gens
>> clar.
>>
>> A priori, però, la manera d'implementar coses d'aquestes sembla que sigui
>> CG. Allà hi ha regles que tracten paraules començades per majúscula. El que
>> hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí caldria
>> afegir alguna cosa que no hi és.
>>
>> En tot cas, a una setmana de posar en marxa una nova versió, sembla que
>> estem parlant d'un canvi molt important que s'hauria de provar a fons.
>> Potser que no sigui el moment de fer-ho ara per a aquesta versió.
>>
>> Cordialment,
>> Hèctor
>>
>> El dia 24 d’abril de 2018 a les 15:28, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> Bon dia,
>>>
>>> Em pregunte si seria possible de fer algunes regles per al tractament de
>>> noms de persona (noms i cognoms). Per més cognoms que afegim als
>>> diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom sempre
>>> està present. Acabe de fer una prova spa-cat amb una llista de 100 persones
>>> (nom i cognoms), i han eixit 14 traduccions falses, per diferents motius
>>> (alguns són topònims, paraules comunes, etc.) És un percentatge molt alt.
>>>
>>> Almeria
>>> Cirerer (Cerezo)
>>> Desemparats
>>> Plàcida
>>> Os (Hueso)
>>> Muntanyès
>>> el Campello (per Campello)
>>> Còrdova
>>> Diumenge roig (Domingo Rojo)
>>> Savina
>>> Francès
>>> Va talar (Taló)
>>> Juan de Déu
>>> Pujaves (Subías)
>>> Remeie (Remedio)
>>>
>>> Una solució és, evidentment, continuar afegint noms i cognoms als
>>> diccionaris i etiquetar-los correctament. Però això no s'acaba mai. Crec
>>> que es podrien fer algunes regles per a arreglar-ho. Conceptualment és
>>> senzill, però no sé si es pot implementar fàcilment.
>>>
>>> Si es troben 3-4 paraules seguides en majúscules, que són paraules
>>> desconegudes o barrejades amb noms propis, llavors no s'hauria de traduir
>>> cap paraula del grup i deixar-ho tal qual.
>>>
>>> O altres regles, ara pensant en paraules soltes. Per exemple, una
>>> paraula que només pot ser un verb (Subías, Taló, en espanyol) si està en
>>> majúscula en qualsevol lloc que no siga el principi de la frase, llavors no
>>> es tradueix. Etcètera.
>>>
>>> ¿Trobeu que té sentit fer aquestes regles? Ara, ¿es poden implementar?
>>> ¿En quin mòdul? Caldria poder detectar paraules en majúscula i indicar amb
>>> alguna marca "no traduïsques".
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>> 
>>> 

[Apertium-catala] tractament de noms propis

2018-04-24 Thread Jaume Ortolà i Font
Bon dia,

Em pregunte si seria possible de fer algunes regles per al tractament de
noms de persona (noms i cognoms). Per més cognoms que afegim als
diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom sempre
està present. Acabe de fer una prova spa-cat amb una llista de 100 persones
(nom i cognoms), i han eixit 14 traduccions falses, per diferents motius
(alguns són topònims, paraules comunes, etc.) És un percentatge molt alt.

Almeria
Cirerer (Cerezo)
Desemparats
Plàcida
Os (Hueso)
Muntanyès
el Campello (per Campello)
Còrdova
Diumenge roig (Domingo Rojo)
Savina
Francès
Va talar (Taló)
Juan de Déu
Pujaves (Subías)
Remeie (Remedio)

Una solució és, evidentment, continuar afegint noms i cognoms als
diccionaris i etiquetar-los correctament. Però això no s'acaba mai. Crec
que es podrien fer algunes regles per a arreglar-ho. Conceptualment és
senzill, però no sé si es pot implementar fàcilment.

Si es troben 3-4 paraules seguides en majúscules, que són paraules
desconegudes o barrejades amb noms propis, llavors no s'hauria de traduir
cap paraula del grup i deixar-ho tal qual.

O altres regles, ara pensant en paraules soltes. Per exemple, una paraula
que només pot ser un verb (Subías, Taló, en espanyol) si està en majúscula
en qualsevol lloc que no siga el principi de la frase, llavors no es
tradueix. Etcètera.

¿Trobeu que té sentit fer aquestes regles? Ara, ¿es poden implementar? ¿En
quin mòdul? Caldria poder detectar paraules en majúscula i indicar amb
alguna marca "no traduïsques".

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala