Re: [Apertium-catala] tractament de noms propis
El dia 30 d’abril de 2018 a les 19:59, Hèctor Alòs i Font < hectora...@gmail.com> ha escrit: > He posat aquestes regles a apertium-cat i les he provades traduint al > francès un corpus de 20.000 frases de la Viquipèdia catalana triades a > l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms > de reis, papes i aviram del ram (i les regles de selecció lèxica associades > al tema). He afegit un pedaç per què les regles no s'apliquin amb els > números romans: > Gràcies per provar-ho. Això dels números romans en spa-cat no passa perquè es marquen com a . En el fra-cat veig que es marquen com a adjectius. > SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant)) > (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans); > #Posa com a lema la forma de la paraula marcada amb * > # Amb els adjectius hi ha més risc d'error (!) > REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) > (0 MajIni) (NOT 0 segles_num_romans); # Això no sé si és útil. > > Després d'això, he tornat a traduir el corpus i comparar amb la traducció > feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet > res malbé, però també no s'ha arreglat res. Evidentment, en un corpus > periodístic amb més cognoms del país seria una altra historia. Cal dir > també que el el diccionari català tenim els 5000 cognoms més freqüents a > Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des > del català, especialment de textos del Principat. > Jo crec que serà útil. En spa-cat passa molt. Acabo de passar un llista de 500 persones de València (nom i 2 cognoms) i ixen 31 cognoms susceptibles d'haver estat "traduïts" spa>cat. Però ara tinc un problema. He intenta fer el mateix cat>spa i veig que la regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan s'espera Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? Algú ho pot provar? Jaume > > El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font < > jaumeort...@gmail.com> ha escrit: > >> Bon dia, >> >> He fet una petita prova, i de moment és prou satisfactòria. He posat en >> el fitxer CG spa: >> >> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C >> (ant)) (0C Verb OR N OR A) (0 MajIni); >> #Posa com a lema la forma de la paraula marcada amb * >> # Amb els adjectius hi ha més risc d'error (!) >> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) >> (0 MajIni); # Això no sé si és útil. >> >> Com a resultat tenim spa-cat: >> >> Mónica *Naranjo (era Mónica Taronger) >> Alberto *Isla (era Alberto Illa) >> Juana *Corredera (era Juana Corredissa) >> Enric *Morera (era Enric Morera) >> Moratal *Sastre(era Moratal Sastre) >> >> Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i >> Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè >> casualment la traducció spa-cat coincideix; en altres idiomes hauria donat >> errors. També es pot forçar un @ en comptes de *. Però així crec que és >> millor. >> >> Per a mi, aquest és el comportament ideal. No caldria res més. Ara >> hauríem de fer més proves, i afegir alguna regla més per a contexts >> semblants. >> >> Salutacions, >> Jaume Ortolà >> >> >> El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font < >> jaumeort...@gmail.com> ha escrit: >> >>> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font < >>> hectora...@gmail.com> ha escrit: >>> De tota manera, afegir amb CG una etiqueta especial o canviar l'etiqueta que hi hagi sembla complicat: - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder generar el cognom sense que surti un # >>> >>> Sí, això pensava. Entenc que Aperitum no permet generar res que no >>> estigui definit en el diccionari de destinació. De totes maneres això seria >>> un plus. De moment n'hi hauria prou evitant les falses traduccions de >>> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís >>> "Antonio *Taló", si pogués ser. >>> >>> Jaume >>> >>> >>> - Si el que es faci de CG és general per al tots els traductors que utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors amb català llengua d'origen de la traducció (i l'equivalent per a apertium-cat). El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Gràcies per la resposta, Hèctor. > > La nova versió ja està pràcticament tancada, i per tant ja no hi > entrarien aquests canvis. Evidentment caldria provar-ho amb més temps. > > Les regles serien potents i caldria anar amb molt de compte. S'haurien > de controlar molt bé tots els contextos. Jo ho veig factible. Pense en > casos com: > > El señor *Subías* declara que... [Una paraula només reconeguda com a > verb, en majúscula i voltada de minúscules]. > José María *Taló* García [Un verb en
Re: [Apertium-catala] tractament de noms propis
He posat aquestes regles a apertium-cat i les he provades traduint al francès un corpus de 20.000 frases de la Viquipèdia catalana triades a l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms de reis, papes i aviram del ram (i les regles de selecció lèxica associades al tema). He afegit un pedaç per què les regles no s'apliquin amb els números romans: SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant)) (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans); #Posa com a lema la forma de la paraula marcada amb * # Amb els adjectius hi ha més risc d'error (!) REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans); # Això no sé si és útil. Després d'això, he tornat a traduir el corpus i comparar amb la traducció feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet res malbé, però també no s'ha arreglat res. Evidentment, en un corpus periodístic amb més cognoms del país seria una altra historia. Cal dir també que el el diccionari català tenim els 5000 cognoms més freqüents a Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des del català, especialment de textos del Principat. Cordialment, Hèctor El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Bon dia, > > He fet una petita prova, i de moment és prou satisfactòria. He posat en el > fitxer CG spa: > > SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant)) > (0C Verb OR N OR A) (0 MajIni); > #Posa com a lema la forma de la paraula marcada amb * > # Amb els adjectius hi ha més risc d'error (!) > REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) > (0 MajIni); # Això no sé si és útil. > > Com a resultat tenim spa-cat: > > Mónica *Naranjo (era Mónica Taronger) > Alberto *Isla (era Alberto Illa) > Juana *Corredera (era Juana Corredissa) > Enric *Morera (era Enric Morera) > Moratal *Sastre(era Moratal Sastre) > > Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i > Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè > casualment la traducció spa-cat coincideix; en altres idiomes hauria donat > errors. També es pot forçar un @ en comptes de *. Però així crec que és > millor. > > Per a mi, aquest és el comportament ideal. No caldria res més. Ara hauríem > de fer més proves, i afegir alguna regla més per a contexts semblants. > > Salutacions, > Jaume Ortolà > > > El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font < > jaumeort...@gmail.com> ha escrit: > >> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font < >> hectora...@gmail.com> ha escrit: >> >>> De tota manera, afegir amb CG una etiqueta especial o canviar >>> l'etiqueta que hi hagi sembla complicat: >>> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per >>> poder generar el cognom sense que surti un # >>> >> >> Sí, això pensava. Entenc que Aperitum no permet generar res que no >> estigui definit en el diccionari de destinació. De totes maneres això seria >> un plus. De moment n'hi hauria prou evitant les falses traduccions de >> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís >> "Antonio *Taló", si pogués ser. >> >> Jaume >> >> >> >>> - Si el que es faci de CG és general per al tots els traductors que >>> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors >>> amb català llengua d'origen de la traducció (i l'equivalent per a >>> apertium-cat). >>> >>> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font < >>> jaumeort...@gmail.com> ha escrit: >>> Gràcies per la resposta, Hèctor. La nova versió ja està pràcticament tancada, i per tant ja no hi entrarien aquests canvis. Evidentment caldria provar-ho amb més temps. Les regles serien potents i caldria anar amb molt de compte. S'haurien de controlar molt bé tots els contextos. Jo ho veig factible. Pense en casos com: El señor *Subías* declara que... [Una paraula només reconeguda com a verb, en majúscula i voltada de minúscules]. José María *Taló* García [Un verb en majúscula voltat d'antropònims] Luis *Almería* Martínez [Un topònim voltat d'antropònims] Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim] ... Ho provarem. Salutacions, Jaume Ortolà El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font < hectora...@gmail.com> ha escrit: > Jaume, > > El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i > a la fi, sembla que seria no traduir les paraules que comencen amb > majúscula si van més o menys seguides d'altres amb majúscula (o seria > obligatòriament en presència d'alguna paraula desconeguda que també va en > majúscula?). El problema és que això fàcilment acabarà fent que Creu Roja > o
Re: [Apertium-catala] tractament de noms propis
Bon dia, He fet una petita prova, i de moment és prou satisfactòria. He posat en el fitxer CG spa: SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant)) (0C Verb OR N OR A) (0 MajIni); #Posa com a lema la forma de la paraula marcada amb * # Amb els adjectius hi ha més risc d'error (!) REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) (0 MajIni); # Això no sé si és útil. Com a resultat tenim spa-cat: Mónica *Naranjo (era Mónica Taronger) Alberto *Isla (era Alberto Illa) Juana *Corredera (era Juana Corredissa) Enric *Morera (era Enric Morera) Moratal *Sastre(era Moratal Sastre) Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè casualment la traducció spa-cat coincideix; en altres idiomes hauria donat errors. També es pot forçar un @ en comptes de *. Però així crec que és millor. Per a mi, aquest és el comportament ideal. No caldria res més. Ara hauríem de fer més proves, i afegir alguna regla més per a contexts semblants. Salutacions, Jaume Ortolà El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font < > hectora...@gmail.com> ha escrit: > >> De tota manera, afegir amb CG una etiqueta especial o canviar >> l'etiqueta que hi hagi sembla complicat: >> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder >> generar el cognom sense que surti un # >> > > Sí, això pensava. Entenc que Aperitum no permet generar res que no estigui > definit en el diccionari de destinació. De totes maneres això seria un > plus. De moment n'hi hauria prou evitant les falses traduccions de l'estil > "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís "Antonio > *Taló", si pogués ser. > > Jaume > > > >> - Si el que es faci de CG és general per al tots els traductors que >> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors >> amb català llengua d'origen de la traducció (i l'equivalent per a >> apertium-cat). >> >> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font < >> jaumeort...@gmail.com> ha escrit: >> >>> Gràcies per la resposta, Hèctor. >>> >>> La nova versió ja està pràcticament tancada, i per tant ja no hi >>> entrarien aquests canvis. Evidentment caldria provar-ho amb més temps. >>> >>> Les regles serien potents i caldria anar amb molt de compte. S'haurien >>> de controlar molt bé tots els contextos. Jo ho veig factible. Pense en >>> casos com: >>> >>> El señor *Subías* declara que... [Una paraula només reconeguda com a >>> verb, en majúscula i voltada de minúscules]. >>> José María *Taló* García [Un verb en majúscula voltat d'antropònims] >>> Luis *Almería* Martínez [Un topònim voltat d'antropònims] >>> Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim] >>> ... >>> >>> Ho provarem. >>> >>> Salutacions, >>> Jaume Ortolà >>> >>> >>> El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font < >>> hectora...@gmail.com> ha escrit: >>> Jaume, El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i a la fi, sembla que seria no traduir les paraules que comencen amb majúscula si van més o menys seguides d'altres amb majúscula (o seria obligatòriament en presència d'alguna paraula desconeguda que també va en majúscula?). El problema és que això fàcilment acabarà fent que Creu Roja o Alps Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra banda, hi ha el problema que Domingo Rojo pot ser un nom de persona, però també un fet històric. A més, si s'accepten coses com "Juan de Dios" com una unitat, el sistema per reconèixer antropònims per no traduir-los pot començar a agafar moltes coses que no ho són, per exemple Joan d'Àustria seguirà sent Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no ho veig gens clar. A priori, però, la manera d'implementar coses d'aquestes sembla que sigui CG. Allà hi ha regles que tracten paraules començades per majúscula. El que hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí caldria afegir alguna cosa que no hi és. En tot cas, a una setmana de posar en marxa una nova versió, sembla que estem parlant d'un canvi molt important que s'hauria de provar a fons. Potser que no sigui el moment de fer-ho ara per a aquesta versió. Cordialment, Hèctor El dia 24 d’abril de 2018 a les 15:28, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Bon dia, > > Em pregunte si seria possible de fer algunes regles per al tractament > de noms de persona (noms i cognoms). Per més cognoms que afegim als > diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom > sempre > està present. Acabe de fer una prova spa-cat amb una llista de