Re: [Apertium-catala] tractament de noms propis
Reenvio el missatge d'Hèctor i responc. El dia 2 de maig de 2018 a les 19:33, Hèctor Alòs i Font < hectora...@gmail.com> ha escrit: > He pogut fer la prova. Els resultats són negatius. És millor no incloure > la regla per al català (per al castellà, no sé). Fa més mal que bé. > > En un corpus de 5000 frases aleatòries de la Viquipèdia i traduint del > català al francès, només he vist una millora: per a "Luis Firmin". En canvi > ha espatllat: Alexandre Magne, sant Miquel Arcàngel, RESPOSTA AL VISITANT > ("Al + Visitant"), Via Francisca Superior, Sant Antoni Abat, Justí Màrtir. > > Més complicats i més o menys tan nombrosos són una sèrie de casos que > tenen a veure amb la Viquipèdia. Un exemple típic d'aquest tipus és: > > Mereixedor l'any 1980 del Premi Lletra d'Or; l'any 1982 de la Premi Creu > de Sant Jordi Creu de Sant Jordi > Aquí el problema és la segona Creu, que es marca amb * per ser darrere de > Jordi: "Premi Creu de Sant Jordi *Creu de Sant Jordi". Per descomptat, la > frase és agramatical. És el resultat de "desviquitzar" l'article de la > Viquipèdia. En un cas real, amb Wikimedia, no sé ben bé què passa. > M'imagino que la parafernàlia de [[ ]] dels hipervincles estarà amagada en > superblancs i, realment, el traductor deu rebre "frases" d'aquesta mena amb > successions estranyes com "Creu de Sant Jordi Creu de Sant Jordi" que > trenquen els nostres intents de desambiguació morfològica/anàlisi > sintàctica. És un tema a estudiar, que supera el problema que ara mateix > estem tractant. > > En tot cas, si no tenim en compte aquests casos (tot i que segurament > hauríem), per 1 cosa arreglada en tenim com a mínim 6 d'espatllades. > > Per això, com deia, millor no afegir els canvis en apertium-cat.cat.rlx. > Seria qüestió de comentar les dues regles que vaig posar de prova fa dos o > tres dies. > > Aconsellaria fer la mateixa prova amb un corpus real amb la Viquipèdia en > castellà. És possible que passi una cosa semblant. > > No faig la mateixa avaluació d'aquests resultats. Més aviat al contrari: els veig positius. En un comentari del codi jo deia que incloure els adjectius en la regla era més arriscat. Però veient els teus resultats m'inclino per deixar-los. Si es tradueix un adjectiu (o un nom) que acompanya un nom propi i el resultat és correcte, és més aviat sort. Mira els casos que t'han eixit. En francès el més normal és dir "Alexandre le Grand" i "Antoine le Grand" en comptes de "Alexandre Grand" i "saint Antoine Abbé". També veig en un text francès "Via Francisca Superior" (sembla un topònim) i no pas "Via Francisca Supérieure". Crec que podem relativitzar, doncs, que s'hagin "espatllat" aquestes traduccions. És al contrari: la regla t'avisa que probablement no estan bé. I com es tradueix "Justí Màrtir"? El nom no es tradueix i el cognom sí? Sincerament crec que és molt millor trobar-se "Justí *Màrtir" (amb avís de possible error) que no "Justí Martyr" (sense avís, que pot fer que passem per alt que cal escriure "Justin Martyr"). Els noms històrics s'han de traduir sencers, no parcialment. En el cas d'Alexandre el nom coincideix, casualment, en català i en francès. En cat>spa, m'estimo molt més "Alejandro *Magno" que "Alejandro Magne". "Al Visitant" no s'hauria d'haver espatllat perquè, encara que "Al" estigui com a nom propi, no és solament nom propi. Això ja m'ho havia trobat jo ("Al Banco Central le incumben..."), i hauria d'estar arreglat. En castellà va bé, però veig que en català falla. No sé per què. S'haurà de fer algun retoc a la regla. Jo vaig passar el corpus del Parlament europeu sencer (60 milions de paraules). Forçant que la regla pose @ en comptes de *, veig exactament on actua. La regla evita traduir un grapat considerable de cognoms. Només vaig trobar dos problemes relacionats amb el format i la puntuació: Bienvenida [Títol d'un apartat que coincideix amb un nom propi de persona i s'enganxa amb la frase següent. Ja està resolt per a aquesta paraula.] *Quiero donar les gràcies a ... Martínez de Bedoya- *Fondos de Cohesió [No entén el guió com a separador. No està resolt.] Jo de moment ho veig molt positiu. I crec que és important. Els traductors automàtics ixen en la premsa i en els programes d'humor precisament per aquestes coses, que tenen una solució raonable. Faré més proves amb text de les wikipèdies catalana i espanyola. Salutacions, Jaume > El dia 1 de maig de 2018 a les 19:22, Hèctor Alòs i Font < > hectora...@gmail.com> ha escrit: > >> Dubto que això canviï res. Si canviés, voldria dir que la resta >> d'expressions regulars que diferencien entre majúscules i minúscules i no >> contenen <> no funcionarien. De tota manera, no puc ara mateix provar-ho >> bé. La inclusió de l'etiqueta per a "primer", "segon", etc. m'està >> fent petar tot. No havia entès que la introduíeu. >> >> El dia 1 de maig de 2018 a les 14:25, Jaume Ortolà i Font < >> jaumeort...@gmail.com> ha escrit: >> >>> El dia 30 d’abril de 2018 a les 22:14,
Re: [Apertium-catala] tractament de noms propis
Dubto que això canviï res. Si canviés, voldria dir que la resta d'expressions regulars que diferencien entre majúscules i minúscules i no contenen <> no funcionarien. De tota manera, no puc ara mateix provar-ho bé. La inclusió de l'etiqueta per a "primer", "segon", etc. m'està fent petar tot. No havia entès que la introduíeu. El dia 1 de maig de 2018 a les 14:25, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > El dia 30 d’abril de 2018 a les 22:14, Jaume Ortolà i Font < > jaumeort...@gmail.com> ha escrit: > >> Però ara tinc un problema. He intentat fer el mateix cat>spa i veig que >> la regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan >> s'espera Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? >> Algú ho pot provar? >> > > He trobat el problema. Era això: > > https://github.com/apertium/apertium-cat/commit/e8ca41ca9bd8 > 6fead8246868c901a7e2dd386c55 > > Cal mirar les majúscules en la forma de la paraula, no en el lema, perquè > el lema de paraules comunes està en minúscules, almenys en el primer pas. > El lema de "Taronger" és "taronger" en morph. > > Hèctor: ¿Pots tornar a fer el test cat>fra? La regla segurament no feia > res. > > Jaume > > -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
Re: [Apertium-catala] tractament de noms propis
El dia 30 d’abril de 2018 a les 22:14, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Però ara tinc un problema. He intentat fer el mateix cat>spa i veig que la > regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan s'espera > Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? Algú ho > pot provar? > He trobat el problema. Era això: https://github.com/apertium/apertium-cat/commit/ e8ca41ca9bd86fead8246868c901a7e2dd386c55 Cal mirar les majúscules en la forma de la paraula, no en el lema, perquè el lema de paraules comunes està en minúscules, almenys en el primer pas. El lema de "Taronger" és "taronger" en morph. Hèctor: ¿Pots tornar a fer el test cat>fra? La regla segurament no feia res. Jaume -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
Re: [Apertium-catala] tractament de noms propis
El dia 30 d’abril de 2018 a les 19:59, Hèctor Alòs i Font < hectora...@gmail.com> ha escrit: > He posat aquestes regles a apertium-cat i les he provades traduint al > francès un corpus de 20.000 frases de la Viquipèdia catalana triades a > l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms > de reis, papes i aviram del ram (i les regles de selecció lèxica associades > al tema). He afegit un pedaç per què les regles no s'apliquin amb els > números romans: > Gràcies per provar-ho. Això dels números romans en spa-cat no passa perquè es marquen com a . En el fra-cat veig que es marquen com a adjectius. > SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant)) > (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans); > #Posa com a lema la forma de la paraula marcada amb * > # Amb els adjectius hi ha més risc d'error (!) > REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) > (0 MajIni) (NOT 0 segles_num_romans); # Això no sé si és útil. > > Després d'això, he tornat a traduir el corpus i comparar amb la traducció > feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet > res malbé, però també no s'ha arreglat res. Evidentment, en un corpus > periodístic amb més cognoms del país seria una altra historia. Cal dir > també que el el diccionari català tenim els 5000 cognoms més freqüents a > Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des > del català, especialment de textos del Principat. > Jo crec que serà útil. En spa-cat passa molt. Acabo de passar un llista de 500 persones de València (nom i 2 cognoms) i ixen 31 cognoms susceptibles d'haver estat "traduïts" spa>cat. Però ara tinc un problema. He intenta fer el mateix cat>spa i veig que la regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan s'espera Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? Algú ho pot provar? Jaume > > El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font < > jaumeort...@gmail.com> ha escrit: > >> Bon dia, >> >> He fet una petita prova, i de moment és prou satisfactòria. He posat en >> el fitxer CG spa: >> >> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C >> (ant)) (0C Verb OR N OR A) (0 MajIni); >> #Posa com a lema la forma de la paraula marcada amb * >> # Amb els adjectius hi ha més risc d'error (!) >> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) >> (0 MajIni); # Això no sé si és útil. >> >> Com a resultat tenim spa-cat: >> >> Mónica *Naranjo (era Mónica Taronger) >> Alberto *Isla (era Alberto Illa) >> Juana *Corredera (era Juana Corredissa) >> Enric *Morera (era Enric Morera) >> Moratal *Sastre(era Moratal Sastre) >> >> Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i >> Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè >> casualment la traducció spa-cat coincideix; en altres idiomes hauria donat >> errors. També es pot forçar un @ en comptes de *. Però així crec que és >> millor. >> >> Per a mi, aquest és el comportament ideal. No caldria res més. Ara >> hauríem de fer més proves, i afegir alguna regla més per a contexts >> semblants. >> >> Salutacions, >> Jaume Ortolà >> >> >> El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font < >> jaumeort...@gmail.com> ha escrit: >> >>> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font < >>> hectora...@gmail.com> ha escrit: >>> De tota manera, afegir amb CG una etiqueta especial o canviar l'etiqueta que hi hagi sembla complicat: - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder generar el cognom sense que surti un # >>> >>> Sí, això pensava. Entenc que Aperitum no permet generar res que no >>> estigui definit en el diccionari de destinació. De totes maneres això seria >>> un plus. De moment n'hi hauria prou evitant les falses traduccions de >>> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís >>> "Antonio *Taló", si pogués ser. >>> >>> Jaume >>> >>> >>> - Si el que es faci de CG és general per al tots els traductors que utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors amb català llengua d'origen de la traducció (i l'equivalent per a apertium-cat). El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Gràcies per la resposta, Hèctor. > > La nova versió ja està pràcticament tancada, i per tant ja no hi > entrarien aquests canvis. Evidentment caldria provar-ho amb més temps. > > Les regles serien potents i caldria anar amb molt de compte. S'haurien > de controlar molt bé tots els contextos. Jo ho veig factible. Pense en > casos com: > > El señor *Subías* declara que... [Una paraula només reconeguda com a > verb, en majúscula i voltada de minúscules]. > José María *Taló* García [Un verb en
Re: [Apertium-catala] tractament de noms propis
He posat aquestes regles a apertium-cat i les he provades traduint al francès un corpus de 20.000 frases de la Viquipèdia catalana triades a l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms de reis, papes i aviram del ram (i les regles de selecció lèxica associades al tema). He afegit un pedaç per què les regles no s'apliquin amb els números romans: SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant)) (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans); #Posa com a lema la forma de la paraula marcada amb * # Amb els adjectius hi ha més risc d'error (!) REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans); # Això no sé si és útil. Després d'això, he tornat a traduir el corpus i comparar amb la traducció feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet res malbé, però també no s'ha arreglat res. Evidentment, en un corpus periodístic amb més cognoms del país seria una altra historia. Cal dir també que el el diccionari català tenim els 5000 cognoms més freqüents a Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des del català, especialment de textos del Principat. Cordialment, Hèctor El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Bon dia, > > He fet una petita prova, i de moment és prou satisfactòria. He posat en el > fitxer CG spa: > > SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant)) > (0C Verb OR N OR A) (0 MajIni); > #Posa com a lema la forma de la paraula marcada amb * > # Amb els adjectius hi ha més risc d'error (!) > REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) > (0 MajIni); # Això no sé si és útil. > > Com a resultat tenim spa-cat: > > Mónica *Naranjo (era Mónica Taronger) > Alberto *Isla (era Alberto Illa) > Juana *Corredera (era Juana Corredissa) > Enric *Morera (era Enric Morera) > Moratal *Sastre(era Moratal Sastre) > > Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i > Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè > casualment la traducció spa-cat coincideix; en altres idiomes hauria donat > errors. També es pot forçar un @ en comptes de *. Però així crec que és > millor. > > Per a mi, aquest és el comportament ideal. No caldria res més. Ara hauríem > de fer més proves, i afegir alguna regla més per a contexts semblants. > > Salutacions, > Jaume Ortolà > > > El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font < > jaumeort...@gmail.com> ha escrit: > >> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font < >> hectora...@gmail.com> ha escrit: >> >>> De tota manera, afegir amb CG una etiqueta especial o canviar >>> l'etiqueta que hi hagi sembla complicat: >>> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per >>> poder generar el cognom sense que surti un # >>> >> >> Sí, això pensava. Entenc que Aperitum no permet generar res que no >> estigui definit en el diccionari de destinació. De totes maneres això seria >> un plus. De moment n'hi hauria prou evitant les falses traduccions de >> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís >> "Antonio *Taló", si pogués ser. >> >> Jaume >> >> >> >>> - Si el que es faci de CG és general per al tots els traductors que >>> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors >>> amb català llengua d'origen de la traducció (i l'equivalent per a >>> apertium-cat). >>> >>> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font < >>> jaumeort...@gmail.com> ha escrit: >>> Gràcies per la resposta, Hèctor. La nova versió ja està pràcticament tancada, i per tant ja no hi entrarien aquests canvis. Evidentment caldria provar-ho amb més temps. Les regles serien potents i caldria anar amb molt de compte. S'haurien de controlar molt bé tots els contextos. Jo ho veig factible. Pense en casos com: El señor *Subías* declara que... [Una paraula només reconeguda com a verb, en majúscula i voltada de minúscules]. José María *Taló* García [Un verb en majúscula voltat d'antropònims] Luis *Almería* Martínez [Un topònim voltat d'antropònims] Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim] ... Ho provarem. Salutacions, Jaume Ortolà El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font < hectora...@gmail.com> ha escrit: > Jaume, > > El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i > a la fi, sembla que seria no traduir les paraules que comencen amb > majúscula si van més o menys seguides d'altres amb majúscula (o seria > obligatòriament en presència d'alguna paraula desconeguda que també va en > majúscula?). El problema és que això fàcilment acabarà fent que Creu Roja > o
Re: [Apertium-catala] tractament de noms propis
Bon dia, He fet una petita prova, i de moment és prou satisfactòria. He posat en el fitxer CG spa: SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant)) (0C Verb OR N OR A) (0 MajIni); #Posa com a lema la forma de la paraula marcada amb * # Amb els adjectius hi ha més risc d'error (!) REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A) (0 MajIni); # Això no sé si és útil. Com a resultat tenim spa-cat: Mónica *Naranjo (era Mónica Taronger) Alberto *Isla (era Alberto Illa) Juana *Corredera (era Juana Corredissa) Enric *Morera (era Enric Morera) Moratal *Sastre(era Moratal Sastre) Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè casualment la traducció spa-cat coincideix; en altres idiomes hauria donat errors. També es pot forçar un @ en comptes de *. Però així crec que és millor. Per a mi, aquest és el comportament ideal. No caldria res més. Ara hauríem de fer més proves, i afegir alguna regla més per a contexts semblants. Salutacions, Jaume Ortolà El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font < > hectora...@gmail.com> ha escrit: > >> De tota manera, afegir amb CG una etiqueta especial o canviar >> l'etiqueta que hi hagi sembla complicat: >> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder >> generar el cognom sense que surti un # >> > > Sí, això pensava. Entenc que Aperitum no permet generar res que no estigui > definit en el diccionari de destinació. De totes maneres això seria un > plus. De moment n'hi hauria prou evitant les falses traduccions de l'estil > "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís "Antonio > *Taló", si pogués ser. > > Jaume > > > >> - Si el que es faci de CG és general per al tots els traductors que >> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors >> amb català llengua d'origen de la traducció (i l'equivalent per a >> apertium-cat). >> >> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font < >> jaumeort...@gmail.com> ha escrit: >> >>> Gràcies per la resposta, Hèctor. >>> >>> La nova versió ja està pràcticament tancada, i per tant ja no hi >>> entrarien aquests canvis. Evidentment caldria provar-ho amb més temps. >>> >>> Les regles serien potents i caldria anar amb molt de compte. S'haurien >>> de controlar molt bé tots els contextos. Jo ho veig factible. Pense en >>> casos com: >>> >>> El señor *Subías* declara que... [Una paraula només reconeguda com a >>> verb, en majúscula i voltada de minúscules]. >>> José María *Taló* García [Un verb en majúscula voltat d'antropònims] >>> Luis *Almería* Martínez [Un topònim voltat d'antropònims] >>> Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim] >>> ... >>> >>> Ho provarem. >>> >>> Salutacions, >>> Jaume Ortolà >>> >>> >>> El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font < >>> hectora...@gmail.com> ha escrit: >>> Jaume, El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i a la fi, sembla que seria no traduir les paraules que comencen amb majúscula si van més o menys seguides d'altres amb majúscula (o seria obligatòriament en presència d'alguna paraula desconeguda que també va en majúscula?). El problema és que això fàcilment acabarà fent que Creu Roja o Alps Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra banda, hi ha el problema que Domingo Rojo pot ser un nom de persona, però també un fet històric. A més, si s'accepten coses com "Juan de Dios" com una unitat, el sistema per reconèixer antropònims per no traduir-los pot començar a agafar moltes coses que no ho són, per exemple Joan d'Àustria seguirà sent Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no ho veig gens clar. A priori, però, la manera d'implementar coses d'aquestes sembla que sigui CG. Allà hi ha regles que tracten paraules començades per majúscula. El que hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí caldria afegir alguna cosa que no hi és. En tot cas, a una setmana de posar en marxa una nova versió, sembla que estem parlant d'un canvi molt important que s'hauria de provar a fons. Potser que no sigui el moment de fer-ho ara per a aquesta versió. Cordialment, Hèctor El dia 24 d’abril de 2018 a les 15:28, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Bon dia, > > Em pregunte si seria possible de fer algunes regles per al tractament > de noms de persona (noms i cognoms). Per més cognoms que afegim als > diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom > sempre > està present. Acabe de fer una prova spa-cat amb una llista de
Re: [Apertium-catala] tractament de noms propis
Almenys en els tres primers casos semblen lògics. Potser també es podria pensar en casos com Luis *Almería, *en què els casos en què un topònim pugui anar just darrere d'un antropònim semblen rars (però el cas contrari, *Almería *Martínez, no funcionaria perquè topònim seguit d'antropònim sembla més corrent: en *Almería *Martínez habló...). De tota manera, afegir amb CG una etiqueta especial o canviar l'etiqueta que hi hagi sembla complicat: - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder generar el cognom sense que surti un # - Si el que es faci de CG és general per al tots els traductors que utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors amb català llengua d'origen de la traducció (i l'equivalent per a apertium-cat). El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font < jaumeort...@gmail.com> ha escrit: > Gràcies per la resposta, Hèctor. > > La nova versió ja està pràcticament tancada, i per tant ja no hi entrarien > aquests canvis. Evidentment caldria provar-ho amb més temps. > > Les regles serien potents i caldria anar amb molt de compte. S'haurien de > controlar molt bé tots els contextos. Jo ho veig factible. Pense en casos > com: > > El señor *Subías* declara que... [Una paraula només reconeguda com a > verb, en majúscula i voltada de minúscules]. > José María *Taló* García [Un verb en majúscula voltat d'antropònims] > Luis *Almería* Martínez [Un topònim voltat d'antropònims] > Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim] > ... > > Ho provarem. > > Salutacions, > Jaume Ortolà > > > El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font < > hectora...@gmail.com> ha escrit: > >> Jaume, >> >> El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i a >> la fi, sembla que seria no traduir les paraules que comencen amb majúscula >> si van més o menys seguides d'altres amb majúscula (o seria obligatòriament >> en presència d'alguna paraula desconeguda que també va en majúscula?). El >> problema és que això fàcilment acabarà fent que Creu Roja o Alps >> Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra banda, >> hi ha el problema que Domingo Rojo pot ser un nom de persona, però també un >> fet històric. A més, si s'accepten coses com "Juan de Dios" com una unitat, >> el sistema per reconèixer antropònims per no traduir-los pot començar a >> agafar moltes coses que no ho són, per exemple Joan d'Àustria seguirà sent >> Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no ho veig gens >> clar. >> >> A priori, però, la manera d'implementar coses d'aquestes sembla que sigui >> CG. Allà hi ha regles que tracten paraules començades per majúscula. El que >> hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí caldria >> afegir alguna cosa que no hi és. >> >> En tot cas, a una setmana de posar en marxa una nova versió, sembla que >> estem parlant d'un canvi molt important que s'hauria de provar a fons. >> Potser que no sigui el moment de fer-ho ara per a aquesta versió. >> >> Cordialment, >> Hèctor >> >> El dia 24 d’abril de 2018 a les 15:28, Jaume Ortolà i Font < >> jaumeort...@gmail.com> ha escrit: >> >>> Bon dia, >>> >>> Em pregunte si seria possible de fer algunes regles per al tractament de >>> noms de persona (noms i cognoms). Per més cognoms que afegim als >>> diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom sempre >>> està present. Acabe de fer una prova spa-cat amb una llista de 100 persones >>> (nom i cognoms), i han eixit 14 traduccions falses, per diferents motius >>> (alguns són topònims, paraules comunes, etc.) És un percentatge molt alt. >>> >>> Almeria >>> Cirerer (Cerezo) >>> Desemparats >>> Plàcida >>> Os (Hueso) >>> Muntanyès >>> el Campello (per Campello) >>> Còrdova >>> Diumenge roig (Domingo Rojo) >>> Savina >>> Francès >>> Va talar (Taló) >>> Juan de Déu >>> Pujaves (Subías) >>> Remeie (Remedio) >>> >>> Una solució és, evidentment, continuar afegint noms i cognoms als >>> diccionaris i etiquetar-los correctament. Però això no s'acaba mai. Crec >>> que es podrien fer algunes regles per a arreglar-ho. Conceptualment és >>> senzill, però no sé si es pot implementar fàcilment. >>> >>> Si es troben 3-4 paraules seguides en majúscules, que són paraules >>> desconegudes o barrejades amb noms propis, llavors no s'hauria de traduir >>> cap paraula del grup i deixar-ho tal qual. >>> >>> O altres regles, ara pensant en paraules soltes. Per exemple, una >>> paraula que només pot ser un verb (Subías, Taló, en espanyol) si està en >>> majúscula en qualsevol lloc que no siga el principi de la frase, llavors no >>> es tradueix. Etcètera. >>> >>> ¿Trobeu que té sentit fer aquestes regles? Ara, ¿es poden implementar? >>> ¿En quin mòdul? Caldria poder detectar paraules en majúscula i indicar amb >>> alguna marca "no traduïsques". >>> >>> Salutacions, >>> Jaume Ortolà >>> >>> >>> >>>
[Apertium-catala] tractament de noms propis
Bon dia, Em pregunte si seria possible de fer algunes regles per al tractament de noms de persona (noms i cognoms). Per més cognoms que afegim als diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom sempre està present. Acabe de fer una prova spa-cat amb una llista de 100 persones (nom i cognoms), i han eixit 14 traduccions falses, per diferents motius (alguns són topònims, paraules comunes, etc.) És un percentatge molt alt. Almeria Cirerer (Cerezo) Desemparats Plàcida Os (Hueso) Muntanyès el Campello (per Campello) Còrdova Diumenge roig (Domingo Rojo) Savina Francès Va talar (Taló) Juan de Déu Pujaves (Subías) Remeie (Remedio) Una solució és, evidentment, continuar afegint noms i cognoms als diccionaris i etiquetar-los correctament. Però això no s'acaba mai. Crec que es podrien fer algunes regles per a arreglar-ho. Conceptualment és senzill, però no sé si es pot implementar fàcilment. Si es troben 3-4 paraules seguides en majúscules, que són paraules desconegudes o barrejades amb noms propis, llavors no s'hauria de traduir cap paraula del grup i deixar-ho tal qual. O altres regles, ara pensant en paraules soltes. Per exemple, una paraula que només pot ser un verb (Subías, Taló, en espanyol) si està en majúscula en qualsevol lloc que no siga el principi de la frase, llavors no es tradueix. Etcètera. ¿Trobeu que té sentit fer aquestes regles? Ara, ¿es poden implementar? ¿En quin mòdul? Caldria poder detectar paraules en majúscula i indicar amb alguna marca "no traduïsques". Salutacions, Jaume Ortolà -- Check out the vibrant tech community on one of the world's most engaging tech sites, Slashdot.org! http://sdm.link/slashdot___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala