Re: [Apertium-catala] Municipis francesos
Missatge de Jaume Ortolà i Font del dia dv., 14 de febr. 2020 a les 11:31: > Missatge de Hèctor Alòs i Font del dia dv., 14 de > febr. 2020 a les 7:01: > >> De tota manera, aquí és més complicat que el cas del sistema per detectar >> antropònims desconeguts d'apertium-cat. El problema és que coses com >> Sainte-Marie-de-Gosse són quatre paraules perquè el guionet es tracta com a >> separador de paraules. Per tant, seguint la mateixa idea, caldria marcar >> totes quatre paraules per a impedir-ne la traducció. A més, per a més >> seguretat, voldria assegurar-me que el separador de paraules és un guionet >> i no un blanc, i no sé com accedir a aquesta informació en CG. Caldrà >> demanar-li-ho a en Tino (per la mateixa raó, no sé com canviar el guionet a >> un blanc en coses com "rue Victor-Hugo"). >> > > Jo ho vaig fer servir en el fitxer spa.rlx.[1] Els caràcters que no entren > dins dels tokens (p. ex. guions i guionets) queden en un espai que es diu > "meta". > > [1] > https://github.com/apertium/apertium-spa/blob/master/apertium-spa.spa.rlx#L231 > Perfecte! És justament el que buscava. Moltes gràcies! Hèctor ___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
Re: [Apertium-catala] Municipis francesos
Missatge de Hèctor Alòs i Font del dia dv., 14 de febr. 2020 a les 7:01: > De tota manera, aquí és més complicat que el cas del sistema per detectar > antropònims desconeguts d'apertium-cat. El problema és que coses com > Sainte-Marie-de-Gosse són quatre paraules perquè el guionet es tracta com a > separador de paraules. Per tant, seguint la mateixa idea, caldria marcar > totes quatre paraules per a impedir-ne la traducció. A més, per a més > seguretat, voldria assegurar-me que el separador de paraules és un guionet > i no un blanc, i no sé com accedir a aquesta informació en CG. Caldrà > demanar-li-ho a en Tino (per la mateixa raó, no sé com canviar el guionet a > un blanc en coses com "rue Victor-Hugo"). > Jo ho vaig fer servir en el fitxer spa.rlx.[1] Els caràcters que no entren dins dels tokens (p. ex. guions i guionets) queden en un espai que es diu "meta". [1] https://github.com/apertium/apertium-spa/blob/master/apertium-spa.spa.rlx#L231 En resum, per a topònims i antropònims, crec que val la pena afegir-los > massivament als diccionaris, especialment quan tractes llengües mínimament > més distants que el català i el castellà. > Per mi, avant. Afegeix el que creguis necessari. No serà un problema per als altres parells. Jaume Ortolà ___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
Re: [Apertium-catala] Municipis francesos
Certament, afegint topònims o antropònims no acabaríem mai. I arriba un punt en què això té una utilitat baixa. Si l'objectiu és evitar traduccions indesitjables de noms propis, potser es pot arreglar aplicant algunes regles de CG com les que tenim en spa-cat. Aquestes regles el que fan és no traduir certes paraules que, pel context, poden ser noms propis. Pots copiar les mateixes regles, i afegir-ne alguna més (com ara per a aquests típics noms francesos: Saint-..., ...-de-..., ...-sur-...). Aquests noms apareixeran marcats amb *, però val més això que no una traducció absurda. Salutacions, Jaume Ortolà Missatge de Hèctor Alòs i Font del dia dj., 13 de febr. 2020 a les 23:05: > He afegit al traductor fra-cat i por-cat els municipis de Catalunya i el > País Valencià recollits a les taules Excel d'apertium-cat i que ja estaven > en el diccionari monolingüe català (n'hi ha que són a les taules, però no > al diccionari). No representa cap problema afegir-los als altres > diccionaris perquè només són uns 1500. > > El problema és l'invers. Estic en disposició de carregar tots els > municipis de l'Estat francès, però són uns 80.000. El diccionari monolingüe > català té ara uns 110.000 lemes, amb la qual cosa gairebé el duplicaria per > a un ús nul en altres traductors automàtics basats en el català. Alentiria > les compilacions de tothom, etc. Però sense afegir aquests municipis tinc > traduccions ridícules com: > > echo "Sainte-Marie-de-Gosse" | apertium -d . fra-cat > Santa-Maria-de-Marrec > > Idees? > > Hèctor > ___ > Apertium-catala mailing list > Apertium-catala@lists.sourceforge.net > https://lists.sourceforge.net/lists/listinfo/apertium-catala > ___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala
[Apertium-catala] Municipis francesos
He afegit al traductor fra-cat i por-cat els municipis de Catalunya i el País Valencià recollits a les taules Excel d'apertium-cat i que ja estaven en el diccionari monolingüe català (n'hi ha que són a les taules, però no al diccionari). No representa cap problema afegir-los als altres diccionaris perquè només són uns 1500. El problema és l'invers. Estic en disposició de carregar tots els municipis de l'Estat francès, però són uns 80.000. El diccionari monolingüe català té ara uns 110.000 lemes, amb la qual cosa gairebé el duplicaria per a un ús nul en altres traductors automàtics basats en el català. Alentiria les compilacions de tothom, etc. Però sense afegir aquests municipis tinc traduccions ridícules com: echo "Sainte-Marie-de-Gosse" | apertium -d . fra-cat Santa-Maria-de-Marrec Idees? Hèctor ___ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala