Re: [Apertium-catala] Municipis francesos

2020-02-14 Thread Hèctor Alòs i Font
Missatge de Jaume Ortolà i Font  del dia dv., 14 de
febr. 2020 a les 11:31:

> Missatge de Hèctor Alòs i Font  del dia dv., 14 de
> febr. 2020 a les 7:01:
>
>> De tota manera, aquí és més complicat que el cas del sistema per detectar
>> antropònims desconeguts d'apertium-cat. El problema és que coses com
>> Sainte-Marie-de-Gosse són quatre paraules perquè el guionet es tracta com a
>> separador de paraules. Per tant, seguint la mateixa idea, caldria marcar
>> totes quatre paraules per a impedir-ne la traducció. A més, per a més
>> seguretat, voldria assegurar-me que el separador de paraules és un guionet
>> i no un blanc, i no sé com accedir a aquesta informació en CG. Caldrà
>> demanar-li-ho a en Tino (per la mateixa raó, no sé com canviar el guionet a
>> un blanc en coses com "rue Victor-Hugo").
>>
>
> Jo ho vaig fer servir en el fitxer spa.rlx.[1] Els caràcters que no entren
> dins dels tokens (p. ex. guions i guionets) queden en un espai que es diu
> "meta".
>
> [1]
> https://github.com/apertium/apertium-spa/blob/master/apertium-spa.spa.rlx#L231
>

Perfecte! És justament el que buscava. Moltes gràcies!

Hèctor
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Municipis francesos

2020-02-14 Thread Jaume Ortolà i Font
Missatge de Hèctor Alòs i Font  del dia dv., 14 de
febr. 2020 a les 7:01:

> De tota manera, aquí és més complicat que el cas del sistema per detectar
> antropònims desconeguts d'apertium-cat. El problema és que coses com
> Sainte-Marie-de-Gosse són quatre paraules perquè el guionet es tracta com a
> separador de paraules. Per tant, seguint la mateixa idea, caldria marcar
> totes quatre paraules per a impedir-ne la traducció. A més, per a més
> seguretat, voldria assegurar-me que el separador de paraules és un guionet
> i no un blanc, i no sé com accedir a aquesta informació en CG. Caldrà
> demanar-li-ho a en Tino (per la mateixa raó, no sé com canviar el guionet a
> un blanc en coses com "rue Victor-Hugo").
>

Jo ho vaig fer servir en el fitxer spa.rlx.[1] Els caràcters que no entren
dins dels tokens (p. ex. guions i guionets) queden en un espai que es diu
"meta".

[1]
https://github.com/apertium/apertium-spa/blob/master/apertium-spa.spa.rlx#L231

En resum, per a topònims i antropònims, crec que val la pena afegir-los
> massivament als diccionaris, especialment quan tractes llengües mínimament
> més distants que el català i el castellà.
>

Per mi, avant. Afegeix el que creguis necessari. No serà un problema per
als altres parells.

Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Municipis francesos

2020-02-13 Thread Jaume Ortolà i Font
Certament, afegint topònims o antropònims no acabaríem mai. I arriba un
punt en què això té una utilitat baixa.

Si l'objectiu és evitar traduccions indesitjables de noms propis, potser es
pot arreglar aplicant algunes regles de CG com les que tenim en spa-cat.
Aquestes regles el que fan és no traduir certes paraules que, pel context,
poden ser noms propis. Pots copiar les mateixes regles, i afegir-ne alguna
més (com ara per a aquests típics noms francesos: Saint-..., ...-de-...,
...-sur-...). Aquests noms apareixeran marcats amb *, però val més això que
no una traducció absurda.

Salutacions,
Jaume Ortolà


Missatge de Hèctor Alòs i Font  del dia dj., 13 de
febr. 2020 a les 23:05:

> He afegit al traductor fra-cat i por-cat els municipis de Catalunya i el
> País Valencià recollits a les taules Excel d'apertium-cat i que ja estaven
> en el diccionari monolingüe català (n'hi ha que són a les taules, però no
> al diccionari). No representa cap problema afegir-los als altres
> diccionaris perquè només són uns 1500.
>
> El problema és l'invers. Estic en disposició de carregar tots els
> municipis de l'Estat francès, però són uns 80.000. El diccionari monolingüe
> català té ara uns 110.000 lemes, amb la qual cosa gairebé el duplicaria per
> a un ús nul en altres traductors automàtics basats en el català. Alentiria
> les compilacions de tothom, etc. Però sense afegir aquests municipis tinc
> traduccions ridícules com:
>
> echo "Sainte-Marie-de-Gosse" | apertium -d . fra-cat
> Santa-Maria-de-Marrec
>
> Idees?
>
> Hèctor
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] Municipis francesos

2020-02-13 Thread Hèctor Alòs i Font
He afegit al traductor fra-cat i por-cat els municipis de Catalunya i el
País Valencià recollits a les taules Excel d'apertium-cat i que ja estaven
en el diccionari monolingüe català (n'hi ha que són a les taules, però no
al diccionari). No representa cap problema afegir-los als altres
diccionaris perquè només són uns 1500.

El problema és l'invers. Estic en disposició de carregar tots els municipis
de l'Estat francès, però són uns 80.000. El diccionari monolingüe català té
ara uns 110.000 lemes, amb la qual cosa gairebé el duplicaria per a un ús
nul en altres traductors automàtics basats en el català. Alentiria les
compilacions de tothom, etc. Però sense afegir aquests municipis tinc
traduccions ridícules com:

echo "Sainte-Marie-de-Gosse" | apertium -d . fra-cat
Santa-Maria-de-Marrec

Idees?

Hèctor
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala