Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Joan Moratinos Jaume
A falta de proves exhaustives, pareix que funciona. L'estratègia és llegir els documents (en format .xml). El text està organitzat en paràgrafs (tag "w:p"), text runs ("w:r") i el fragments de text ("w:t"), de més exterior a més interior. Si una "paraula" està dividida entre dos o més text runs,

Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Mikel L. Forcada
Eliminar etiquetes no és tan senzill com pareix. S'han d'eliminar de manera que el resultat siga vàlid, i això comporta una anàlisi detallada de les etiquetes. Un altre problema és que l'actual procesador d'etiquetes assumeix que on hi ha una etiqueta sempre hi ha una frontera de paraula. Un

Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Jaume Ortolà i Font
No en conec els detalls. El que proposa Joan Moratinos és eliminar les etiquetes que no tenen sentit perquè estan enmig d'una paraula, per exemple una cursiva que talla una paraula pel mig. Això, en algun cas, pot provocar efectes no desitjats, però en general sembla una opció raonable. Val més

Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Mikel L. Forcada
No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format funciona com un blanc i parteix les paraules. Per a arreglar-ho caldria canviar completament la gestió de format actual. Mikel El 30/4/19 a les 23:19, Donís Seguí ha escrit: Bon dia, Sóc Donís, el coordinador, per part de la

Re: [Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Donís Seguí
Bon dia, Sóc Donís, el coordinador, per part de la Conselleria, del programa salt, basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la Conselleria d'Educació estem molt interessats en aquest tema. Jaume i jo n'hem parlat moltes vegades, és un dels problemes que la gent tira més en cara

Re: [Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Jaume Ortolà i Font
Joan, Ho he provat amb un cas senzill de cursiva enmig de paraula i efectivament fa bé la traducció, cosa que no passa en la versió actual d'Apertium. Si es pogués incorporar aquesta millora, seria un avantatge important per a tothom. Via 'pull request' potser? Salutacions, Jaume Ortolà

Re: [Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Jaume Ortolà i Font
Bon dia, Joan. Això pot ser molt interessant. Sé que hi havia gent desesperada amb aquest problema, i que necessitaven urgentment solucions. Per exemple, a la conselleria de cultura de la Generalitat valenciana, però supose que és una necessitat general per a tota la comunitat d'Apertium. Jo no

[Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Joan Moratinos Jaume
He detectat que de vegades paraules corrents es tradueixen malament en documents .docx (de Microsoft Word). La culpa del problema són divisions enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris (generats per Word). He fet un petit programa en Python que reemplaça un script