A falta de proves exhaustives, pareix que funciona. L'estratègia és llegir
els documents (en format .xml). El text està organitzat en paràgrafs (tag
"w:p"), text runs ("w:r") i el fragments de text ("w:t"), de més exterior a
més interior. Si una "paraula" està dividida entre dos o més text runs,
Eliminar etiquetes no és tan senzill com pareix. S'han d'eliminar de manera que
el resultat siga vàlid, i això comporta una anàlisi detallada de les etiquetes.
Un altre problema és que l'actual procesador d'etiquetes assumeix que on hi ha
una etiqueta sempre hi ha una frontera de paraula. Un
No en conec els detalls. El que proposa Joan Moratinos és eliminar les
etiquetes que no tenen sentit perquè estan enmig d'una paraula, per exemple
una cursiva que talla una paraula pel mig. Això, en algun cas, pot provocar
efectes no desitjats, però en general sembla una opció raonable. Val més
No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format funciona
com un blanc i parteix les paraules.
Per a arreglar-ho caldria canviar completament la gestió de format actual.
Mikel
El 30/4/19 a les 23:19, Donís Seguí ha escrit:
Bon dia,
Sóc Donís, el coordinador, per part de la
Bon dia,
Sóc Donís, el coordinador, per part de la Conselleria, del programa salt,
basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la Conselleria
d'Educació estem molt interessats en aquest tema. Jaume i jo n'hem parlat
moltes vegades, és un dels problemes que la gent tira més en cara
Joan,
Ho he provat amb un cas senzill de cursiva enmig de paraula i efectivament
fa bé la traducció, cosa que no passa en la versió actual d'Apertium.
Si es pogués incorporar aquesta millora, seria un avantatge important per a
tothom. Via 'pull request' potser?
Salutacions,
Jaume Ortolà
Bon dia, Joan.
Això pot ser molt interessant. Sé que hi havia gent desesperada amb aquest
problema, i que necessitaven urgentment solucions. Per exemple, a la
conselleria de cultura de la Generalitat valenciana, però supose que és una
necessitat general per a tota la comunitat d'Apertium.
Jo no
He detectat que de vegades paraules corrents es tradueixen malament en
documents .docx (de Microsoft Word). La culpa del problema són divisions
enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris
(generats per Word). He fet un petit programa en Python que reemplaça un
script