A falta de proves exhaustives, pareix que funciona. L'estratègia és llegir els documents (en format .xml). El text està organitzat en paràgrafs (tag "w:p"), text runs ("w:r") i el fragments de text ("w:t"), de més exterior a més interior. Si una "paraula" està dividida entre dos o més text runs, es va movent tot o part del contingut d'un o més "w:t" al primer. Si un tag "w:r" queda buit, s'esborra.
Un exemple, agafat d'un document real que vaig enviar a traduir: <w:p> <w:pPr> <w:pStyle w:val="Por omisión"/> <w:bidi w:val="0"/> <w:spacing w:line="288" w:lineRule="auto"/> <w:ind w:left="0" w:right="0" w:firstLine="0"/> <w:jc w:val="left"/> <w:rPr> <w:rFonts w:ascii="Helvetica" w:cs="Helvetica" w:hAnsi="Helvetica" w:eastAsia="Helvetica"/> <w:rtl w:val="0"/> </w:rPr> </w:pPr> <w:r> <w:rPr> <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica"/> <w:rtl w:val="0"/> <w:lang w:val="en-US"/> </w:rPr> <w:t>*2015/2016_M*</w:t> </w:r> <w:r> <w:rPr> <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica" w:hint="default"/> <w:rtl w:val="0"/> </w:rPr> <w:t>*á*</w:t> </w:r> <w:r> <w:rPr> <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica"/> <w:rtl w:val="0"/> <w:lang w:val="es-ES_tradnl"/> </w:rPr> <w:t>*ster en Arte Contempor*</w:t> </w:r> ... altres w:r ... </w:p> Després del processament, aquest fragment queda així: <w:p> <w:pPr> <w:pStyle w:val="Por omisión"/> <w:bidi w:val="0"/> <w:spacing w:line="288" w:lineRule="auto"/> <w:ind w:left="0" w:right="0" w:firstLine="0"/> <w:jc w:val="left"/> <w:rPr> <w:rFonts w:ascii="Helvetica" w:cs="Helvetica" w:hAnsi="Helvetica" w:eastAsia="Helvetica"/> <w:rtl w:val="0"/> </w:rPr> </w:pPr> <w:r> <w:rPr> <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica"/> <w:rtl w:val="0"/> <w:lang w:val="en-US"/> </w:rPr> <w:t>2015/2016_Máster</w:t> </w:r> <w:r> <w:rPr> <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica"/> <w:rtl w:val="0"/> <w:lang w:val="es-ES_tradnl"/> </w:rPr> <w:t xml:space="preserve"> en Arte Contemporáneo</w:t> </w:r> ... altres w:r ... </w:p> S'ha mogut material del segon i el tercer "w:r" al primer. El segon s'ha esborrat. S'ha hagut d'afegir xml:space="preserve" al text run que ha quedat a la segona posició. La traducció, amb aquests canvis, és "2015/2016_Màster en Art Contemporani, Tecnològic i...". Sense els canvis, "2015/2016_Máster en Art Contemporáneo, Tecnologico i...". On Wed, 1 May 2019 at 17:37, Mikel L. Forcada <m...@dlsi.ua.es> wrote: > Eliminar etiquetes no és tan senzill com pareix. S'han d'eliminar de > manera que el resultat siga vàlid, i això comporta una anàlisi detallada de > les etiquetes. > > Un altre problema és que l'actual procesador d'etiquetes assumeix que on > hi ha una etiqueta sempre hi ha una frontera de paraula. Un mot amb > etiquetes internes sería dividit efectivament en més d'un mot. Em pense que > no sería difícil distingir aquesta situació d'altres, tenint dos tipus de > superblancs (mireu la documentació). > > En qualsevol cas queda pendent un redisseny complet del tractament del > format. En l'actualitat les etiquetes de format són processades per les > regles de transferència estructural, i és possible trobar situacions on es > imposible ordenar les etiquetes de manera que el resultat siga vàlid quan > s'usa transferència estructural de més d'un nivell. Hi ha hagut diversos > intents però encara no tenim res concret. > > Mikel > > > > El 1 de maig de 2019 11:10:09 CEST, "Jaume Ortolà i Font" < > jaumeort...@gmail.com> ha escrit: >> >> No en conec els detalls. El que proposa Joan Moratinos és eliminar les >> etiquetes que no tenen sentit perquè estan enmig d'una paraula, per exemple >> una cursiva que talla una paraula pel mig. Això, en algun cas, pot provocar >> efectes no desitjats, però en general sembla una opció raonable. Val més >> que es perda una cursiva o altres etiquetes (probablement mal posades) que >> no fer una mala traducció. >> >> Salutacions, >> Jaume Ortolà >> >> Missatge de Mikel L. Forcada <m...@dlsi.ua.es> del dia dc., 1 de maig >> 2019 a les 10:53: >> >>> No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format funciona >>> com un blanc i parteix les paraules. >>> >>> Per a arreglar-ho caldria canviar completament la gestió de format >>> actual. >>> >>> Mikel >>> >>> >>> El 30/4/19 a les 23:19, Donís Seguí ha escrit: >>> >>> Bon dia, >>> >>> Sóc Donís, el coordinador, per part de la Conselleria, del programa >>> salt, basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la >>> Conselleria d'Educació estem molt interessats en aquest tema. Jaume i jo >>> n'hem parlat moltes vegades, és un dels problemes que la gent tira més en >>> cara del nou Salt. Hauríem de mirar com es pot aplicar aquest script, ja >>> que seria una millora molt important per al programa. >>> >>> Salutacions >>> Donís Seguí >>> >>> >>> >>> Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dt., 30 >>> d’abr. 2019 a les 15:58: >>> >>>> Joan, >>>> >>>> Ho he provat amb un cas senzill de cursiva enmig de paraula i >>>> efectivament fa bé la traducció, cosa que no passa en la versió actual >>>> d'Apertium. >>>> Si es pogués incorporar aquesta millora, seria un avantatge important >>>> per a tothom. Via 'pull request' potser? >>>> >>>> Salutacions, >>>> Jaume Ortolà >>>> >>>> >>>> >>>> Missatge de Joan Moratinos Jaume <jmorati...@gmail.com> del dia dt., >>>> 30 d’abr. 2019 a les 12:47: >>>> >>>>> Ho pots provar a https://apertium.jmoratinos.com/dev/ >>>>> >>>>> On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font < >>>>> jaumeort...@gmail.com> wrote: >>>>> >>>>>> Bon dia, Joan. >>>>>> >>>>>> Això pot ser molt interessant. Sé que hi havia gent desesperada amb >>>>>> aquest problema, i que necessitaven urgentment solucions. Per exemple, a >>>>>> la >>>>>> conselleria de cultura de la Generalitat valenciana, però supose que és >>>>>> una >>>>>> necessitat general per a tota la comunitat d'Apertium. >>>>>> >>>>>> Jo no hi estic implicat directament, i no sé si ja ho tenen resolt. >>>>>> Tampoc no sé fins a quin punt pot ajudar la teua solució. Com ho podríem >>>>>> provar? >>>>>> >>>>>> Segur que hi ha gent de la llista que està al corrent de la qüestió. >>>>>> >>>>>> Salutacions, >>>>>> Jaume Ortolà >>>>>> >>>>>> Missatge de Joan Moratinos Jaume <jmorati...@gmail.com> del dia dt., >>>>>> 30 d’abr. 2019 a les 12:36: >>>>>> >>>>>>> He detectat que de vegades paraules corrents es tradueixen malament >>>>>>> en documents .docx (de Microsoft Word). La culpa del problema són >>>>>>> divisions >>>>>>> enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o >>>>>>> espuris >>>>>>> (generats per Word). He fet un petit programa en Python que reemplaça un >>>>>>> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula >>>>>>> migpartida entre dos o més tags, l'agrupa tota en el primer i esborra >>>>>>> els >>>>>>> eventuals tags superflus. El resultat de la traducció és millor que >>>>>>> l'original. >>>>>>> >>>>>>> >>>>>>> -- >>>>>>> Joan Moratinos >>>>>>> jmorati...@gmail.com >>>>>>> _______________________________________________ >>>>>>> Apertium-catala mailing list >>>>>>> Apertium-catala@lists.sourceforge.net >>>>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>>>>>> >>>>>> >>>>> >>>>> -- >>>>> Joan Moratinos >>>>> jmorati...@gmail.com >>>>> >>>> _______________________________________________ >>>> Apertium-catala mailing list >>>> Apertium-catala@lists.sourceforge.net >>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala >>>> >>> >>> >>> _______________________________________________ >>> Apertium-catala mailing >>> listApertium-catala@lists.sourceforge.nethttps://lists.sourceforge.net/lists/listinfo/apertium-catala >>> >>> -- >>> Mikel L. Forcada http://www.dlsi.ua.es/~mlf/ >>> Departament de Llenguatges i Sistemes Informàtics >>> Universitat d'Alacant >>> E-03690 Sant Vicent del Raspeig >>> Spain >>> Office: +34 96 590 9776 >>> >>> > -- > Enviat des del meu dispositiu Android amb el K-9 Mail. Disculpeu la > brevetat. > _______________________________________________ > Apertium-catala mailing list > Apertium-catala@lists.sourceforge.net > https://lists.sourceforge.net/lists/listinfo/apertium-catala > -- Joan Moratinos jmorati...@gmail.com
_______________________________________________ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala