Re: [Apertium-catala] Problemes traduint documents .docx

Joan Moratinos Jaume Wed, 01 May 2019 09:28:36 -0700

 A falta de proves exhaustives, pareix que funciona. L'estratègia és llegir
els documents (en format .xml). El text està organitzat en paràgrafs (tag
"w:p"), text runs ("w:r") i el fragments de text ("w:t"), de més exterior a
més interior. Si una "paraula" està dividida entre dos o més text runs, es
va movent tot o part del contingut d'un o més "w:t" al primer. Si un tag
"w:r" queda buit, s'esborra.


Un exemple, agafat d'un document real que vaig enviar a traduir:

    <w:p>
      <w:pPr>
        <w:pStyle w:val="Por omisión"/>
        <w:bidi w:val="0"/>
        <w:spacing w:line="288" w:lineRule="auto"/>
        <w:ind w:left="0" w:right="0" w:firstLine="0"/>
        <w:jc w:val="left"/>
        <w:rPr>
          <w:rFonts w:ascii="Helvetica" w:cs="Helvetica"
w:hAnsi="Helvetica" w:eastAsia="Helvetica"/>
          <w:rtl w:val="0"/>
        </w:rPr>
      </w:pPr>
      <w:r>
        <w:rPr>
          <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica"/>
          <w:rtl w:val="0"/>
          <w:lang w:val="en-US"/>
        </w:rPr>
        <w:t>*2015/2016_M*</w:t>
      </w:r>
      <w:r>
        <w:rPr>
          <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica"
w:hint="default"/>
          <w:rtl w:val="0"/>
        </w:rPr>
        <w:t>*á*</w:t>
      </w:r>
      <w:r>
        <w:rPr>
          <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica"/>
          <w:rtl w:val="0"/>
          <w:lang w:val="es-ES_tradnl"/>
        </w:rPr>
        <w:t>*ster en Arte Contempor*</w:t>
      </w:r>
      ... altres w:r ...
    </w:p>

Després del processament, aquest fragment queda així:

    <w:p>
      <w:pPr>
        <w:pStyle w:val="Por omisión"/>
        <w:bidi w:val="0"/>
        <w:spacing w:line="288" w:lineRule="auto"/>
        <w:ind w:left="0" w:right="0" w:firstLine="0"/>
        <w:jc w:val="left"/>
        <w:rPr>
          <w:rFonts w:ascii="Helvetica" w:cs="Helvetica"
w:hAnsi="Helvetica" w:eastAsia="Helvetica"/>
          <w:rtl w:val="0"/>
        </w:rPr>
      </w:pPr>
      <w:r>
        <w:rPr>
          <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica"/>
          <w:rtl w:val="0"/>
          <w:lang w:val="en-US"/>
        </w:rPr>
        <w:t>2015/2016_Máster</w:t>
      </w:r>
      <w:r>
        <w:rPr>
          <w:rFonts w:ascii="Helvetica" w:hAnsi="Helvetica"/>
          <w:rtl w:val="0"/>
          <w:lang w:val="es-ES_tradnl"/>
        </w:rPr>
        <w:t xml:space="preserve"> en Arte Contemporáneo</w:t>
      </w:r>
      ... altres w:r ...
    </w:p>

S'ha mogut material del segon i el tercer "w:r" al primer. El segon s'ha
esborrat. S'ha hagut d'afegir xml:space="preserve" al text run que ha
quedat a la segona posició.

La traducció, amb aquests canvis, és "2015/2016_Màster en Art Contemporani,
Tecnològic i...". Sense els canvis, "2015/2016_Máster en Art Contemporáneo,
Tecnologico i...".

On Wed, 1 May 2019 at 17:37, Mikel L. Forcada <m...@dlsi.ua.es> wrote:

> Eliminar etiquetes no és tan senzill com pareix. S'han d'eliminar de
> manera que el resultat siga vàlid, i això comporta una anàlisi detallada de
> les etiquetes.
>
> Un altre problema és que l'actual procesador d'etiquetes assumeix que on
> hi ha una etiqueta sempre hi ha una frontera de paraula. Un mot amb
> etiquetes internes sería dividit efectivament en més d'un mot. Em pense que
> no sería difícil distingir aquesta situació d'altres, tenint dos tipus de
> superblancs (mireu la documentació).
>
> En qualsevol cas queda pendent un redisseny complet del tractament del
> format. En l'actualitat les etiquetes de format són processades per les
> regles de transferència estructural, i és possible trobar situacions on es
> imposible ordenar les etiquetes de manera que el resultat siga vàlid quan
> s'usa transferència estructural de més d'un nivell. Hi ha hagut diversos
> intents però encara no tenim res concret.
>
> Mikel
>
>
>
> El 1 de maig de 2019 11:10:09 CEST, "Jaume Ortolà i Font" <
> jaumeort...@gmail.com> ha escrit:
>>
>> No en conec els detalls. El que proposa Joan Moratinos és eliminar les
>> etiquetes que no tenen sentit perquè estan enmig d'una paraula, per exemple
>> una cursiva que talla una paraula pel mig. Això, en algun cas, pot provocar
>> efectes no desitjats, però en general sembla una opció raonable. Val més
>> que es perda una cursiva o altres etiquetes (probablement mal posades) que
>> no fer una mala traducció.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>> Missatge de Mikel L. Forcada <m...@dlsi.ua.es> del dia dc., 1 de maig
>> 2019 a les 10:53:
>>
>>> No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format funciona
>>> com un blanc i parteix les paraules.
>>>
>>> Per a arreglar-ho caldria canviar completament la gestió de format
>>> actual.
>>>
>>> Mikel
>>>
>>>
>>> El 30/4/19 a les 23:19, Donís Seguí ha escrit:
>>>
>>> Bon dia,
>>>
>>> Sóc Donís, el coordinador, per part de la Conselleria, del programa
>>> salt, basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la
>>> Conselleria d'Educació estem molt interessats en aquest tema. Jaume i jo
>>> n'hem parlat moltes vegades, és un dels problemes que la gent tira més en
>>> cara del nou Salt. Hauríem de mirar com es pot aplicar aquest script, ja
>>> que seria una millora molt important per al programa.
>>>
>>> Salutacions
>>> Donís Seguí
>>>
>>>
>>>
>>> Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dt., 30
>>> d’abr. 2019 a les 15:58:
>>>
>>>> Joan,
>>>>
>>>> Ho he provat amb un cas senzill de cursiva enmig de paraula i
>>>> efectivament fa bé la traducció, cosa que no passa en la versió actual
>>>> d'Apertium.
>>>> Si es pogués incorporar aquesta millora, seria un avantatge important
>>>> per a tothom. Via 'pull request' potser?
>>>>
>>>> Salutacions,
>>>> Jaume Ortolà
>>>>
>>>>
>>>>
>>>> Missatge de Joan Moratinos Jaume <jmorati...@gmail.com> del dia dt.,
>>>> 30 d’abr. 2019 a les 12:47:
>>>>
>>>>> Ho pots provar a https://apertium.jmoratinos.com/dev/
>>>>>
>>>>> On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font <
>>>>> jaumeort...@gmail.com> wrote:
>>>>>
>>>>>> Bon dia, Joan.
>>>>>>
>>>>>> Això pot ser molt interessant. Sé que hi havia gent desesperada amb
>>>>>> aquest problema, i que necessitaven urgentment solucions. Per exemple, a 
>>>>>> la
>>>>>> conselleria de cultura de la Generalitat valenciana, però supose que és 
>>>>>> una
>>>>>> necessitat general per a tota la comunitat d'Apertium.
>>>>>>
>>>>>> Jo no hi estic implicat directament, i no sé si ja ho tenen resolt.
>>>>>> Tampoc no sé fins a quin punt pot ajudar la teua solució. Com ho podríem
>>>>>> provar?
>>>>>>
>>>>>> Segur que hi ha gent de la llista que està al corrent de la qüestió.
>>>>>>
>>>>>> Salutacions,
>>>>>> Jaume Ortolà
>>>>>>
>>>>>> Missatge de Joan Moratinos Jaume <jmorati...@gmail.com> del dia dt.,
>>>>>> 30 d’abr. 2019 a les 12:36:
>>>>>>
>>>>>>> He detectat que de vegades paraules corrents es tradueixen malament
>>>>>>> en documents .docx (de Microsoft Word). La culpa del problema són 
>>>>>>> divisions
>>>>>>> enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o 
>>>>>>> espuris
>>>>>>> (generats per Word). He fet un petit programa en Python que reemplaça un
>>>>>>> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
>>>>>>> migpartida entre dos o més tags, l'agrupa tota en el primer i esborra 
>>>>>>> els
>>>>>>> eventuals tags superflus. El resultat de la traducció és millor que
>>>>>>> l'original.
>>>>>>>
>>>>>>>
>>>>>>> --
>>>>>>> Joan Moratinos
>>>>>>> jmorati...@gmail.com
>>>>>>> _______________________________________________
>>>>>>> Apertium-catala mailing list
>>>>>>> Apertium-catala@lists.sourceforge.net
>>>>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>>>>>
>>>>>>
>>>>>
>>>>> --
>>>>> Joan Moratinos
>>>>> jmorati...@gmail.com
>>>>>
>>>> _______________________________________________
>>>> Apertium-catala mailing list
>>>> Apertium-catala@lists.sourceforge.net
>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>>
>>>
>>>
>>> _______________________________________________
>>> Apertium-catala mailing 
>>> listApertium-catala@lists.sourceforge.nethttps://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>>> --
>>> Mikel L. Forcada  http://www.dlsi.ua.es/~mlf/
>>> Departament de Llenguatges i Sistemes Informàtics
>>> Universitat d'Alacant
>>> E-03690 Sant Vicent del Raspeig
>>> Spain
>>> Office: +34 96 590 9776
>>>
>>>
> --
> Enviat des del meu dispositiu Android amb el K-9 Mail. Disculpeu la
> brevetat.
> _______________________________________________
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>


-- 
Joan Moratinos
jmorati...@gmail.com

_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Re: [Apertium-catala] Problemes traduint documents .docx

Reply via email to