Re: [Apertium-catala] Problemes traduint documents .docx

Mikel L. Forcada Wed, 01 May 2019 08:37:53 -0700

Eliminar etiquetes no és tan senzill com pareix. S'han d'eliminar de manera que 
el resultat siga vàlid, i això comporta una anàlisi detallada de les etiquetes.


Un altre problema és que l'actual procesador d'etiquetes assumeix que on hi ha 
una etiqueta sempre hi ha una frontera de paraula. Un mot amb etiquetes 
internes sería dividit efectivament en més d'un mot. Em pense que no sería 
difícil distingir aquesta situació d'altres, tenint dos tipus de superblancs 
(mireu la documentació).

En qualsevol cas queda pendent un redisseny complet del tractament del format. 
En l'actualitat les etiquetes de format són processades per les regles de 
transferència estructural, i és possible trobar situacions on es imposible 
ordenar les etiquetes de manera que el resultat siga vàlid quan s'usa 
transferència estructural de més d'un nivell. Hi ha hagut diversos intents però 
encara no tenim res concret.

Mikel



El 1 de maig de 2019 11:10:09 CEST, "Jaume Ortolà i Font" 
<jaumeort...@gmail.com> ha escrit:
>No en conec els detalls. El que proposa Joan Moratinos és eliminar les
>etiquetes que no tenen sentit perquè estan enmig d'una paraula, per
>exemple
>una cursiva que talla una paraula pel mig. Això, en algun cas, pot
>provocar
>efectes no desitjats, però en general sembla una opció raonable. Val
>més
>que es perda una cursiva o altres etiquetes (probablement mal posades)
>que
>no fer una mala traducció.
>
>Salutacions,
>Jaume Ortolà
>
>Missatge de Mikel L. Forcada <m...@dlsi.ua.es> del dia dc., 1 de maig
>2019 a
>les 10:53:
>
>> No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format
>funciona
>> com un blanc i parteix les paraules.
>>
>> Per a arreglar-ho caldria canviar completament la gestió de format
>actual.
>>
>> Mikel
>>
>>
>> El 30/4/19 a les 23:19, Donís Seguí ha escrit:
>>
>> Bon dia,
>>
>> Sóc Donís, el coordinador, per part de la Conselleria, del programa
>salt,
>> basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la
>Conselleria
>> d'Educació estem molt interessats en aquest tema. Jaume i jo n'hem
>parlat
>> moltes vegades, és un dels problemes que la gent tira més en cara del
>nou
>> Salt. Hauríem de mirar com es pot aplicar aquest script, ja que seria
>una
>> millora molt important per al programa.
>>
>> Salutacions
>> Donís Seguí
>>
>>
>>
>> Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dt.,
>30
>> d’abr. 2019 a les 15:58:
>>
>>> Joan,
>>>
>>> Ho he provat amb un cas senzill de cursiva enmig de paraula i
>>> efectivament fa bé la traducció, cosa que no passa en la versió
>actual
>>> d'Apertium.
>>> Si es pogués incorporar aquesta millora, seria un avantatge
>important per
>>> a tothom. Via 'pull request' potser?
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>>
>>> Missatge de Joan Moratinos Jaume <jmorati...@gmail.com> del dia dt.,
>30
>>> d’abr. 2019 a les 12:47:
>>>
>>>> Ho pots provar a https://apertium.jmoratinos.com/dev/
>>>>
>>>> On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font
><jaumeort...@gmail.com>
>>>> wrote:
>>>>
>>>>> Bon dia, Joan.
>>>>>
>>>>> Això pot ser molt interessant. Sé que hi havia gent desesperada
>amb
>>>>> aquest problema, i que necessitaven urgentment solucions. Per
>exemple, a la
>>>>> conselleria de cultura de la Generalitat valenciana, però supose
>que és una
>>>>> necessitat general per a tota la comunitat d'Apertium.
>>>>>
>>>>> Jo no hi estic implicat directament, i no sé si ja ho tenen
>resolt.
>>>>> Tampoc no sé fins a quin punt pot ajudar la teua solució. Com ho
>podríem
>>>>> provar?
>>>>>
>>>>> Segur que hi ha gent de la llista que està al corrent de la
>qüestió.
>>>>>
>>>>> Salutacions,
>>>>> Jaume Ortolà
>>>>>
>>>>> Missatge de Joan Moratinos Jaume <jmorati...@gmail.com> del dia
>dt.,
>>>>> 30 d’abr. 2019 a les 12:36:
>>>>>
>>>>>> He detectat que de vegades paraules corrents es tradueixen
>malament en
>>>>>> documents .docx (de Microsoft Word). La culpa del problema són
>divisions
>>>>>> enmig de les paraules, volguts (p.e. una paraula mig en cursiva)
>o espuris
>>>>>> (generats per Word). He fet un petit programa en Python que
>reemplaça un
>>>>>> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
>>>>>> migpartida entre dos o més tags, l'agrupa tota en el primer i
>esborra els
>>>>>> eventuals tags superflus. El resultat de la traducció és millor
>que
>>>>>> l'original.
>>>>>>
>>>>>>
>>>>>> --
>>>>>> Joan Moratinos
>>>>>> jmorati...@gmail.com
>>>>>> _______________________________________________
>>>>>> Apertium-catala mailing list
>>>>>> Apertium-catala@lists.sourceforge.net
>>>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>>>>
>>>>>
>>>>
>>>> --
>>>> Joan Moratinos
>>>> jmorati...@gmail.com
>>>>
>>> _______________________________________________
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>>
>>
>> _______________________________________________
>> Apertium-catala mailing
>listApertium-catala@lists.sourceforge.nethttps://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>> --
>> Mikel L. Forcada  http://www.dlsi.ua.es/~mlf/
>> Departament de Llenguatges i Sistemes Informàtics
>> Universitat d'Alacant
>> E-03690 Sant Vicent del Raspeig
>> Spain
>> Office: +34 96 590 9776
>>
>>

-- 
Enviat des del meu dispositiu Android amb el K-9 Mail. Disculpeu la brevetat.

_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Re: [Apertium-catala] Problemes traduint documents .docx

Reply via email to