Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Joan Moratinos Jaume
 A falta de proves exhaustives, pareix que funciona. L'estratègia és llegir
els documents (en format .xml). El text està organitzat en paràgrafs (tag
"w:p"), text runs ("w:r") i el fragments de text ("w:t"), de més exterior a
més interior. Si una "paraula" està dividida entre dos o més text runs, es
va movent tot o part del contingut d'un o més "w:t" al primer. Si un tag
"w:r" queda buit, s'esborra.

Un exemple, agafat d'un document real que vaig enviar a traduir:


  






  
  

  
  

  
  
  

*2015/2016_M*
  
  

  
  

*á*
  
  

  
  
  

*ster en Arte Contempor*
  
  ... altres w:r ...


Després del processament, aquest fragment queda així:


  






  
  

  
  

  
  
  

2015/2016_Máster
  
  

  
  
  

 en Arte Contemporáneo
  
  ... altres w:r ...


S'ha mogut material del segon i el tercer "w:r" al primer. El segon s'ha
esborrat. S'ha hagut d'afegir xml:space="preserve" al text run que ha
quedat a la segona posició.

La traducció, amb aquests canvis, és "2015/2016_Màster en Art Contemporani,
Tecnològic i...". Sense els canvis, "2015/2016_Máster en Art Contemporáneo,
Tecnologico i...".

On Wed, 1 May 2019 at 17:37, Mikel L. Forcada  wrote:

> Eliminar etiquetes no és tan senzill com pareix. S'han d'eliminar de
> manera que el resultat siga vàlid, i això comporta una anàlisi detallada de
> les etiquetes.
>
> Un altre problema és que l'actual procesador d'etiquetes assumeix que on
> hi ha una etiqueta sempre hi ha una frontera de paraula. Un mot amb
> etiquetes internes sería dividit efectivament en més d'un mot. Em pense que
> no sería difícil distingir aquesta situació d'altres, tenint dos tipus de
> superblancs (mireu la documentació).
>
> En qualsevol cas queda pendent un redisseny complet del tractament del
> format. En l'actualitat les etiquetes de format són processades per les
> regles de transferència estructural, i és possible trobar situacions on es
> imposible ordenar les etiquetes de manera que el resultat siga vàlid quan
> s'usa transferència estructural de més d'un nivell. Hi ha hagut diversos
> intents però encara no tenim res concret.
>
> Mikel
>
>
>
> El 1 de maig de 2019 11:10:09 CEST, "Jaume Ortolà i Font" <
> jaumeort...@gmail.com> ha escrit:
>>
>> No en conec els detalls. El que proposa Joan Moratinos és eliminar les
>> etiquetes que no tenen sentit perquè estan enmig d'una paraula, per exemple
>> una cursiva que talla una paraula pel mig. Això, en algun cas, pot provocar
>> efectes no desitjats, però en general sembla una opció raonable. Val més
>> que es perda una cursiva o altres etiquetes (probablement mal posades) que
>> no fer una mala traducció.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>> Missatge de Mikel L. Forcada  del dia dc., 1 de maig
>> 2019 a les 10:53:
>>
>>> No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format funciona
>>> com un blanc i parteix les paraules.
>>>
>>> Per a arreglar-ho caldria canviar completament la gestió de format
>>> actual.
>>>
>>> Mikel
>>>
>>>
>>> El 30/4/19 a les 23:19, Donís Seguí ha escrit:
>>>
>>> Bon dia,
>>>
>>> Sóc Donís, el coordinador, per part de la Conselleria, del programa
>>> salt, basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la
>>> Conselleria d'Educació estem molt interessats en aquest tema. Jaume i jo
>>> n'hem parlat moltes vegades, és un dels problemes que la gent tira més en
>>> cara del nou Salt. Hauríem de mirar com es pot aplicar aquest script, ja
>>> que seria una millora molt important per al programa.
>>>
>>> Salutacions
>>> Donís Seguí
>>>
>>>
>>>
>>> Missatge de Jaume Ortolà i Font  del dia dt., 30
>>> d’abr. 2019 a les 15:58:
>>>
 Joan,

 Ho he provat amb un cas senzill de cursiva enmig de paraula i
 efectivament fa bé la traducció, cosa que no passa en la versió actual
 d'Apertium.
 Si es pogués incorporar aquesta millora, seria un avantatge important
 per a tothom. Via 'pull request' potser?

 Salutacions,
 Jaume Ortolà



 Missatge de Joan Moratinos Jaume  del dia dt.,
 30 d’abr. 2019 a les 12:47:

> Ho pots provar a https://apertium.jmoratinos.com/dev/
>
> On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font <
> jaumeort...@gmail.com> wrote:
>
>> Bon dia, Joan.
>>
>> Això pot ser molt interessant. Sé que hi havia gent desesperada amb
>> aquest problema, i que necessitaven urgentment solucions. Per exemple, a 
>> la
>> conselleria de cultura de la Generalitat valenciana, però supose que és 
>> una
>> necessitat general 

Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Mikel L. Forcada
Eliminar etiquetes no és tan senzill com pareix. S'han d'eliminar de manera que 
el resultat siga vàlid, i això comporta una anàlisi detallada de les etiquetes. 

Un altre problema és que l'actual procesador d'etiquetes assumeix que on hi ha 
una etiqueta sempre hi ha una frontera de paraula. Un mot amb etiquetes 
internes sería dividit efectivament en més d'un mot. Em pense que no sería 
difícil distingir aquesta situació d'altres, tenint dos tipus de superblancs 
(mireu la documentació).

En qualsevol cas queda pendent un redisseny complet del tractament del format. 
En l'actualitat les etiquetes de format són processades per les regles de 
transferència estructural, i és possible trobar situacions on es imposible 
ordenar les etiquetes de manera que el resultat siga vàlid quan s'usa 
transferència estructural de més d'un nivell. Hi ha hagut diversos intents però 
encara no tenim res concret.

Mikel



El 1 de maig de 2019 11:10:09 CEST, "Jaume Ortolà i Font" 
 ha escrit:
>No en conec els detalls. El que proposa Joan Moratinos és eliminar les
>etiquetes que no tenen sentit perquè estan enmig d'una paraula, per
>exemple
>una cursiva que talla una paraula pel mig. Això, en algun cas, pot
>provocar
>efectes no desitjats, però en general sembla una opció raonable. Val
>més
>que es perda una cursiva o altres etiquetes (probablement mal posades)
>que
>no fer una mala traducció.
>
>Salutacions,
>Jaume Ortolà
>
>Missatge de Mikel L. Forcada  del dia dc., 1 de maig
>2019 a
>les 10:53:
>
>> No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format
>funciona
>> com un blanc i parteix les paraules.
>>
>> Per a arreglar-ho caldria canviar completament la gestió de format
>actual.
>>
>> Mikel
>>
>>
>> El 30/4/19 a les 23:19, Donís Seguí ha escrit:
>>
>> Bon dia,
>>
>> Sóc Donís, el coordinador, per part de la Conselleria, del programa
>salt,
>> basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la
>Conselleria
>> d'Educació estem molt interessats en aquest tema. Jaume i jo n'hem
>parlat
>> moltes vegades, és un dels problemes que la gent tira més en cara del
>nou
>> Salt. Hauríem de mirar com es pot aplicar aquest script, ja que seria
>una
>> millora molt important per al programa.
>>
>> Salutacions
>> Donís Seguí
>>
>>
>>
>> Missatge de Jaume Ortolà i Font  del dia dt.,
>30
>> d’abr. 2019 a les 15:58:
>>
>>> Joan,
>>>
>>> Ho he provat amb un cas senzill de cursiva enmig de paraula i
>>> efectivament fa bé la traducció, cosa que no passa en la versió
>actual
>>> d'Apertium.
>>> Si es pogués incorporar aquesta millora, seria un avantatge
>important per
>>> a tothom. Via 'pull request' potser?
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>>
>>> Missatge de Joan Moratinos Jaume  del dia dt.,
>30
>>> d’abr. 2019 a les 12:47:
>>>
 Ho pots provar a https://apertium.jmoratinos.com/dev/

 On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font
>
 wrote:

> Bon dia, Joan.
>
> Això pot ser molt interessant. Sé que hi havia gent desesperada
>amb
> aquest problema, i que necessitaven urgentment solucions. Per
>exemple, a la
> conselleria de cultura de la Generalitat valenciana, però supose
>que és una
> necessitat general per a tota la comunitat d'Apertium.
>
> Jo no hi estic implicat directament, i no sé si ja ho tenen
>resolt.
> Tampoc no sé fins a quin punt pot ajudar la teua solució. Com ho
>podríem
> provar?
>
> Segur que hi ha gent de la llista que està al corrent de la
>qüestió.
>
> Salutacions,
> Jaume Ortolà
>
> Missatge de Joan Moratinos Jaume  del dia
>dt.,
> 30 d’abr. 2019 a les 12:36:
>
>> He detectat que de vegades paraules corrents es tradueixen
>malament en
>> documents .docx (de Microsoft Word). La culpa del problema són
>divisions
>> enmig de les paraules, volguts (p.e. una paraula mig en cursiva)
>o espuris
>> (generats per Word). He fet un petit programa en Python que
>reemplaça un
>> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
>> migpartida entre dos o més tags, l'agrupa tota en el primer i
>esborra els
>> eventuals tags superflus. El resultat de la traducció és millor
>que
>> l'original.
>>
>>
>> --
>> Joan Moratinos
>> jmorati...@gmail.com
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>

 --
 Joan Moratinos
 jmorati...@gmail.com

>>> ___
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>>
>>
>> ___
>> Apertium-catala mailing
>listApertium-catala@lists.sourceforge.nethttps://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>> --
>> Mikel L. Forcada  

Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Jaume Ortolà i Font
No en conec els detalls. El que proposa Joan Moratinos és eliminar les
etiquetes que no tenen sentit perquè estan enmig d'una paraula, per exemple
una cursiva que talla una paraula pel mig. Això, en algun cas, pot provocar
efectes no desitjats, però en general sembla una opció raonable. Val més
que es perda una cursiva o altres etiquetes (probablement mal posades) que
no fer una mala traducció.

Salutacions,
Jaume Ortolà

Missatge de Mikel L. Forcada  del dia dc., 1 de maig 2019 a
les 10:53:

> No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format funciona
> com un blanc i parteix les paraules.
>
> Per a arreglar-ho caldria canviar completament la gestió de format actual.
>
> Mikel
>
>
> El 30/4/19 a les 23:19, Donís Seguí ha escrit:
>
> Bon dia,
>
> Sóc Donís, el coordinador, per part de la Conselleria, del programa salt,
> basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la Conselleria
> d'Educació estem molt interessats en aquest tema. Jaume i jo n'hem parlat
> moltes vegades, és un dels problemes que la gent tira més en cara del nou
> Salt. Hauríem de mirar com es pot aplicar aquest script, ja que seria una
> millora molt important per al programa.
>
> Salutacions
> Donís Seguí
>
>
>
> Missatge de Jaume Ortolà i Font  del dia dt., 30
> d’abr. 2019 a les 15:58:
>
>> Joan,
>>
>> Ho he provat amb un cas senzill de cursiva enmig de paraula i
>> efectivament fa bé la traducció, cosa que no passa en la versió actual
>> d'Apertium.
>> Si es pogués incorporar aquesta millora, seria un avantatge important per
>> a tothom. Via 'pull request' potser?
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>>
>> Missatge de Joan Moratinos Jaume  del dia dt., 30
>> d’abr. 2019 a les 12:47:
>>
>>> Ho pots provar a https://apertium.jmoratinos.com/dev/
>>>
>>> On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font 
>>> wrote:
>>>
 Bon dia, Joan.

 Això pot ser molt interessant. Sé que hi havia gent desesperada amb
 aquest problema, i que necessitaven urgentment solucions. Per exemple, a la
 conselleria de cultura de la Generalitat valenciana, però supose que és una
 necessitat general per a tota la comunitat d'Apertium.

 Jo no hi estic implicat directament, i no sé si ja ho tenen resolt.
 Tampoc no sé fins a quin punt pot ajudar la teua solució. Com ho podríem
 provar?

 Segur que hi ha gent de la llista que està al corrent de la qüestió.

 Salutacions,
 Jaume Ortolà

 Missatge de Joan Moratinos Jaume  del dia dt.,
 30 d’abr. 2019 a les 12:36:

> He detectat que de vegades paraules corrents es tradueixen malament en
> documents .docx (de Microsoft Word). La culpa del problema són divisions
> enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris
> (generats per Word). He fet un petit programa en Python que reemplaça un
> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
> migpartida entre dos o més tags, l'agrupa tota en el primer i esborra els
> eventuals tags superflus. El resultat de la traducció és millor que
> l'original.
>
>
> --
> Joan Moratinos
> jmorati...@gmail.com
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>

>>>
>>> --
>>> Joan Moratinos
>>> jmorati...@gmail.com
>>>
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>
>
> ___
> Apertium-catala mailing 
> listApertium-catala@lists.sourceforge.nethttps://lists.sourceforge.net/lists/listinfo/apertium-catala
>
> --
> Mikel L. Forcada  http://www.dlsi.ua.es/~mlf/
> Departament de Llenguatges i Sistemes Informàtics
> Universitat d'Alacant
> E-03690 Sant Vicent del Raspeig
> Spain
> Office: +34 96 590 9776
>
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Mikel L. Forcada
No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format funciona 
com un blanc i parteix les paraules.


Per a arreglar-ho caldria canviar completament la gestió de format actual.

Mikel


El 30/4/19 a les 23:19, Donís Seguí ha escrit:

Bon dia,

Sóc Donís, el coordinador, per part de la Conselleria, del programa 
salt, basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la 
Conselleria d'Educació estem molt interessats en aquest tema. Jaume i 
jo n'hem parlat moltes vegades, és un dels problemes que la gent tira 
més en cara del nou Salt. Hauríem de mirar com es pot aplicar aquest 
script, ja que seria una millora molt important per al programa.


Salutacions
Donís Seguí



Missatge de Jaume Ortolà i Font > del dia dt., 30 d’abr. 2019 a les 15:58:


Joan,

Ho he provat amb un cas senzill de cursiva enmig de paraula i
efectivament fa bé la traducció, cosa que no passa en la versió
actual d'Apertium.
Si es pogués incorporar aquesta millora, seria un avantatge
important per a tothom. Via 'pull request' potser?

Salutacions,
Jaume Ortolà



Missatge de Joan Moratinos Jaume mailto:jmorati...@gmail.com>> del dia dt., 30 d’abr. 2019 a les
12:47:

Ho pots provar a https://apertium.jmoratinos.com/dev/

On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font
mailto:jaumeort...@gmail.com>> wrote:

Bon dia, Joan.

Això pot ser molt interessant. Sé que hi havia gent
desesperada amb aquest problema, i que necessitaven
urgentment solucions. Per exemple, a la conselleria de
cultura de la Generalitat valenciana, però supose que és
una necessitat general per a tota la comunitat d'Apertium.

Jo no hi estic implicat directament, i no sé si ja ho
tenen resolt. Tampoc no sé fins a quin punt pot ajudar la
teua solució. Com ho podríem provar?

Segur que hi ha gent de la llista que està al corrent de
la qüestió.

Salutacions,
Jaume Ortolà

Missatge de Joan Moratinos Jaume mailto:jmorati...@gmail.com>> del dia dt., 30 d’abr. 2019
a les 12:36:

He detectat que de vegades paraules corrents es
tradueixen malament en documents .docx (de Microsoft
Word). La culpa del problema són divisions enmig de
les paraules, volguts (p.e. una paraula mig en
cursiva) o espuris (generats per Word). He fet un
petit programa en Python que reemplaça un script d'awk
dins /usr/local/bin/apertium. Si detecta una paraula
migpartida entre dos o més tags, l'agrupa tota en el
primer i esborra els eventuals tags superflus. El
resultat de la traducció és millor que l'original.


-- 
Joan Moratinos

jmorati...@gmail.com 
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net

https://lists.sourceforge.net/lists/listinfo/apertium-catala



-- 
Joan Moratinos

jmorati...@gmail.com 

___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net

https://lists.sourceforge.net/lists/listinfo/apertium-catala



___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


--
Mikel L. Forcada  http://www.dlsi.ua.es/~mlf/
Departament de Llenguatges i Sistemes Informàtics
Universitat d'Alacant
E-03690 Sant Vicent del Raspeig
Spain
Office: +34 96 590 9776

___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Donís Seguí
Bon dia,

Sóc Donís, el coordinador, per part de la Conselleria, del programa salt,
basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la Conselleria
d'Educació estem molt interessats en aquest tema. Jaume i jo n'hem parlat
moltes vegades, és un dels problemes que la gent tira més en cara del nou
Salt. Hauríem de mirar com es pot aplicar aquest script, ja que seria una
millora molt important per al programa.

Salutacions
Donís Seguí



Missatge de Jaume Ortolà i Font  del dia dt., 30
d’abr. 2019 a les 15:58:

> Joan,
>
> Ho he provat amb un cas senzill de cursiva enmig de paraula i efectivament
> fa bé la traducció, cosa que no passa en la versió actual d'Apertium.
> Si es pogués incorporar aquesta millora, seria un avantatge important per
> a tothom. Via 'pull request' potser?
>
> Salutacions,
> Jaume Ortolà
>
>
>
> Missatge de Joan Moratinos Jaume  del dia dt., 30
> d’abr. 2019 a les 12:47:
>
>> Ho pots provar a https://apertium.jmoratinos.com/dev/
>>
>> On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font 
>> wrote:
>>
>>> Bon dia, Joan.
>>>
>>> Això pot ser molt interessant. Sé que hi havia gent desesperada amb
>>> aquest problema, i que necessitaven urgentment solucions. Per exemple, a la
>>> conselleria de cultura de la Generalitat valenciana, però supose que és una
>>> necessitat general per a tota la comunitat d'Apertium.
>>>
>>> Jo no hi estic implicat directament, i no sé si ja ho tenen resolt.
>>> Tampoc no sé fins a quin punt pot ajudar la teua solució. Com ho podríem
>>> provar?
>>>
>>> Segur que hi ha gent de la llista que està al corrent de la qüestió.
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>> Missatge de Joan Moratinos Jaume  del dia dt., 30
>>> d’abr. 2019 a les 12:36:
>>>
 He detectat que de vegades paraules corrents es tradueixen malament en
 documents .docx (de Microsoft Word). La culpa del problema són divisions
 enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris
 (generats per Word). He fet un petit programa en Python que reemplaça un
 script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
 migpartida entre dos o més tags, l'agrupa tota en el primer i esborra els
 eventuals tags superflus. El resultat de la traducció és millor que
 l'original.


 --
 Joan Moratinos
 jmorati...@gmail.com
 ___
 Apertium-catala mailing list
 Apertium-catala@lists.sourceforge.net
 https://lists.sourceforge.net/lists/listinfo/apertium-catala

>>>
>>
>> --
>> Joan Moratinos
>> jmorati...@gmail.com
>>
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Jaume Ortolà i Font
Joan,

Ho he provat amb un cas senzill de cursiva enmig de paraula i efectivament
fa bé la traducció, cosa que no passa en la versió actual d'Apertium.
Si es pogués incorporar aquesta millora, seria un avantatge important per a
tothom. Via 'pull request' potser?

Salutacions,
Jaume Ortolà



Missatge de Joan Moratinos Jaume  del dia dt., 30
d’abr. 2019 a les 12:47:

> Ho pots provar a https://apertium.jmoratinos.com/dev/
>
> On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font 
> wrote:
>
>> Bon dia, Joan.
>>
>> Això pot ser molt interessant. Sé que hi havia gent desesperada amb
>> aquest problema, i que necessitaven urgentment solucions. Per exemple, a la
>> conselleria de cultura de la Generalitat valenciana, però supose que és una
>> necessitat general per a tota la comunitat d'Apertium.
>>
>> Jo no hi estic implicat directament, i no sé si ja ho tenen resolt.
>> Tampoc no sé fins a quin punt pot ajudar la teua solució. Com ho podríem
>> provar?
>>
>> Segur que hi ha gent de la llista que està al corrent de la qüestió.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>> Missatge de Joan Moratinos Jaume  del dia dt., 30
>> d’abr. 2019 a les 12:36:
>>
>>> He detectat que de vegades paraules corrents es tradueixen malament en
>>> documents .docx (de Microsoft Word). La culpa del problema són divisions
>>> enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris
>>> (generats per Word). He fet un petit programa en Python que reemplaça un
>>> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
>>> migpartida entre dos o més tags, l'agrupa tota en el primer i esborra els
>>> eventuals tags superflus. El resultat de la traducció és millor que
>>> l'original.
>>>
>>>
>>> --
>>> Joan Moratinos
>>> jmorati...@gmail.com
>>> ___
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>>
>
> --
> Joan Moratinos
> jmorati...@gmail.com
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Jaume Ortolà i Font
Bon dia, Joan.

Això pot ser molt interessant. Sé que hi havia gent desesperada amb aquest
problema, i que necessitaven urgentment solucions. Per exemple, a la
conselleria de cultura de la Generalitat valenciana, però supose que és una
necessitat general per a tota la comunitat d'Apertium.

Jo no hi estic implicat directament, i no sé si ja ho tenen resolt. Tampoc
no sé fins a quin punt pot ajudar la teua solució. Com ho podríem provar?

Segur que hi ha gent de la llista que està al corrent de la qüestió.

Salutacions,
Jaume Ortolà

Missatge de Joan Moratinos Jaume  del dia dt., 30
d’abr. 2019 a les 12:36:

> He detectat que de vegades paraules corrents es tradueixen malament en
> documents .docx (de Microsoft Word). La culpa del problema són divisions
> enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris
> (generats per Word). He fet un petit programa en Python que reemplaça un
> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
> migpartida entre dos o més tags, l'agrupa tota en el primer i esborra els
> eventuals tags superflus. El resultat de la traducció és millor que
> l'original.
>
>
> --
> Joan Moratinos
> jmorati...@gmail.com
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Joan Moratinos Jaume
He detectat que de vegades paraules corrents es tradueixen malament en
documents .docx (de Microsoft Word). La culpa del problema són divisions
enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris
(generats per Word). He fet un petit programa en Python que reemplaça un
script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
migpartida entre dos o més tags, l'agrupa tota en el primer i esborra els
eventuals tags superflus. El resultat de la traducció és millor que
l'original.


-- 
Joan Moratinos
jmorati...@gmail.com
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala