> User-Agent: Roundcube Webmail/1.2.3
> Date: Wed, 25 Jan 2017 11:12:21 +0100
> From: [email protected]
> To: [email protected]
> Reply-To: [email protected]
> Subject: Re: [Apertium-stuff] Tr: Re: Duplicate entries in
>  apertium-fr-es.fr.metadix
>
>
> > But may be historical developpers of fr-es langage pair would prefer
> > to keep a="something" comments. So, a more complicated tool would be
> > usefull to do automatically this kind of work.
>
> It should be possible to regroup the different authors, comments and 
> lemmas in a single entry, for example:
>
> <e lm="abîme" a="eleka"><i>abîme</i><par n="livre__n"/></e>
> <e lm="abîme" a="webform"><i>abîme</i><par n="livre__n"/></e>
>
> would become:
>
> <e lm="abîme" a="eleka/webform"><i>abîme</i><par n="livre__n"/></e>

Good idea !


> À ce sujet, j'ai essayé d'appliquer lt-trim sur les dictionnaires 
> d'apertium-es-pt, puis en effectuant la traduction d'un long texte pour 
> voir quelle différence j'obtenais, j'ai remarqué que du portugais vers 
> l'espagnol "resumir-se-ia" n'était plus traduit par "se resumiría" mais 
> par "resumirse-iba".
>
> Sais-tu s'il y a une contre-indication à appliquer lt-trim sur une paire 
> de langue comme apertium-es-pt ou s'il peut s'agir d'un bug dans 
> lt-trim?

Je n'ai pas eu l'occasion d'utiliser lt-trim. Normalement, un dictionnaire
morphologique d'Apertium (monodix) doit contenir seulement les mots qui ont
une traduction dans le dictionnaire bilingue (bidix).

Si un mot est répertorié dans le monodix mais n'a pas de traduction, on
retrouvera dans le texte cible le lemme associé à ce mot précédé d'un @.

Le symbole d'erreur @ est très rare dans une paire validée, signe que ce
problème ne se pose pas en général.

Une évolution récente d'Apertium consiste à séparer par langues la partie
consistant à
- analyser et désambiguiser les textes d'une langue
- générer et postgénérer du texte dans cette langue
de la partie "traduction" qui est spécifique à chaque paire de langues et
qui comprend le dictionnaire bilingue et les fichiers de transfert.

En procédant ainsi, un monodix d'une langue devra répertorier tous les mots
issus des différents dictionnaires bilingues concernant cette langue.
Mais par contre les dictionnaires bilingues de chacune des paires ne sont
pas obligés de connaitre tous les mots des 2 langues qu'ils traitent.

Pour revenir au cas précédent et éviter les @ dans les traductions pour leur
préférer des * (mot inconnu), on "trime" les dictionnaires morphologiques
compilés des deux langues utilisés dans la paire de langues.

Si une paire de langues utilise ses propres monodices et qu'ils sont conformes
au bidix, idéalement, le lt-trim ne devrait rien y changer.

Pour comparer, on peut faire un lt-expand des fichiers binaires avant et
après le lt-trim puis un diff pour voir ce qui a changé.

A noter que la page de man de lt-trim indique que c'est un outil espérimental
qui n'a pas été autant testé que les autres outils d'Apertium.

> -- 
> Gabriel Paderni
> www.phone-m.com
> +33 9 84 34 20 20
>
>
--------------------------------
Bernard Chardonneau (France)
Phone : [33] 9 72 36 32 90
GSM phone : [33] 7 69 46 16 31

Multilingual websites for my free softwares :
http://libremail.free.fr and http://libremail.tuxfamily.org
http://cyloop.tuxfamily.org (mainly translated with Apertium)

My general website (in french only)
http://bech.free.fr

------------------------------------------------------------------------------
Check out the vibrant tech community on one of the world's most
engaging tech sites, SlashDot.org! http://sdm.link/slashdot
_______________________________________________
Apertium-stuff mailing list
[email protected]
https://lists.sourceforge.net/lists/listinfo/apertium-stuff

Reply via email to