> User-Agent: Roundcube Webmail/1.2.3 > Date: Wed, 25 Jan 2017 11:12:21 +0100 > From: [email protected] > To: [email protected] > Reply-To: [email protected] > Subject: Re: [Apertium-stuff] Tr: Re: Duplicate entries in > apertium-fr-es.fr.metadix > > > > But may be historical developpers of fr-es langage pair would prefer > > to keep a="something" comments. So, a more complicated tool would be > > usefull to do automatically this kind of work. > > It should be possible to regroup the different authors, comments and > lemmas in a single entry, for example: > > <e lm="abîme" a="eleka"><i>abîme</i><par n="livre__n"/></e> > <e lm="abîme" a="webform"><i>abîme</i><par n="livre__n"/></e> > > would become: > > <e lm="abîme" a="eleka/webform"><i>abîme</i><par n="livre__n"/></e>
Good idea ! > À ce sujet, j'ai essayé d'appliquer lt-trim sur les dictionnaires > d'apertium-es-pt, puis en effectuant la traduction d'un long texte pour > voir quelle différence j'obtenais, j'ai remarqué que du portugais vers > l'espagnol "resumir-se-ia" n'était plus traduit par "se resumiría" mais > par "resumirse-iba". > > Sais-tu s'il y a une contre-indication à appliquer lt-trim sur une paire > de langue comme apertium-es-pt ou s'il peut s'agir d'un bug dans > lt-trim? Je n'ai pas eu l'occasion d'utiliser lt-trim. Normalement, un dictionnaire morphologique d'Apertium (monodix) doit contenir seulement les mots qui ont une traduction dans le dictionnaire bilingue (bidix). Si un mot est répertorié dans le monodix mais n'a pas de traduction, on retrouvera dans le texte cible le lemme associé à ce mot précédé d'un @. Le symbole d'erreur @ est très rare dans une paire validée, signe que ce problème ne se pose pas en général. Une évolution récente d'Apertium consiste à séparer par langues la partie consistant à - analyser et désambiguiser les textes d'une langue - générer et postgénérer du texte dans cette langue de la partie "traduction" qui est spécifique à chaque paire de langues et qui comprend le dictionnaire bilingue et les fichiers de transfert. En procédant ainsi, un monodix d'une langue devra répertorier tous les mots issus des différents dictionnaires bilingues concernant cette langue. Mais par contre les dictionnaires bilingues de chacune des paires ne sont pas obligés de connaitre tous les mots des 2 langues qu'ils traitent. Pour revenir au cas précédent et éviter les @ dans les traductions pour leur préférer des * (mot inconnu), on "trime" les dictionnaires morphologiques compilés des deux langues utilisés dans la paire de langues. Si une paire de langues utilise ses propres monodices et qu'ils sont conformes au bidix, idéalement, le lt-trim ne devrait rien y changer. Pour comparer, on peut faire un lt-expand des fichiers binaires avant et après le lt-trim puis un diff pour voir ce qui a changé. A noter que la page de man de lt-trim indique que c'est un outil espérimental qui n'a pas été autant testé que les autres outils d'Apertium. > -- > Gabriel Paderni > www.phone-m.com > +33 9 84 34 20 20 > > -------------------------------- Bernard Chardonneau (France) Phone : [33] 9 72 36 32 90 GSM phone : [33] 7 69 46 16 31 Multilingual websites for my free softwares : http://libremail.free.fr and http://libremail.tuxfamily.org http://cyloop.tuxfamily.org (mainly translated with Apertium) My general website (in french only) http://bech.free.fr ------------------------------------------------------------------------------ Check out the vibrant tech community on one of the world's most engaging tech sites, SlashDot.org! http://sdm.link/slashdot _______________________________________________ Apertium-stuff mailing list [email protected] https://lists.sourceforge.net/lists/listinfo/apertium-stuff
