Re: [Apertium-stuff] Arpitan

2020-02-05 Thread Hèctor Alòs i Font
Merci, Bernard. En fait je ne pensais pas spécialement à toi. J'ai écrit en
français parce que si quelqu'un a travaillé sur l'arpitan, sans doute
il/elle sait le français aussi.

Sur l'arpitan j'ai des nombreuses sources et je suis en contact avec des
linguistes et des activistes. Ce sont eux qui m'ont donné un dictionnaire
bilingue électronique qui pourra être utilisé sur Apertium (ils n'ont donné
les droits). Il s'agit, donc, de créer des dizaines de paradigmes, tant
verbaux comme nominaux, et de voire la meilleure façon d'exploiter ce
dictionnaire. Il est en Word et ce n'est pas tout à fait évident de pouvoir
le convertir automatiquement dans une table type Excel pour créer le
dictionnaire bilingue sur Apertium. Je n'ai pas encore bien regardé. Je
suis en train de fermer une nouvelle version du français-catalan, que
j'espère finir aujourd'hui ou demain, et je me pencherai sur l'arpitan tout
de suite après. Je n'ai pas encore créé une langue de zéro sur Apertium.
Jusqu'à présent, j'avais toujours trouvé que quelqu'un avait déjà fait un
dictionnaire morphologique (peut-être petit, mais en tout cas il existait
et c'était extrêmement utile). C'est pourquoi j'ai lancé la question.

En fait, puisque nous touchons aussi au français, selon ce que je vois des
textes de test pour le français-catalan, la "nouvelle" norme orthographique
du français parait un peu plus utilisée qu'auparavant. J'ai trouvé assez de
mots qui n'étaient pas reconnus à cause d'un circonflexe ou un trait
d'union qui manquait. Donc peut-être faudra-t-il songer à mettre en place
sur le dictionnaire morphologique français d'Apertium des étiquettes pour
distinguer la norme "classique" de la nouvelle (qui, quand même, parait
être beaucoup moins utilisée que la première). C'est du travail, mais je
l'ai fait l'été dernier pour le portugais, pour lequel on a mis sur
l'internet des listes de paires de mots avec la norme ancienne et la
nouvelle, ainsi que d'autres ressources, qui ont permis de faire le boulot
sans un gros effort. Pour le français, je ne sais pas certain que tout cela
existe. Et en tout cas, il faut que nous tous, qui travaillons sur le
français sur Apertium, soyons d'accord que cela soit nécessaire. Je ne veux
pas casser les traducteurs français-portugais, français-espéranto et
français-italien qui sont en développement.

Maintenant sur le dictionnaire monolingue français nous avons des tas de
formes doubles, presque toujours sans indication de la norme orthographique
à laquelle ils appartiennent. Cela permet de reconnaître les mots, mais pas
de contrôler si, au moment de la production, on génère un français selon
une norme ou une autre au lieu d'un hybride. Puisque je ne suis pas un
philologue, je suis sûr que je génère un hybride (bien que très penché sur
la norme "classique", que j'ai appris à l'école... mais que j'oublie
souvent à cause de sa difficulté et de mon manque de pratique écrite).

Cordialement,
Hèctor

Missatge de Bernard Chardonneau  del dia dj., 6 de
febr. 2020 a les 2:31:

> > Date: Sat, 11 Jan 2020 17:29:56 +0300
> > From: Hèctor Alòs i Font 
> > To: "[apertium-stuff]" 
> > Reply-To: apertium-stuff@lists.sourceforge.net
> > Subject: [Apertium-stuff] Arpitan
> > Pièce(s) jointes(s) probable(s)>
> > Je veux commencer à travailler sur l'arpitan en utilisant l'Orthographe
> de
> > Référence B (la codification supradialectale tant pour l'orthographe
> comme
> > pour la plupart du lexique et de la morphologie). Il n'y pas
> d'apertium-frp
> > à github. Y aurait-il peut-être quelqu'un ici qui aurait
> > déjà travaillé à
> > cette langue et codification ? Je ne voudrais commencer à zéro s'il y a
> du
> > travail fait quelque part qui puisse être réutilisé.
> > Hèctor
> >
>
> A priori, personne ne t'as répondu et si tu as écrit ce message en
> français,
> c'est peut être en pensant à moi.
>
> Pour ma part, je n'ai pas d'information particulière sur qui aurait pu
> travailler sur les langues régionales de France, mais une recherche dans
> wikipedia donne un lieu ou se renseigner :
>
> https://fr.wikipedia.org/wiki/Centre_d'études_francoprovençales
>
> 
> Bernard Chardonneau (France)
> Phone : [33] 9 72 36 32 90
> GSM phone : [33] 7 69 46 16 31
>
> An alternative Apertium translation website :
> http://apertiumtrad.tuxfamily.org
>
> Multilingual websites for my free softwares :
> http://libremail.free.fr and http://libremail.tuxfamily.org
> http://cyloop.tuxfamily.org (mainly translated with Apertium)
>
> My general website (in french only)
> http://bech.free.fr
>
>
> ___
> Apertium-stuff mailing list
> Apertium-stuff@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-stuff
>
___
Apertium-stuff mailing list
Apertium-stuff@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-stuff


Re: [Apertium-stuff] Arpitan

2020-02-05 Thread Bernard Chardonneau
> Date: Sat, 11 Jan 2020 17:29:56 +0300
> From: Hèctor Alòs i Font 
> To: "[apertium-stuff]" 
> Reply-To: apertium-stuff@lists.sourceforge.net
> Subject: [Apertium-stuff] Arpitan
> Pièce(s) jointes(s) probable(s)>
> Je veux commencer à travailler sur l'arpitan en utilisant l'Orthographe de
> Référence B (la codification supradialectale tant pour l'orthographe comme
> pour la plupart du lexique et de la morphologie). Il n'y pas d'apertium-frp
> à github. Y aurait-il peut-être quelqu'un ici qui aurait
> déjà travaillé à
> cette langue et codification ? Je ne voudrais commencer à zéro s'il y a du
> travail fait quelque part qui puisse être réutilisé.
> Hèctor
>

A priori, personne ne t'as répondu et si tu as écrit ce message en français,
c'est peut être en pensant à moi.

Pour ma part, je n'ai pas d'information particulière sur qui aurait pu
travailler sur les langues régionales de France, mais une recherche dans
wikipedia donne un lieu ou se renseigner :

https://fr.wikipedia.org/wiki/Centre_d'études_francoprovençales


Bernard Chardonneau (France)
Phone : [33] 9 72 36 32 90
GSM phone : [33] 7 69 46 16 31

An alternative Apertium translation website :
http://apertiumtrad.tuxfamily.org

Multilingual websites for my free softwares :
http://libremail.free.fr and http://libremail.tuxfamily.org
http://cyloop.tuxfamily.org (mainly translated with Apertium)

My general website (in french only)
http://bech.free.fr


___
Apertium-stuff mailing list
Apertium-stuff@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-stuff


Re: [Apertium-stuff] Lexd: a transducer compiler for prefixes and stuff

2020-02-05 Thread Flammie A Pirinen
On Tue, Feb 04, 2020 at 12:55:55PM -0500, Daniel Swanson wrote:
> > Do you have plans on doing tests
> > on runtime efficiency, i.e. how fast it is to run the automata on texts?
> > One thing that we found with flag diacritics on lexc is is that it's
> > kindof possible to abuse them to optimise the compiled stuff and it'd
> > probably be interesting to see here too, I see there's something with
> > flags in the code already?
> 
> It can compile with or without flag diacritics, though the flag mode was
> mostly an afterthought and I haven't really tested it yet.

Yeah so if the flag mode stuff works it can be interesting for testing
if flags optimise certain morphotactics or not.

> For non-flag runtimes, the transducers should be the same as lexc + twoc,
> apart from alignment differences (a:b c:0 vs a:0 c:b) and state numbers, so
> I assumed it would have the same performance, but maybe I should double
> check.

Yeah, the --align option of hfst-lexc is there because alignment
differences in worst cases are bad; especially as lexc is usually
followed by further processing, I haven't checked the theory but from
experience I'd estimate it can get exponentially worse, it certainly
made some bigger langs uncompileable.

In the end though this is all usually only noticeable with rather large
old language models like Finnish or North Sámi.

-- 
Regards, Flammie 
(Please note, that I will often include my replies inline instead of
top or bottom of the mail)


signature.asc
Description: PGP signature
___
Apertium-stuff mailing list
Apertium-stuff@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-stuff