Hello,

Vous avez sûrement entendu parler de DeepSpeech et Common Voice, le
premier visant à fournir une implémentation d'un système de
reconnaissance vocale, le second visant à collecter des données en vue
de pouvoir (entre-autre mais pas seulement) entraîner le second.

Depuis le départ, Common Voice n'était disponible qu'en anglais. À
présent, le projet est localisable (et localisé). Je passe donc un appel
aux premières bonnes volontés sur la liste, pour qu'on s'organise et
qu'on puisse passer à la prochaine (grosse) étape : constituer un corpus
de texte à placer sur Common Voice, que les gens lirons.

Attention, il ne s'agit pas simplement de prendre du texte et de le
balancer, il faut faire en sorte de collecter des données qui sont «
utilisables », le plus proche possible de ce que le système devra
reconnaître dans la nature. Par exemple, des dialogues de films, de
livres, des débats, etc.

L'autre grosse contrainte est qu'il faut arriver à obtenir du texte sous
licence CC-0. La contrainte vient de Common Voice, il faut pas m'en
vouloir :).

L'équipe Common Voice est en train de travailler sur un guide pour
donner les bonnes pratiques et aider la communauté, mais cela ne nous
empêche pas de commencer à nous organiser. Quelqu'un sur Discourse a
déjà mentionné des Framabook en CC-0. Il y a de l'Open Data sur le site
de l'Assemblée Nationale, mais je ne suis pas certain quant à la
licence. L'Europe propose aussi beaucoup de resources.

Je ne sais pas quel serait le meilleur endroit pour coordonner tout ça,
la liste ? Un github dans mozfr ? Un fil de discussion Discourse dans
Common Voice ? Autre ?

_______________________________________________
Moz-fr mailing list
Moz-fr@mozfr.org
https://listes.mozfr.org/mailman/listinfo/moz-fr

Répondre à