Hello, Vous avez sûrement entendu parler de DeepSpeech et Common Voice, le premier visant à fournir une implémentation d'un système de reconnaissance vocale, le second visant à collecter des données en vue de pouvoir (entre-autre mais pas seulement) entraîner le second.
Depuis le départ, Common Voice n'était disponible qu'en anglais. À présent, le projet est localisable (et localisé). Je passe donc un appel aux premières bonnes volontés sur la liste, pour qu'on s'organise et qu'on puisse passer à la prochaine (grosse) étape : constituer un corpus de texte à placer sur Common Voice, que les gens lirons. Attention, il ne s'agit pas simplement de prendre du texte et de le balancer, il faut faire en sorte de collecter des données qui sont « utilisables », le plus proche possible de ce que le système devra reconnaître dans la nature. Par exemple, des dialogues de films, de livres, des débats, etc. L'autre grosse contrainte est qu'il faut arriver à obtenir du texte sous licence CC-0. La contrainte vient de Common Voice, il faut pas m'en vouloir :). L'équipe Common Voice est en train de travailler sur un guide pour donner les bonnes pratiques et aider la communauté, mais cela ne nous empêche pas de commencer à nous organiser. Quelqu'un sur Discourse a déjà mentionné des Framabook en CC-0. Il y a de l'Open Data sur le site de l'Assemblée Nationale, mais je ne suis pas certain quant à la licence. L'Europe propose aussi beaucoup de resources. Je ne sais pas quel serait le meilleur endroit pour coordonner tout ça, la liste ? Un github dans mozfr ? Un fil de discussion Discourse dans Common Voice ? Autre ? _______________________________________________ Moz-fr mailing list Moz-fr@mozfr.org https://listes.mozfr.org/mailman/listinfo/moz-fr