Thierry Mella wrote:
Jean-Michel Reghem wrote:

http://demo.acapela-group.com
Impressionnant ! Le UK English est nettement plus "beau" que le US English (comme dans la réalité ... :-) )

Mais qu'en est-il de la reconnaissance vocale ? Lernhout & Hauspie s'y sont cassés les dents à l'époque.



Lernout & hauspie avait (entre autre) acheté Dragon System et leur système de dictée vocale... qui étais déjà très bon à l'époque. Après la faillite, les actifs de L&H (y compris Dragon et RealSpeak, leur système de synthèse) ont été acheté par Scansoft (ceux qui font omnipage) ... Depuis, scansoft a absorbé la reconnaissance vocale de Philips, un gros concurrent américain de synthèse vocale: Speechworks, des britaniques (rhétorical) ... et dernièrement, ils ont fusionnés avec leur autre gros concurrent américain, spécialiste de reconnaissance vocale et de serveurs téléphoniques: Nuance, dont ils ont gardé le nom ... Bref, Dragon est toujours vendu maintenant par Nuance si vous avez bien suivi ... et le marché mondial du speech est beaucoup plus consolidé ...

Chez Acapela, nous faisons aussi de la reconnaissance vocale, sous windows, mac et linux, mais principalement comme fournisseur de technologies à des fabricants de logiciels ... (entre autre dans l'éducation et l'apprentissage des langues) Il faut savoir que dans la reconnaissance vocale, il y a 2 mondes: La dictée vocale (Nuance avec Dragon, IBM ViaVoice, précurseurs en la matière, Microsoft, avec la future reco intégrée dans Vista ... ) et les sytèmes ASR (automatique speech recognition) utilisés en "command & control". En gros, la première catégorie sert à retranscrire des textes, souvent après un apprentissage du locuteur. L'ASR, par contre, est souvent multi-locuteur: sans entrainement, le système devant être capable de reconnaitre n'importe qui ... mais avec une grammaire bien déterminée ... par exemple, 10 mots, oui ou nom, une centaine de noms de rues, 1000 noms de villes, etc... Le but dans ce cas est d'extraire un ou plusieurs mot clé d'une phrase et de poursuivre le programme en fonction des résultats (exemple: serveurs téléphoniques "dites le nom de la personne à qui vous voulez parlez" ou la reconnaissance vocale incorporée dans Mac OS X. Ces 2 applications utilisent des technologies assez différentes ... Chez nous, on fait de l'ASR, pas des systèmes de dictées ...

---> La technologie a-t-elle progressée depuis ???

Thierry
Au niveau ASR, les serveurs téléphoniques à base de reconnaissance vocale augmente assez bien en part de marché ...

Point de vue dictée vocale, je crois que ca s'est sensiblement amélioré, à condition de se tenir à une discipline d'utilisation assez stricte ... Quelqu'un qui tape lentement pourrait y trouver une utilisation. Quelqu'un qui tape 180 mots / minutes non, parce que même si il arrive à avoir un système précis à 99%, ca fait quand même 2 erreurs à corriger ... Par contre, une application qui commence à voir le jour, c'est l'extraction en dictée vocale de textes enregistrés sur dictaphone ... Mais le rêve de L&H (traducteurs automatique via Reconnaissance vocale --> traduction --> Text to speech) n'est pas encore prêt de sortir ...

Jean-Michel

--

Jean-Michel Reghem
Research and Development Engineer Text To Speech - Generic SDK
E-Mail : mailto:[EMAIL PROTECTED]

Acapela Group
Boulevard Dolez 33  B-7000 Mons (Belgium)
Tel: +32-(0)65 37.43.06 http://www.acapela-group.com

--
New CyberCafe address: http://cybercafe.exmachina.tv
Cette liste vous est offerte par Emakina <http://www.emakina.com/>
Emakina: technologie et creativite au service de vos projets Web.
Desabonnement par email :  <mailto:[EMAIL PROTECTED]>

Répondre à