Le Mon, 2 Nov 2009 19:41:30 +0100
Aldo <i...@brlspeak.net> écrivait:

> question:
> quelqu'un a-t-il un document txt récent AVEC des accents dedant, qu'il
> pourrait convertir en .ps par paps:
> si ça marche alors le bug est en amont, cad probab dans l'ocr.
> Si c'est dns paps alors faut que je le rapporte pour que ça soit fixé dans
> une version ultérieure.
> 
Bonsoir,
je viens d'essayer de convertir un texte récent (en utf8)  par paps : pas de 
pbs.
je joins les 2 fichiers
cordialement
erwin

-----------------------------------------
configuration de sphinx4 pour le français 
-----------------------------------------

après récupération de l'archive "french_f0.tgz" 
(http://sourceforge.net/projects/cmusphinx/files/) 
du LIUM (Laboratoire d'Informatique de l'Université du Maine 
(http://www-lium.univ-lemans.fr/)
il faut modifier la structure des répertoires pour la rendre conforme à la 
structure adoptée 
par l'Université Carnegie-Mellon et copier dans ces répertoires les fichiers 
nécessaires.

sphinx4_fr0.jar
   |
   +- edu
       |
       +- cmu
           |
           +- sphinx
               |
               +- model
                   |
                   + acoustic
                          |
                          + fr0
                         |
                         | - model.props
                         | - Model.java
                         | - ModelLoader.java
                         | - PropertiesDumper.java
                         | - LICENCE
                         | - README
                         |
                         + - cd_continuous
                                  |  
                                  | - means
                                  | - variances
                                  | - mixture_weights
                                  | - transition_matrices
                                  |
                         + - dict
                                  |  
                                  | - frenchWords62k.dic
                                  | - frenchFillers.dic
                                  |
                         + - etc
                                  |
                                  | - french_f0.5725.mdef

---------
à noter :
---------

model.props est nommé dans l'archive originale du LIUM "am.props" 
il faut le renommer en "model.props" et ajouter les 2 lignes suivantes :
        dataLocation = cd_continuous
        modelDefinition = etc/french_f0.5725.mdef
        
les 2 dictionnaires doivent être enregistrés en utf-8 !

les trois fichiers sources java sont à récupérer dans les sources de Sphinx4
copiés et modifiés de façon à refléter la structure:
        "package edu.cmu.sphinx.model.acoustic.fr0;"
ils doivent être compilés dans le répertoire d'installation.

pour terminer, il ne reste plus qu'à générer le fichier "sphinx4_fr0.jar"

Attachment: lisez-moi.ps
Description: PostScript document

Répondre à