Re: OCR et Linux
Pour dire vrai je n'ai jamais calculé le nombre de fautes. Mais c'est sûr que c'est pas un mot sur 20 qui n'est pas reconnu. Le pire exemple que j'ai ces des pages texte au format jpg de mauvaise qualité, j'utilise pour ça cuneiform en ligne de commande, ça marche assez bien même si ça demande une bonne relecture. Mais quand la page est bonne pas besoin de relecture. Mais c'est vrai que je ne scanne jamais des choses bien complexe. Pour les colonnes, cuneiform dans xsane les reconnaît. Mais c'est certain que vu tes besoins (je ne crois pas les avoir lu dans un autre message), ces logiciels ne semblent pas convenir. As-tu au moins essayé? Ça serait bien d'avoir un retour. un moment j'ai aussi utilisé gscan2pdf, mais je trouve qu'Xsane avec cuneiform fonctionne mieux. Amicalement, PS: j'ai aussi un moment travaillé avec ocropus de google On Mon, 16 Jun 2014 22:30:59 +0200 jguezenec jgueze...@yahoo.fr wrote: Je change de titre, c'est plus correct. 95 %, c'est 1 mot non reconnu sur 20 mots ... C'est pas terrible. 300 mots par page d'un livre pocket, ça fait 15 erreurs par page. Dès que tu passe à des revues complexes (tableaux, colonnes, etc..) , je suis certain que tu n'es plus à 95 %. Sous Fine Reader ou Omnipage, tu es à 99,5 %; tu as reconnaissance des colonnes, des tableaux, des images, etc... J'ai dû, dans les années 95, reprendre tout le texte d'un livre de plus de 400 pages, pour réédition (le manuscrit avait été perdu, et l'auteur changeait de maison d'édition. - La mort transfiguré, un ouvrage collectif sur les NDE). Malgré Fine Reader, j'y ai passé des semaines (surtout que c'était un livre scientifique, avec des références constantes à des articles en différentes langues). Aujourd'hui, ces logiciels (qui ne tournent que sous Windows, sauf Fine Reader qui a une édition Mac) sont capables de scanner et reconnaître des choses aussi complexes que des journaux (le papier est semi-transparent et ce qui est écrit au verso transparaît au recto)... JG Le 16/06/2014 21:12, Benoît Lafricain a écrit : Ben t'utilise quoi? franchement il arrive que j'ai du 95 %. Faut pas non plus que ton texte soit sale. Le 16/06/2014, jguezenecjgueze...@yahoo.fr a écrit : On ne doit pas avoir les mêmes documents à scanner et Ocriser... JG Le 16/06/2014 17:41, Benoît Lafricain a écrit : Bon j'ai pas suivi attentivement ce post, mais j'ai juste été étonné de lire qu'il n'y a rien pour l'OCR sous ubuntu, J'utilise depuis 5ans cuneiform avec xsane et ça marche merveilleusement bien ! -- Liste de diffusion ubuntu-fr ubuntu-fr@lists.ubuntu.com Pour s'abonner ou se désabonner : https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr Charte de la liste: http://doc.ubuntu-fr.org/groupes/ubuntu-fr-ml/charte -- Liste de diffusion ubuntu-fr ubuntu-fr@lists.ubuntu.com Pour s'abonner ou se désabonner : https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr Charte de la liste: http://doc.ubuntu-fr.org/groupes/ubuntu-fr-ml/charte -- L'Africain lafricai...@gmail.com -- Liste de diffusion ubuntu-fr ubuntu-fr@lists.ubuntu.com Pour s'abonner ou se désabonner : https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr Charte de la liste: http://doc.ubuntu-fr.org/groupes/ubuntu-fr-ml/charte
OCR et Linux
Je change de titre, c'est plus correct. 95 %, c'est 1 mot non reconnu sur 20 mots ... C'est pas terrible. 300 mots par page d'un livre pocket, ça fait 15 erreurs par page. Dès que tu passe à des revues complexes (tableaux, colonnes, etc..) , je suis certain que tu n'es plus à 95 %. Sous Fine Reader ou Omnipage, tu es à 99,5 %; tu as reconnaissance des colonnes, des tableaux, des images, etc... J'ai dû, dans les années 95, reprendre tout le texte d'un livre de plus de 400 pages, pour réédition (le manuscrit avait été perdu, et l'auteur changeait de maison d'édition. - La mort transfiguré, un ouvrage collectif sur les NDE). Malgré Fine Reader, j'y ai passé des semaines (surtout que c'était un livre scientifique, avec des références constantes à des articles en différentes langues). Aujourd'hui, ces logiciels (qui ne tournent que sous Windows, sauf Fine Reader qui a une édition Mac) sont capables de scanner et reconnaître des choses aussi complexes que des journaux (le papier est semi-transparent et ce qui est écrit au verso transparaît au recto)... JG Le 16/06/2014 21:12, Benoît Lafricain a écrit : Ben t'utilise quoi? franchement il arrive que j'ai du 95 %. Faut pas non plus que ton texte soit sale. Le 16/06/2014, jguezenecjgueze...@yahoo.fr a écrit : On ne doit pas avoir les mêmes documents à scanner et Ocriser... JG Le 16/06/2014 17:41, Benoît Lafricain a écrit : Bon j'ai pas suivi attentivement ce post, mais j'ai juste été étonné de lire qu'il n'y a rien pour l'OCR sous ubuntu, J'utilise depuis 5ans cuneiform avec xsane et ça marche merveilleusement bien ! -- Liste de diffusion ubuntu-fr ubuntu-fr@lists.ubuntu.com Pour s'abonner ou se désabonner : https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr Charte de la liste: http://doc.ubuntu-fr.org/groupes/ubuntu-fr-ml/charte -- Liste de diffusion ubuntu-fr ubuntu-fr@lists.ubuntu.com Pour s'abonner ou se désabonner : https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr Charte de la liste: http://doc.ubuntu-fr.org/groupes/ubuntu-fr-ml/charte
Re: OCR
Le lundi 30 mars 2009 à 11:22 +0200, jm a écrit : Bonjour, 2 tutoriels primordiaux pour faire fonctionner l'OCR: http://doc.ubuntu-fr.org/ocr http://www.equinoxefr.org/post/2008/07/05/xsane-et-tesseract-locr-qui-marche-tres-bien-sous-linux/ Ça fonctionne parfaitement après avoir appliqué cette méthode. Bon coura merci bien aidé -- londot christian derrière le cortis, 12 4550 nandrin budo-ryu www.budoryu.net -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
OCR
Le lundi 30 mars 2009 à 11:03 +0200, londot a écrit : Le samedi 28 mars 2009 à 16:57 +0100, david bettsworth a écrit : Bonjour à tous, mais TESSERACT sous Linux fait de gros progrès, et se pose en concurrent crédible : il est installé chez moi mais je ne sais pas comment le lancer faut-il l'indiquer dans xsane? et que faut-il mettre comme commande? Bonjour, 2 tutoriels primordiaux pour faire fonctionner l'OCR: http://doc.ubuntu-fr.org/ocr http://www.equinoxefr.org/post/2008/07/05/xsane-et-tesseract-locr-qui-marche-tres-bien-sous-linux/ Ça fonctionne parfaitement après avoir appliqué cette méthode. Bon coura -- jm jmlaur...@sfr.fr -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
Re: OCR
Le lundi 30 mars 2009 à 12:50 +0200, londot a écrit : 2 tutoriels primordiaux pour faire fonctionner l'OCR: http://doc.ubuntu-fr.org/ocr http://www.equinoxefr.org/post/2008/07/05/xsane-et-tesseract-locr-qui-marche-tres-bien-sous-linux/ Ça fonctionne parfaitement après avoir appliqué cette méthode. Bonsoir, J'ai voulu tester tesseract et j'ai eu une interruption pendant le lancement de GDebi. Maintenant le Gestionnaire de mise à jour tout comme Synaptic refusent de se lancer : E: Le paquet tesseract doit être réinstallé, mais je ne parviens pas à trouver son archive. E: Erreur interne en recalculant le cache des dépendances (1). Veuillez envoyer un rapport d'anomalie. De même : sudo apt-get install -f sudo dpkg-configure -a Je sais que ce n'est pas directement lié à Tesseract, mais je ne vois pas comment me sortir de ce mauvais pas. Ni la doc ubuntu ni la doc debian ne m'ont aidé (ou je n'ai pas su lire la bonne page...) François -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
Re: OCR
Le lundi 30 mars 2009 à 22:09 +0200, francois a écrit : Le lundi 30 mars 2009 à 12:50 +0200, londot a écrit : 2 tutoriels primordiaux pour faire fonctionner l'OCR: http://doc.ubuntu-fr.org/ocr http://www.equinoxefr.org/post/2008/07/05/xsane-et-tesseract-locr-qui-marche-tres-bien-sous-linux/ Ça fonctionne parfaitement après avoir appliqué cette méthode. Bonsoir, J'ai voulu tester tesseract et j'ai eu une interruption pendant le lancement de GDebi. Maintenant le Gestionnaire de mise à jour tout comme Synaptic refusent de se lancer : E: Le paquet tesseract doit être réinstallé, mais je ne parviens pas à trouver son archive. E: Erreur interne en recalculant le cache des dépendances (1). Veuillez envoyer un rapport d'anomalie. De même : sudo apt-get install -f sudo dpkg-configure -a Je sais que ce n'est pas directement lié à Tesseract, mais je ne vois pas comment me sortir de ce mauvais pas. Ni la doc ubuntu ni la doc debian ne m'ont aidé (ou je n'ai pas su lire la bonne page...) François Il manquait peut-être cette page: http://doc.ubuntu-fr.org/tesseract-ocr Il faudrait peut-être reprendre tout à zéro. En suivant scrupuleusement ce qui est indiqué, l'ocr fonctionne de façon remarquable et innatendue pour moi qui n'utilisait plus win que pour ça, car jusqu'à présent, l'ocr sous linux laissait franchement à désirer. Je l'ai installé sur 2 machines différentes et cela fonctionne du tonnerre. Je ne suis pas assez calé pour dire pourquoi tu as eu un blocage (peut être une mauvaise version de tesseract, car toutes ne fonctionnent pas et il y a celle pour les 64 bits). Courage Jean-Marc -- jm jmlaur...@sfr.fr -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
ocr output
Salut je ne comprend rien ces jours ci mon ocr ne fonctionne plus...j'avais xsane sous ubuntu edgy 6.10 et ça fonvtionnait trés bien et hier plus rien avec un message à l'ouverture de xsane stipulant que le périph n'est pas reconnu que faire est ce un bug? - Découvrez une nouvelle façon d'obtenir des réponses à toutes vos questions ! Profitez des connaissances, des opinions et des expériences des internautes sur Yahoo! Questions/Réponses.-- ubuntu-fr mailing list [EMAIL PROTECTED] https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
Re: Trans.: OCR
Le 17.02.2007 13:11,, le perspicace [EMAIL PROTECTED] s'exprimait en ces termes: - Message transféré de [EMAIL PROTECTED] - Date : Sat, 17 Feb 2007 11:26:40 +0100 De : [EMAIL PROTECTED] Adresse de retour :[EMAIL PROTECTED] Sujet : OCR À : Guillaume [EMAIL PROTECTED] Bonjour, j'utilise omnipage et j'aimerai connaître un progiciel linux aussi performant...J'ai essayé des OCR avec Xsane: très lents et plein d'erreurs! Xsane en Pdf, suivi de l'OCR omnipage est utilisable mais très lent et Win$ oblige! - Fin du message transféré - Bonjour, Tesseract-OCR semble être la meilleure alternative, mais je ne sais pas où en est ce projet : http://linuxfr.org/2006/10/07/21437.html A+ SW -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
Trans.: OCR
- Message transféré de [EMAIL PROTECTED] - Date : Sat, 17 Feb 2007 11:26:40 +0100 De : [EMAIL PROTECTED] Adresse de retour :[EMAIL PROTECTED] Sujet : OCR À : Guillaume [EMAIL PROTECTED] Bonjour, j'utilise omnipage et j'aimerai connaître un progiciel linux aussi performant...J'ai essayé des OCR avec Xsane: très lents et plein d'erreurs! Xsane en Pdf, suivi de l'OCR omnipage est utilisable mais très lent et Win$ oblige! - Fin du message transféré - -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
Re: OCR
Daniel CODRON a écrit : Bonjour, Mon scanner a été reconnu par Xsane que j'ai lancé à partir de GIMP Je voudrais obtenir une OCR à partir de la numérisation d'un document par Xsane; j'ai chargé GOCR (bureau KDE) Comment procéder? Merci d'avance, Daniel lorsque tu lances xsane dans la barre fichier edition etc tu peux paramètrer OCR. tu numérise puis tu lance le logiciel gocr puis le miracle se produit. enfin moi je n'y suis pas encore arrivé. je reste dans les joies de la mise de breezy en dapper. j'ai encore une distrib de retard. -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
Re: OCR
Daniel CODRON a écrit : Bonjour, Avec KOOKA, j'arrive à obtenir l'OCR du document, mais je ne peux obtenir la vérification orthographique. Comment peut-on changer le dictionnaire par défaut Ispell? Daniel slt daniel, L'utilisation de la reconnaissance de texte m'intéresse pour mon boulot. tu peux me dire si tu as réussi à faire une reconnaissance de texte même en anglais et si oui comment? en suivant quel tuto? as-tu réussi à installer le paquet gtk-ocr? moi pas. c'est peut-être là l'origine de Ispell en français. PS enfin passé à la dapper amicalement Romain -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
OCR
Bonjour, Avec KOOKA, j'arrive à obtenir l'OCR du document, mais je ne peux obtenir la vérification orthographique. Comment peut-on changer le dictionnaire par défaut Ispell? Daniel -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
Re: OCR
romain.minne a écrit : Daniel CODRON a écrit : Bonjour, Avec KOOKA, j'arrive à obtenir l'OCR du document, mais je ne peux obtenir la vérification orthographique. Comment peut-on changer le dictionnaire par défaut Ispell? Daniel slt daniel, L'utilisation de la reconnaissance de texte m'intéresse pour mon boulot. tu peux me dire si tu as réussi à faire une reconnaissance de texte même en anglais et si oui comment? en suivant quel tuto? as-tu réussi à installer le paquet gtk-ocr? moi pas. c'est peut-être là l'origine de Ispell en français. PS enfin passé à la dapper amicalement Romain Salut Romain, Les paquets à télécharger se trouvent aux adresses suivantes : http://packages.ubuntu.com/dapper/graphics/xsane http://packages.ubuntu.com/dapper/graphics/kooka J'ai suivi le manuel d'aide de Kooka, très bien fait entre parenthèses! Quand tu es dans KOOKA, tape F1 Pour l'encodage des caractères, tu vas dans affichage, utiliser l'encodage. Pour ma part j'ai laissé le mode automatique. J'ai pu obtenir l'OCR d'un texte en anglais, mais je te laisserai apprécier les résultats : quelques problèmes avec la mise en forme du texte et certains caractères semblent difficiles à reconnaître comme par exemple le i. Amicalement, Daniel -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
OCR
Bonjour, Mon scanner a été reconnu par Xsane que j'ai lancé à partir de GIMP Je voudrais obtenir une OCR à partir de la numérisation d'un document par Xsane; j'ai chargé GOCR (bureau KDE) Comment procéder? Merci d'avance, Daniel -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
Re: OCR
En ce lundi 30 octobre 2006 à 14:30:18 Daniel CODRON nous susurrait : Bonjour, Mon scanner a été reconnu par Xsane que j'ai lancé à partir de GIMP Je voudrais obtenir une OCR à partir de la numérisation d'un document par Xsane; j'ai chargé GOCR (bureau KDE) Il suffit de paramétrer Xsane pour qu'il utilise gocr (préférences, ocr). Le fait de choisir TEXT comme Type suffit pour obliger Xsane d'utiliser gocr. On peut aussi demander à gocr de décrypter une image de texte (voir man et aide pour les formats acceptés). Il ne faut pas attendre des miracles et tenter des combinaisons de contraste, définition pour avoir les moins pires résultats. C'est un domaine où Linux est en retard, bien qu'il y ai des espoirs avec la libération de Tesseract-OCR. Il existe aussi des propriétaires efficaces, OCR XTR de vividata par exemple, mais je refuse d'en parler… -- -+- Dominique Marin http://txodom.free.fr -+- «Ce que les gens vous pardonnent le moins, c'est le mal qu'ils disent de vous» -+- André Maurois -+- -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr
Re: OCR
Je comprends pourquoi Txo, cette page parle en elle même :http://www.vividata.com/ds_xtrapi_pricing.htmlvoilà :) 2006/10/30, Txo [EMAIL PROTECTED]:En ce lundi 30 octobre 2006 à 14:30:18Daniel CODRON nous susurrait : Bonjour, Mon scanner a été reconnu par Xsane que j'ai lancé à partir de GIMP Je voudrais obtenir une OCR à partir de la numérisation d'un document par Xsane; j'ai chargé GOCR(bureau KDE) Il suffit de paramétrer Xsane pour qu'il utilise gocr (préférences,ocr). Le fait de choisir TEXT comme Type suffit pour obliger Xsaned'utiliser gocr. On peut aussi demander à gocr de décrypter une image de texte (voir man et aide pour les formats acceptés). Il ne faut pasattendre des miracles et tenter des combinaisons de contraste,définition pour avoir les moins pires résultats.C'est un domaine où Linux est en retard, bien qu'il y ai des espoirs avec la libération de Tesseract-OCR.Il existe aussi des propriétaires efficaces,OCR XTR de vividata parexemple, mais je refuse d'en parler…---+-Dominique Marin http://txodom.free.fr -+-«Ce que les gens vous pardonnent le moins, c'est le mal qu'ils disent de vous»-+- André Maurois-+- --ubuntu-fr mailing listubuntu-fr@lists.ubuntu.comhttps://lists.ubuntu.com/mailman/listinfo/ubuntu-fr -- http://www.flickr.com/photos/leonux/ -- ubuntu-fr mailing list ubuntu-fr@lists.ubuntu.com https://lists.ubuntu.com/mailman/listinfo/ubuntu-fr