OCR à documents écrits à la machine à écrire

2008-12-18 Thread Sever P A
Bonjour à tous,

Voici que je dois passer le OCR (Optical Character Recognition) à plusiers
documents écrits ça fait longtemps à la machine à écrire. Ce sont en
français, donc une fois convertis à pdf, je viens de prouver le *tesseract*
français et le résultat a été désastreux. La chose a pu millorer un peu en
utilisant le *GOCR*, mais le résultat obtenu a été également inacceptable...

Pouvez me recommander un outil un peu plus adéquate à cet tâche ?

Merci en avance...

Sev.


Re: OCR à documents écrits à la machine à écrire

2008-12-18 Thread Alain Vaugham
Le jeudi 18 décembre 2008 18:03, Sever P A a écrit :
| français et le résultat a été désastreux. La chose a pu millorer un peu en
| utilisant le *GOCR*, mais le résultat obtenu a été également 
| inacceptable...
| 
| Pouvez me recommander un outil un peu plus adéquate à cet tâche ?

Je n'ai pas de réponse précise. Désolé. 
Juste un retour d'expérience. Peut-être HS.

Avec des outils non libres, moi non plus je n'ai jamais eu de résultats 
satisfaisants même si les pièces à scanner ne comportaient que les 
cinquante/soixante caractères les plus utilisés de la langue anglaise.

Les résulats les moins mauvais étaient obtenus si l'alignement horizontal 
des lignes à "OCRiser" était le plus horizontal possible par rapport à 
l'alignement du scanner. Le changement de graisse, les séquences avec des 
points ou des virgules était très mal reconnus ainsi que les documents 
ayant un faible contraste.
Bref : totalement inexploitables.

Mes tentatives se sont donc arrêtées mais récemment j'ai rencontré des gens 
qui traitaient des fax. Le traitement consistait à "OCRiser" une zone 
prédéfinie afin de repérer un identifiant précis à partir d'un numéro de 
fax commun. Le texte extrait permettait de rédiger automatiquement un email 
avec le fax en pièce jointe et de le transmettre à son seul destinataire.

Si il est possible d'obtenir un très bon résultat à partir d'une 
reconnaissance sur une petite zone alors peut-être est-ce une voie de 
recherche?

Je serai très intéressé par le résultat de tes futures recherches.

-- 
Cordialement,

Alain Vaugham

[PUB] Signature numérique GPG de ce courrier: 0xD26D18BC


pgpNlsBh7MNT5.pgp
Description: PGP signature


Re: OCR à documents écrits à la machine à écrire

2008-12-18 Thread Iznogood
Le Thu, 18 Dec 2008 23:20:17 +0100
Alain Vaugham  a écrit :

> Le jeudi 18 décembre 2008 18:03, Sever P A a écrit :
> | français et le résultat a été désastreux. La chose a pu millorer un peu en
> | utilisant le *GOCR*, mais le résultat obtenu a été également 
> | inacceptable...
> | 
> | Pouvez me recommander un outil un peu plus adéquate à cet tâche ?
> 
> Je n'ai pas de réponse précise. Désolé. 
> Juste un retour d'expérience. Peut-être HS.

tesseract sous ubuntu

> 
> Avec des outils non libres, moi non plus je n'ai jamais eu de résultats 
> satisfaisants même si les pièces à scanner ne comportaient que les 
> cinquante/soixante caractères les plus utilisés de la langue anglaise.
> 
> Les résulats les moins mauvais étaient obtenus si l'alignement horizontal 
> des lignes à "OCRiser" était le plus horizontal possible par rapport à 
> l'alignement du scanner. Le changement de graisse, les séquences avec des 
> points ou des virgules était très mal reconnus ainsi que les documents 
> ayant un faible contraste.
> Bref : totalement inexploitables.
> 
> Mes tentatives se sont donc arrêtées mais récemment j'ai rencontré des gens 
> qui traitaient des fax. Le traitement consistait à "OCRiser" une zone 
> prédéfinie afin de repérer un identifiant précis à partir d'un numéro de 
> fax commun. Le texte extrait permettait de rédiger automatiquement un email 
> avec le fax en pièce jointe et de le transmettre à son seul destinataire.
> 
> Si il est possible d'obtenir un très bon résultat à partir d'une 
> reconnaissance sur une petite zone alors peut-être est-ce une voie de 
> recherche?
> 
> Je serai très intéressé par le résultat de tes futures recherches.
> 
> -- 
> Cordialement,
> 
> Alain Vaugham
> 
> [PUB] Signature numérique GPG de ce courrier: 0xD26D18BC

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: OCR à documents écrits à la machine à écrire

2008-12-18 Thread Gaëtan PERRIER
Le Thu, 18 Dec 2008 18:03:37 +0100
"Sever P A"  a écrit:

> Bonjour à tous,
> 
> Voici que je dois passer le OCR (Optical Character Recognition) à plusiers
> documents écrits ça fait longtemps à la machine à écrire. Ce sont en
> français, donc une fois convertis à pdf, je viens de prouver le *tesseract*
> français et le résultat a été désastreux. La chose a pu millorer un peu en
> utilisant le *GOCR*, mais le résultat obtenu a été également inacceptable...
> 
> Pouvez me recommander un outil un peu plus adéquate à cet tâche ?
> 

apt-get install tesseract-ocr dispo sous debian

marche vraiment bien.

Gaëtan

-- 
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: OCR à documents écrits à la machine à écrire

2008-12-23 Thread Daniel Caillibaud

Gaëtan PERRIER a écrit :

[...] je viens de prouver le *tesseract* français et le résultat a été 
désastreux. [...]

Pouvez me recommander un outil un peu plus adéquate à cet tâche ?


apt-get install tesseract-ocr


C'est la blague du vendredi où il y a des cas où tesseract fonctionne ?

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: OCR à documents écrits à la machine à écrire

2008-12-23 Thread Iznogood
Le Tue, 23 Dec 2008 10:22:12 +0100
Daniel Caillibaud  a écrit :

> Gaëtan PERRIER a écrit :
> >> [...] je viens de prouver le *tesseract* français et le résultat a été 
> >> désastreux. [...]
> >>
> >> Pouvez me recommander un outil un peu plus adéquate à cet tâche ?
> > 
> > apt-get install tesseract-ocr
> 
> C'est la blague du vendredi où il y a des cas où tesseract fonctionne ?

Il fonctionne très bien mais n'accepte que du .tif et si possible noir
et blanc

> 
> -- 
> Daniel
> 
> -- 
> Lisez la FAQ de la liste avant de poser une question :
> http://wiki.debian.org/DebFrFrenchLists
> Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
> "Reply-To:"
> 
> To UNSUBSCRIBE, email to debian-user-french-requ...@lists.debian.org
> with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
> 

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Télécopies [était : OCR à documents écrits à la machine à écrire]

2008-12-18 Thread Alain Vaugham
Bonsoir la liste,

Je cherche un outil qui regarderai le contenu d'un fichier .tiff provenant 
de Hylafax et qui analyserai son contenu.

Si le contenu est principalement constitué de textes - même en tableaux - 
cela signifie que c'est peut-être un fax légitime.

Si le contenu est principalement constitué de grandes zones noires ou 
blanches avec peu de textes cela signifie que c'est sûrement un fax non 
sollicité.

Connaitriez-vous un tel outil qui me permettrait d'améliorer grandement mon 
système de filtrage sur les faxs indésirables ?

Merci d'avance.


-- 
Cordialement,

Alain Vaugham

[PUB] Signature numérique GPG de ce courrier: 0xD26D18BC


pgp2RPiwfyCvl.pgp
Description: PGP signature


Re: Télécopies [était : OCR à documents écrits à la machine à écrire]

2008-12-22 Thread Alain Vaugham
Le vendredi 19 décembre 2008 16:09, Jacques L'helgoualc'h a écrit :
| Alain Vaugham a écrit, vendredi 19 décembre 2008, à 03:00 :
| > Bonsoir la liste,
| 
| bonjour,
| 
| > Je cherche un outil qui regarderai le contenu d'un fichier .tiff
| > provenant de Hylafax et qui analyserai son contenu.
| > 
| > Si le contenu est principalement constitué de textes - même en
| > tableaux - cela signifie que c'est peut-être un fax légitime.
| > 
| > Si le contenu est principalement constitué de grandes zones noires ou 
| > blanches avec peu de textes cela signifie que c'est sûrement un fax non 
| > sollicité.
| > 
| > Connaitriez-vous un tel outil qui me permettrait d'améliorer grandement
| > mon système de filtrage sur les faxs indésirables ?
| 
| Faute de trouver un filtre  tout fait, l'histogramme d'un texte noir sur
| blanc doit être assez caractéristique ?

C'est une voie de recherche à l'aquelle je n'avais jamais songé.

| N.B. en essayant « identify », j'ai noté que celui de graphicsmagick est
| /beaucoup/ plus  rapide... Sinon, il  y a aussi  gmic, dont la  ligne de
| commande est un peu rugueuse, mais offre des possibilités de calculs.
| http://gmic.sf.net/

Merci beaucoup,

-- 
Cordialement,

Alain Vaugham

[PUB] Signature numérique GPG de ce courrier: 0xD26D18BC


pgpxe05YyZqOW.pgp
Description: PGP signature