Caros,
Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi
reconhecido um só caracter.
Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por
isso, não é indicado para textos que possuam mais de uma coluna.
Esta é uma limitação gravíssima para mim. O texto que
Olá Luciano,
Tenho usado o Tesseract com o gImageReader e aprendi que se usar o
Tesseract configurado para inglês ele se perde todo quando o texto está
em português. Se a qualidade da imagem não for boa ele perde alguma
coisa também. Ele se confunde com acentos e troca letras por algarismos.
Eu recomendo o Tesseract. Fiz um teste com uma página de um polígrafo de
probabilidade escaneado a 300dpi e funcionou perfeitamente bem. O que
acontece é que precisa de ferramentas de pré-processamento como o unpaper.
Para isso uso o gscan2pdf (versão de PPA, não do repositório Ubuntu), ele
faz o
3 matches
Mail list logo