[Ubuntu-BR] Alternativas ao Tesseract

2013-12-13 Por tôpico luciano de souza
Caros, Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi reconhecido um só caracter. Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por isso, não é indicado para textos que possuam mais de uma coluna. Esta é uma limitação gravíssima para mim. O texto que

Re: [Ubuntu-BR] Alternativas ao Tesseract

2013-12-13 Por tôpico Nelson Corrêa
Olá Luciano, Tenho usado o Tesseract com o gImageReader e aprendi que se usar o Tesseract configurado para inglês ele se perde todo quando o texto está em português. Se a qualidade da imagem não for boa ele perde alguma coisa também. Ele se confunde com acentos e troca letras por algarismos.

Re: [Ubuntu-BR] Alternativas ao Tesseract

2013-12-13 Por tôpico Marcos Barbosa
Eu recomendo o Tesseract. Fiz um teste com uma página de um polígrafo de probabilidade escaneado a 300dpi e funcionou perfeitamente bem. O que acontece é que precisa de ferramentas de pré-processamento como o unpaper. Para isso uso o gscan2pdf (versão de PPA, não do repositório Ubuntu), ele faz o