Caros,

Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi
reconhecido um só caracter.

Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por
isso, não é indicado para textos que possuam mais de uma coluna.

Esta é uma limitação gravíssima para mim. O texto que recebi, tinha
sido digitalizado com o livro deitado, portanto, com duas páginas por
vez, formando duas colunas.

Quando o livro é pequeno, esta é forma extraordinária para poupar
tempo. Mas no presente caso, que já recebi o texto digitalizado, nem
mesmo a opção de digitalizar uma página por vez estava disponível.

Sou cego. O OCR é para mim a possibilidade de adquirir um livro em uma
livraria comum e lê-lo de modo completamente acessível. Portanto, a
digitalização e o reconhecimento ótico de caracteres são tarefas muito
críticas para mim.

Se o Tesseract não pode atender-me, quais seriam as outras opções
livres ou pagas com as quais poderia contar no Linux?

-- 
Luciano de Souza

-- 
Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece

Lista de discussão Ubuntu Brasil
Histórico, descadastramento e outras opções:
https://lists.ubuntu.com/mailman/listinfo/ubuntu-br

Responder a