Caros, Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi reconhecido um só caracter.
Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por isso, não é indicado para textos que possuam mais de uma coluna. Esta é uma limitação gravíssima para mim. O texto que recebi, tinha sido digitalizado com o livro deitado, portanto, com duas páginas por vez, formando duas colunas. Quando o livro é pequeno, esta é forma extraordinária para poupar tempo. Mas no presente caso, que já recebi o texto digitalizado, nem mesmo a opção de digitalizar uma página por vez estava disponível. Sou cego. O OCR é para mim a possibilidade de adquirir um livro em uma livraria comum e lê-lo de modo completamente acessível. Portanto, a digitalização e o reconhecimento ótico de caracteres são tarefas muito críticas para mim. Se o Tesseract não pode atender-me, quais seriam as outras opções livres ou pagas com as quais poderia contar no Linux? -- Luciano de Souza -- Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece Lista de discussão Ubuntu Brasil Histórico, descadastramento e outras opções: https://lists.ubuntu.com/mailman/listinfo/ubuntu-br