Re: [Ubuntu-BR] Alternativas ao Tesseract
Eu recomendo o Tesseract. Fiz um teste com uma página de um polígrafo de probabilidade escaneado a 300dpi e funcionou perfeitamente bem. O que acontece é que precisa de ferramentas de pré-processamento como o unpaper. Para isso uso o gscan2pdf (versão de PPA, não do repositório Ubuntu), ele faz o pré-processamento e tudo mais e gera um PDF pesquisável, que é interessante no meu caso que quero me tornar paperless. Em 13 de dezembro de 2013 10:39, Nelson Corrêa escreveu: > Olá Luciano, > > Tenho usado o Tesseract com o gImageReader e aprendi que se usar o > Tesseract configurado para inglês ele se perde todo quando o texto está > em português. Se a qualidade da imagem não for boa ele perde alguma > coisa também. Ele se confunde com acentos e troca letras por algarismos. > Enfim, é só uma dica de experiência que tive. Qualquer dúvida, me fale. > > Abraços e sucesso, > Nelson > > P.S. Para mim, que não tenho deficiência visual, é fácil identificar > onde ele se perde e corrigir ao copiar o texto. > > On 13-12-2013 10:22, luciano de souza wrote: > > Caros, > > > > Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi > > reconhecido um só caracter. > > > > Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por > > isso, não é indicado para textos que possuam mais de uma coluna. > > > > Esta é uma limitação gravíssima para mim. O texto que recebi, tinha > > sido digitalizado com o livro deitado, portanto, com duas páginas por > > vez, formando duas colunas. > > > > Quando o livro é pequeno, esta é forma extraordinária para poupar > > tempo. Mas no presente caso, que já recebi o texto digitalizado, nem > > mesmo a opção de digitalizar uma página por vez estava disponível. > > > > Sou cego. O OCR é para mim a possibilidade de adquirir um livro em uma > > livraria comum e lê-lo de modo completamente acessível. Portanto, a > > digitalização e o reconhecimento ótico de caracteres são tarefas muito > > críticas para mim. > > > > Se o Tesseract não pode atender-me, quais seriam as outras opções > > livres ou pagas com as quais poderia contar no Linux? > > > > > -- > Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece > > Lista de discussão Ubuntu Brasil > Histórico, descadastramento e outras opções: > https://lists.ubuntu.com/mailman/listinfo/ubuntu-br > -- Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece Lista de discussão Ubuntu Brasil Histórico, descadastramento e outras opções: https://lists.ubuntu.com/mailman/listinfo/ubuntu-br
Re: [Ubuntu-BR] Alternativas ao Tesseract
Olá Luciano, Tenho usado o Tesseract com o gImageReader e aprendi que se usar o Tesseract configurado para inglês ele se perde todo quando o texto está em português. Se a qualidade da imagem não for boa ele perde alguma coisa também. Ele se confunde com acentos e troca letras por algarismos. Enfim, é só uma dica de experiência que tive. Qualquer dúvida, me fale. Abraços e sucesso, Nelson P.S. Para mim, que não tenho deficiência visual, é fácil identificar onde ele se perde e corrigir ao copiar o texto. On 13-12-2013 10:22, luciano de souza wrote: > Caros, > > Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi > reconhecido um só caracter. > > Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por > isso, não é indicado para textos que possuam mais de uma coluna. > > Esta é uma limitação gravíssima para mim. O texto que recebi, tinha > sido digitalizado com o livro deitado, portanto, com duas páginas por > vez, formando duas colunas. > > Quando o livro é pequeno, esta é forma extraordinária para poupar > tempo. Mas no presente caso, que já recebi o texto digitalizado, nem > mesmo a opção de digitalizar uma página por vez estava disponível. > > Sou cego. O OCR é para mim a possibilidade de adquirir um livro em uma > livraria comum e lê-lo de modo completamente acessível. Portanto, a > digitalização e o reconhecimento ótico de caracteres são tarefas muito > críticas para mim. > > Se o Tesseract não pode atender-me, quais seriam as outras opções > livres ou pagas com as quais poderia contar no Linux? > -- Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece Lista de discussão Ubuntu Brasil Histórico, descadastramento e outras opções: https://lists.ubuntu.com/mailman/listinfo/ubuntu-br
[Ubuntu-BR] Alternativas ao Tesseract
Caros, Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi reconhecido um só caracter. Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por isso, não é indicado para textos que possuam mais de uma coluna. Esta é uma limitação gravíssima para mim. O texto que recebi, tinha sido digitalizado com o livro deitado, portanto, com duas páginas por vez, formando duas colunas. Quando o livro é pequeno, esta é forma extraordinária para poupar tempo. Mas no presente caso, que já recebi o texto digitalizado, nem mesmo a opção de digitalizar uma página por vez estava disponível. Sou cego. O OCR é para mim a possibilidade de adquirir um livro em uma livraria comum e lê-lo de modo completamente acessível. Portanto, a digitalização e o reconhecimento ótico de caracteres são tarefas muito críticas para mim. Se o Tesseract não pode atender-me, quais seriam as outras opções livres ou pagas com as quais poderia contar no Linux? -- Luciano de Souza -- Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece Lista de discussão Ubuntu Brasil Histórico, descadastramento e outras opções: https://lists.ubuntu.com/mailman/listinfo/ubuntu-br