Re: [Ubuntu-BR] Alternativas ao Tesseract

2013-12-13 Por tôpico Marcos Barbosa
Eu recomendo o Tesseract. Fiz um teste com uma página de um polígrafo de
probabilidade escaneado a 300dpi e funcionou perfeitamente bem. O que
acontece é que precisa de ferramentas de pré-processamento como o unpaper.
Para isso uso o gscan2pdf (versão de PPA, não do repositório Ubuntu), ele
faz o pré-processamento e tudo mais e gera um PDF pesquisável, que é
interessante no meu caso que quero me tornar paperless.


Em 13 de dezembro de 2013 10:39, Nelson Corrêa
escreveu:

> Olá Luciano,
>
> Tenho usado o Tesseract com o gImageReader e aprendi que se usar o
> Tesseract configurado para inglês ele se perde todo quando o texto está
> em português. Se a qualidade da imagem não for boa ele perde alguma
> coisa também. Ele se confunde com acentos e troca letras por algarismos.
> Enfim, é só uma dica de experiência que tive. Qualquer dúvida, me fale.
>
> Abraços e sucesso,
> Nelson
>
> P.S. Para mim, que não tenho deficiência visual, é fácil identificar
> onde ele se perde e corrigir ao copiar o texto.
>
> On 13-12-2013 10:22, luciano de souza wrote:
> > Caros,
> >
> > Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi
> > reconhecido um só caracter.
> >
> > Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por
> > isso, não é indicado para textos que possuam mais de uma coluna.
> >
> > Esta é uma limitação gravíssima para mim. O texto que recebi, tinha
> > sido digitalizado com o livro deitado, portanto, com duas páginas por
> > vez, formando duas colunas.
> >
> > Quando o livro é pequeno, esta é forma extraordinária para poupar
> > tempo. Mas no presente caso, que já recebi o texto digitalizado, nem
> > mesmo a opção de digitalizar uma página por vez estava disponível.
> >
> > Sou cego. O OCR é para mim a possibilidade de adquirir um livro em uma
> > livraria comum e lê-lo de modo completamente acessível. Portanto, a
> > digitalização e o reconhecimento ótico de caracteres são tarefas muito
> > críticas para mim.
> >
> > Se o Tesseract não pode atender-me, quais seriam as outras opções
> > livres ou pagas com as quais poderia contar no Linux?
> >
>
>
> --
> Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece
>
> Lista de discussão Ubuntu Brasil
> Histórico, descadastramento e outras opções:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-br
>
-- 
Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece

Lista de discussão Ubuntu Brasil
Histórico, descadastramento e outras opções:
https://lists.ubuntu.com/mailman/listinfo/ubuntu-br


Re: [Ubuntu-BR] Alternativas ao Tesseract

2013-12-13 Por tôpico Nelson Corrêa
Olá Luciano,

Tenho usado o Tesseract com o gImageReader e aprendi que se usar o
Tesseract configurado para inglês ele se perde todo quando o texto está
em português. Se a qualidade da imagem não for boa ele perde alguma
coisa também. Ele se confunde com acentos e troca letras por algarismos.
Enfim, é só uma dica de experiência que tive. Qualquer dúvida, me fale.

Abraços e sucesso,
Nelson

P.S. Para mim, que não tenho deficiência visual, é fácil identificar
onde ele se perde e corrigir ao copiar o texto.

On 13-12-2013 10:22, luciano de souza wrote:
> Caros,
>
> Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi
> reconhecido um só caracter.
>
> Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por
> isso, não é indicado para textos que possuam mais de uma coluna.
>
> Esta é uma limitação gravíssima para mim. O texto que recebi, tinha
> sido digitalizado com o livro deitado, portanto, com duas páginas por
> vez, formando duas colunas.
>
> Quando o livro é pequeno, esta é forma extraordinária para poupar
> tempo. Mas no presente caso, que já recebi o texto digitalizado, nem
> mesmo a opção de digitalizar uma página por vez estava disponível.
>
> Sou cego. O OCR é para mim a possibilidade de adquirir um livro em uma
> livraria comum e lê-lo de modo completamente acessível. Portanto, a
> digitalização e o reconhecimento ótico de caracteres são tarefas muito
> críticas para mim.
>
> Se o Tesseract não pode atender-me, quais seriam as outras opções
> livres ou pagas com as quais poderia contar no Linux?
>


-- 
Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece

Lista de discussão Ubuntu Brasil
Histórico, descadastramento e outras opções:
https://lists.ubuntu.com/mailman/listinfo/ubuntu-br


[Ubuntu-BR] Alternativas ao Tesseract

2013-12-13 Por tôpico luciano de souza
Caros,

Experimentei o Tesseract em páginas digitalizadas de um livro. Não foi
reconhecido um só caracter.

Na Wikipédia, fiquei a saber que o Tesseract não processa layout, por
isso, não é indicado para textos que possuam mais de uma coluna.

Esta é uma limitação gravíssima para mim. O texto que recebi, tinha
sido digitalizado com o livro deitado, portanto, com duas páginas por
vez, formando duas colunas.

Quando o livro é pequeno, esta é forma extraordinária para poupar
tempo. Mas no presente caso, que já recebi o texto digitalizado, nem
mesmo a opção de digitalizar uma página por vez estava disponível.

Sou cego. O OCR é para mim a possibilidade de adquirir um livro em uma
livraria comum e lê-lo de modo completamente acessível. Portanto, a
digitalização e o reconhecimento ótico de caracteres são tarefas muito
críticas para mim.

Se o Tesseract não pode atender-me, quais seriam as outras opções
livres ou pagas com as quais poderia contar no Linux?

-- 
Luciano de Souza

-- 
Mais sobre o Ubuntu em português: http://www.ubuntu-br.org/comece

Lista de discussão Ubuntu Brasil
Histórico, descadastramento e outras opções:
https://lists.ubuntu.com/mailman/listinfo/ubuntu-br