Re: archiviazione documenti con ocr per debian?

2014-06-21 Per discussione MaX
pero ora ho trovato che tesseract è estremamente migliore di cuneiform
nel riconoscimento del testo senza neanche indicargli in che lingua è
documento.

ciao
MAX



2014-06-21 19:21 GMT+02:00, MaX :
> lo sto provando, ma per ora mi va in crash cuneiform con questi errori:
>
> inizio cuneiform
> Cuneiform for Linux 1.1.0
> inizio hocrpdf
> Warning: tag mismatch: 'b' can not close last open: 'i'
> Warning: tag mismatch: 'span' can not close last open: 'b'
> Warning: tag mismatch: 'p' can not close last open: 'b'
> Warning: tag mismatch: 'i' can not close last open: 'b'
> Warning: tag mismatch: 'span' can not close last open: 'i'
> Warning: tag mismatch: 'p' can not close last open: 'i'
> Warning: tag mismatch: 'div' can not close last open: 'i'
> Warning: tag mismatch: 'body' can not close last open: 'i'
> Warning: tag mismatch: 'html' can not close last open: 'i'
> Warning: unclosed tag: 'i'
> Warning: unclosed tag: 'span'
> Warning: unclosed tag: 'p'
> Warning: unclosed tag: 'b'
> Warning: unclosed tag: 'span'
> Warning: unclosed tag: 'p'
> Warning: unclosed tag: 'div'
> Warning: unclosed tag: 'body'
> Warning: unclosed tag: 'html'
> max@debian:~/Desktop/test-archiviatore$
>
>
> ci sto indagando, cmq se funzionasse, per me sarebbe un ottima
> soluzione... scansiono i documenti con simplescan o qualche cosa del
> genere e li salvo in pdf, poi li do in pasto allo script per renderli
> con il testo inglobato in modo da poter fare una ricerca nel
> filesystem, con find o anche semplicemente locate.
>
> ciao
> MaX
>
> 2014-06-21 16:33 GMT+02:00, Gerlos :
>> Il 21/06/2014 11:55, MaX ha scritto:
>>> purtroppo il sito non funziona :(
>>>
>>> http://www.watchocr.com
>>
>> Beh, nel frattempo puoi provare anche questo:
>> http://oscarmanual.org/oscar_emr_12/developers/4.9-utilities/pdfsearch
>>
>> saluti
>> gerlos
>>
>> --
>> "Life is pretty simple: You do some stuff. Most fails. Some works. You do
>> more
>> of what works. If it works big, others quickly copy it. Then you do
>> something
>> else. The trick is the doing something else."
>> < http://gerlos.altervista.org >
>>   gerlos  +- - - >  gnu/linux registred user #311588
>>
>>
>
>
> --
> ciao,
> MaX
>


-- 
ciao,
MaX


--
Per REVOCARE l'iscrizione alla lista, inviare un email a
debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a listmas...@lists.debian.org

To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: 
https://lists.debian.org/CAEyAVmvubQ5Wny0FKwrerZM3KJ0=ZBFr0iazeDC7sbhsg+h=_...@mail.gmail.com



Re: archiviazione documenti con ocr per debian?

2014-06-21 Per discussione MaX
lo sto provando, ma per ora mi va in crash cuneiform con questi errori:

inizio cuneiform
Cuneiform for Linux 1.1.0
inizio hocrpdf
Warning: tag mismatch: 'b' can not close last open: 'i'
Warning: tag mismatch: 'span' can not close last open: 'b'
Warning: tag mismatch: 'p' can not close last open: 'b'
Warning: tag mismatch: 'i' can not close last open: 'b'
Warning: tag mismatch: 'span' can not close last open: 'i'
Warning: tag mismatch: 'p' can not close last open: 'i'
Warning: tag mismatch: 'div' can not close last open: 'i'
Warning: tag mismatch: 'body' can not close last open: 'i'
Warning: tag mismatch: 'html' can not close last open: 'i'
Warning: unclosed tag: 'i'
Warning: unclosed tag: 'span'
Warning: unclosed tag: 'p'
Warning: unclosed tag: 'b'
Warning: unclosed tag: 'span'
Warning: unclosed tag: 'p'
Warning: unclosed tag: 'div'
Warning: unclosed tag: 'body'
Warning: unclosed tag: 'html'
max@debian:~/Desktop/test-archiviatore$


ci sto indagando, cmq se funzionasse, per me sarebbe un ottima
soluzione... scansiono i documenti con simplescan o qualche cosa del
genere e li salvo in pdf, poi li do in pasto allo script per renderli
con il testo inglobato in modo da poter fare una ricerca nel
filesystem, con find o anche semplicemente locate.

ciao
MaX

2014-06-21 16:33 GMT+02:00, Gerlos :
> Il 21/06/2014 11:55, MaX ha scritto:
>> purtroppo il sito non funziona :(
>>
>> http://www.watchocr.com
>
> Beh, nel frattempo puoi provare anche questo:
> http://oscarmanual.org/oscar_emr_12/developers/4.9-utilities/pdfsearch
>
> saluti
> gerlos
>
> --
> "Life is pretty simple: You do some stuff. Most fails. Some works. You do
> more
> of what works. If it works big, others quickly copy it. Then you do
> something
> else. The trick is the doing something else."
> < http://gerlos.altervista.org >
>   gerlos  +- - - >  gnu/linux registred user #311588
>
>


-- 
ciao,
MaX


-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a listmas...@lists.debian.org

To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: 
https://lists.debian.org/caeyavmtwy8qyfato56zzyh-20d+azt_1cus7pr6ohp-fal3...@mail.gmail.com



Re: archiviazione documenti con ocr per debian?

2014-06-21 Per discussione Gerlos

Il 21/06/2014 11:55, MaX ha scritto:

purtroppo il sito non funziona :(

http://www.watchocr.com


Beh, nel frattempo puoi provare anche questo:
http://oscarmanual.org/oscar_emr_12/developers/4.9-utilities/pdfsearch

saluti
gerlos

--
"Life is pretty simple: You do some stuff. Most fails. Some works. You do more
of what works. If it works big, others quickly copy it. Then you do something
else. The trick is the doing something else."
   < http://gerlos.altervista.org >
 gerlos  +- - - >  gnu/linux registred user #311588


--
Per REVOCARE l'iscrizione alla lista, inviare un email a 
debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per

problemi inviare un email in INGLESE a listmas...@lists.debian.org

To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: https://lists.debian.org/53a597a2.6060...@gmail.com



Re: archiviazione documenti con ocr per debian?

2014-06-21 Per discussione Infrid
Con qualche software ed un po' di scripting riesci a fare quello che
cerchi. Io seguirei un procedimento del genere usando il formato DJVU[1]

- Scansionare i documenti o ricavarli da qualche altra fonte

- Usare imagemagick[2] per sistemare le immagini, regolando un po' il
contrasto ed eventualmente rendere il tutto in bianco e nero puro (2
colori, non in scala grigi)

- Con la suite djvulibre[3] convertire le immagini in file DJVU
ottenendo così dei documenti di piccolissime dimensioni ottimi (secondo
me) per essere archiviati

- Con tesseract[4] eseguire un riconoscimento OCR e nuovamente djvulibre
per unire il tutto con i file DJVU.

Se vuoi lavorare con file PDF esiste un tool (che non ho mai usato) di
nome pdfsandwich che appoggiandosi a tesseract, esegue e crea dei file
PDF con testo ricavato tramite OCR.

Non ho comandi già pronti da dare, dipende tutto dal tipo di file in tuo
possesso. Dovrai perdere un po' di tempo nel cercare le opzioni
migliori, la documentazione di djvulibre ed imagemagik[5] è molto buona,
non aver paura.

Imagemagik crea anche file PDF partendo dalle immagini, devi regolare
però tutte le opzioni del caso per evitare di ritrovarti con file di
dimensioni mostruose.


link utili

http://www.tobias-elze.de/pdfsandwich/index.html
http://en.wikisource.org/wiki/Help:DjVu_files
http://en.wikisource.org/wiki/Help:DjVu_files/OCR_with_Tesseract
http://infrid.com/blog/2011/04/02/appunti-sullo-scanrip.html

[1] http://it.wikipedia.org/wiki/DjVu
[2] https://packages.debian.org/wheezy/imagemagick
[3] https://packages.debian.org/wheezy/djvulibre-bin
[4] https://packages.debian.org/wheezy/tesseract-ocr
[5] http://www.imagemagick.org/Usage/

Infrid


-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a listmas...@lists.debian.org

To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: https://lists.debian.org/53a561aa.8010...@infrid.com



Re: archiviazione documenti con ocr per debian?

2014-06-21 Per discussione MaX
purtroppo il sito non funziona :(

http://www.watchocr.com



Il 20/06/14, Gerlos ha scritto:
> On 20 giugno 2014 15:52:41 CEST, MaX  wrote:
>>come da soggetto...
>>
>>sapete se esiste un programma per debian per l'archiviazione di
>>documenti cartacei compreso un ocr, in modo da poter fare delle
>>ricerche testuali?
>
> Ciao,
> Tempo fa avevo visto questo, letto il post ma mai provato,  vedi qui:
>
> http://is.gd/P3icWu
>
> Saluti
> Gerlos
>
>
>
> --
> Inviato dal mio cellulare - scusate gli errori di battitura!
>


-- 
ciao,
MaX


-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a listmas...@lists.debian.org

To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: 
https://lists.debian.org/caeyavmvqd0gwrgeq-efghbch96+dhimf1zuju3gvlh+immc...@mail.gmail.com



Re: archiviazione documenti con ocr per debian?

2014-06-20 Per discussione Gerlos
On 20 giugno 2014 15:52:41 CEST, MaX  wrote:
>come da soggetto...
>
>sapete se esiste un programma per debian per l'archiviazione di
>documenti cartacei compreso un ocr, in modo da poter fare delle
>ricerche testuali?

Ciao, 
Tempo fa avevo visto questo, letto il post ma mai provato,  vedi qui:

http://is.gd/P3icWu

Saluti
Gerlos



-- 
Inviato dal mio cellulare - scusate gli errori di battitura! 


-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a listmas...@lists.debian.org

To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: 
https://lists.debian.org/4290f2a7-8a1b-4460-b133-461ffa737...@email.android.com



Re: archiviazione documenti con ocr per debian?

2014-06-20 Per discussione fran...@modula.net

Alfresco Community Edition + Ephesoft Community Edition?

Luciano

Il 20/06/2014 15:52, MaX ha scritto:

come da soggetto...

sapete se esiste un programma per debian per l'archiviazione di
documenti cartacei compreso un ocr, in modo da poter fare delle
ricerche testuali?




--
Per REVOCARE l'iscrizione alla lista, inviare un email a 
debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per

problemi inviare un email in INGLESE a listmas...@lists.debian.org

To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: https://lists.debian.org/53a47a72.9030...@modula.net