Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?

2021-04-28 Diskussionsfäden Siegfried Schmidt

Am 24.04.2021 um 13:36 schrieb Jonas Stein:


Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und 
dann ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.


Sowas habe ich für eine Telefonanlage im Einsatz, die verschickt Mails 
mit PDF-Anhängen, diese werden im Mailsystem abgefangen, zerlegt und in 
Mails mit durchsuchbare PDFs umgewandelt.




Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist bei 
Wörterbüchern zu beachten? Wie funktioniert das OCR Training?


Erträgliche Laufzeiten bekommt man durch parallele Verarbeitung der 
Seiten, zum Zerlegen benutze ich pdftk und pdftoppm, dann erfolgt der 
parallele Scan mit tesseract zu durchsuchbaren pdf und wenn alle Seiten 
verarbeitet sind wird mit pdftk alles zu einer Datei zusammengebaut.


Ganz wesentlich bei tesseract ist die richtige Orientierung der Seiten 
und die Sprachangabe. Die Verbesserung durch Training ist eher marginal 
und bei einer allgemeinen Dokumentenablage sowieso kaum möglich.


Auch ist es wichtig dass der tesseract die pdf erzeugt, bei allen 
anderen im Web zu findenden Lösungen haben sich bei mir die Dateigrössen 
nach dem OCR extrem aufgebläht.


Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar 
sind und OCR bereits gut im Scanner erledigen?


Ich meine die besten Geräte, die überhaupt sauber unter Linux laufen 
sind Fijitsu 6130 und Nachfolger. Bei denen klappt sogar das Auslesen 
und Reagieren auf die Steuertasten, wobei nicht alles geht was 
beschrieben ist. Allerdings würde ich den früher gewählten Ansatz (pro 
1-2 Scanner ein Alix-Rechner zur autarken Steuerung + dicke Kiste für 
OCR/PDF-Umwandlung im Hintergrund) so auch nicht mehr bauen wollen.


OCR autark im Scanner kenne ich nur bei den Kopierern, z.B. die 
PDF-A-Optionen für die grösseren Kopierer von Minolta oder Ricoh. Die 
sind im Vergleich keineswegs besser als tesseract, haben auch lange 
Laufzeiten und verschlucken sich hin und wieder komplett. Selbst die 
Leerseitenerkennung muss man mit Vorsicht geniessen, wenn keine manuelle 
Kontrolle erfolgt.



Siegfried


--
Diese E-Mail wurde von Avast Antivirus-Software auf Viren geprüft.
https://www.avast.com/antivirus




Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?

2021-04-24 Diskussionsfäden Marc Herbermann

Hallo Troluger,

seit einiger Zeit verfolge ich nun aus Südkorea punktuell die angeregte 
Diskussion auf dieser Liste ohne mich selbst aktiv zu beteiligen. Dies 
ist nun mein erster Beitrag. Ich hoffe, dass ich die Regeln einhalte. 
Das Scan-Thema interessiert mich auch. Fände ich auch toll, per Skript 
durchsuchbare PDFs zu erstellen.


Seit einigen Jahren benutze ich den CanoScan LIDE 110, einen 
Flachbett-Scanner, unter Opensuse. Damit habe ich recht gute 
Scanergebnisse erzielt, allerdings keine durchsuchbaren PDFs erstellt. 
Das Einlesen von vielen Seiten ist natürlich bei einem solchen Scanner 
eher beschwerlich. Mit einfachen Tesseract-Befehlen lese ich Texte von 
Bilddateien aus.


Nun wollte ich endlich durchsuchbare PDFs erstellen und erwarb daher vor 
etwa einem halben Jahre den Brother ADS 2200.


https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all 
<https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all>


Die Linux Unterstützung von Brother Geräten ist nach meiner bisherigen 
Erfahrung recht zufriedenstellend, benutze auch den 
Multifunktionsdrucker MFC7360 von Brother. Tatsächlich lassen sich mit 
dem ADS 2200 ordentliche doppelseitige Scans von allerlei Texten, 
Bildern und Fotos erstellen, vermutlich auch mit den entsprechenden 
Skripts durchsuchbare PDFs. Die Unterstützung von Brother ist bei diesem 
Gerät, davon gehe ich aus, besser für deb.-basierte Distributionen. 
Jedenfalls lohnt es sich, in gewissen zeitlichen Abständen die Treiber 
Seite von Brother aufzusuchen. Manchmal erscheinen neue Versionen und 
dann funktioniert auf einmal alles besser.


Unter Opensuse benutze ich vornehmlich SimpleScan. Mit der Installation 
von gscan2pdf unter Opensuse habe ich Probleme. Es ist meines Wissens 
bei Opensuse im Publishing Repository und noch in privaten Repositories 
enthalten, nicht aber in den Standard Quellen und auch nicht bei 
Packman. Es scheint, dass man erst eine endlose Liste von Abhängigkeiten 
installieren muss, wenn man das Programm hier funktionstüchtig machen will.


Daher versuchte ich es zunächst mit Vuescan. Die Testversion scheint mir 
allerdings nicht ausgereifter zu sein als gscan2pdf, das ich seit 
einiger Zeit aus einem in Virtualbox installierten Ubuntu 20.04 heraus 
benutze. Die Installation von gscan2pdf in Ubuntu verlief reibungslos. 
Damit lassen sich recht gut durchsuchbare PDFs mit dem Brother ADS 2200 
erstellen. Allerdings habe ich es noch nicht herausgefunden, wie ich die 
Leerzeichen zwischen einzelnen Wörtern verringern kann. Auf die Dauer 
ist es aber recht umständlich, zum Erstellen von durchsuchbaren PDFs 
immer die virtuelle Maschine zu starten, einfacher wäre es wohl, von der 
Kommandozeile mit den entsprechenden Befehlen zu arbeiten. Da gscan2pdf 
recht gute Ergebnisse liefert, schreckte ich allerdings bisher davor 
zurück, mich tiefer in die Materie einzuarbeiten.


Leider kann ich derzeit nicht zu Trolug Treffen kommen. Wollte ich an 
Online Sitzungen teilnehmen, wäre es Nacht hier.


Schöne Grüße

Marc



Am 25.04.21 um 04:01 schrieb g.maub...@gmx.de:

Hallo Andy,
Hallo Listlinge,

ich nutze meinen Fujitsu fi7160 Office Scanner 
(https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/workgroup/fi7160/)
 intensiv für mein papierloses Büro. Dieses Gerät besitze ich seit 2015 und bin 
bis heute damit sehr zufrieden.

Unterstützung seitens des Herstellers Fujitsu für Linux gibt es jedoch nicht. 
Ich nutze den Scanner mit der kostenpflichtigen VueScan Software 
(https://www.hamrick.com/de/), die einen guten Job macht. OCR kann die Software 
nicht.

Ich habe ähnliche Erfahrungen mit OCR unter Linux gemacht wie Andy. Meine 
Erfahrungen sind auch schon etwas älter, ca. 6 Jahre. Ich habe bisher nichts 
von wirklichen Verbesserungen bei OCR unter Linux gehört. Aus meiner Sicht 
alles beim Alten und demnach unter Linux produktiv nicht zu gebrauchen.

An neuen Infos bin ich auch interessiert.

Viele Grüße

Georg



Gesendet: Samstag, 24. April 2021 um 15:34 Uhr
Von: "Randy Andy" 
An: trolug@trolug.de
Betreff: Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?

Hi Jonas, TroLuger,

ich fände das ein hervorragendes weil nutzbringendes Thema an dem ich
mich gern noch einmal versuchen würde, so es denn diesmal mehr Aussicht
auf Erfolg verspricht.
Zuletzt hatte ich mir gemäß meinem Install-Log ab 2013-04 einige Zeit ab
   Version 3.02 die Zähne daran ausgebissen und nach langem zähen Ringen
irgendwann die Flinte ins Korn geworfen und seither nie wieder angepackt.

Hoffe nun, das es seither deutlich besser geworden ist und würde ihm

nochmal eine zweite Chance einräumen wollen, so es denn nach diesem
Vortrag oder Input erfahrener Anwender neuerer Zeit Erfolg verspricht.

Von daher wär ich gespannt und hoch erfreut zugleich...
Full ack von meiner Seite dafür!

Gruß
Andy



Am 24.04.21 um 13:36 schrieb Jonas Stein:

Hallo allerseits,

neulich ging es

Aw: Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?

2021-04-24 Diskussionsfäden G . Maubach
Hallo Andy,
Hallo Listlinge,

ich nutze meinen Fujitsu fi7160 Office Scanner 
(https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/workgroup/fi7160/)
 intensiv für mein papierloses Büro. Dieses Gerät besitze ich seit 2015 und bin 
bis heute damit sehr zufrieden. 

Unterstützung seitens des Herstellers Fujitsu für Linux gibt es jedoch nicht. 
Ich nutze den Scanner mit der kostenpflichtigen VueScan Software 
(https://www.hamrick.com/de/), die einen guten Job macht. OCR kann die Software 
nicht.

Ich habe ähnliche Erfahrungen mit OCR unter Linux gemacht wie Andy. Meine 
Erfahrungen sind auch schon etwas älter, ca. 6 Jahre. Ich habe bisher nichts 
von wirklichen Verbesserungen bei OCR unter Linux gehört. Aus meiner Sicht 
alles beim Alten und demnach unter Linux produktiv nicht zu gebrauchen.

An neuen Infos bin ich auch interessiert.

Viele Grüße

Georg


> Gesendet: Samstag, 24. April 2021 um 15:34 Uhr
> Von: "Randy Andy" 
> An: trolug@trolug.de
> Betreff: Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?
>
> Hi Jonas, TroLuger,
> 
> ich fände das ein hervorragendes weil nutzbringendes Thema an dem ich 
> mich gern noch einmal versuchen würde, so es denn diesmal mehr Aussicht 
> auf Erfolg verspricht.
> Zuletzt hatte ich mir gemäß meinem Install-Log ab 2013-04 einige Zeit ab 
>   Version 3.02 die Zähne daran ausgebissen und nach langem zähen Ringen 
> irgendwann die Flinte ins Korn geworfen und seither nie wieder angepackt.
> 
> Hoffe nun, das es seither deutlich besser geworden ist und würde ihm 
> 
> nochmal eine zweite Chance einräumen wollen, so es denn nach diesem 
> Vortrag oder Input erfahrener Anwender neuerer Zeit Erfolg verspricht.
> 
> Von daher wär ich gespannt und hoch erfreut zugleich...
> Full ack von meiner Seite dafür!
> 
> Gruß
> Andy
> 
> 
> 
> Am 24.04.21 um 13:36 schrieb Jonas Stein:
> > Hallo allerseits,
> > 
> > neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung und 
> > OCR.
> > 
> > Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich es 
> > produktiv einsetzen konnte.
> > 
> > Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann 
> > ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.
> > 
> > Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist 
> bei 
> > Wörterbüchern zu beachten? Wie funktioniert das OCR Training?
> > 
> > Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar 
> > sind und OCR bereits gut im Scanner erledigen?
> > 
> > Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrung 
> > berichten? Wollen wir daraus ein TroLUG Thema machen?
> > 
> > Beste Grüße,
> > 
> 
>



Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?

2021-04-24 Diskussionsfäden Randy Andy

Hi Jonas, TroLuger,

ich fände das ein hervorragendes weil nutzbringendes Thema an dem ich 
mich gern noch einmal versuchen würde, so es denn diesmal mehr Aussicht 
auf Erfolg verspricht.
Zuletzt hatte ich mir gemäß meinem Install-Log ab 2013-04 einige Zeit ab 
 Version 3.02 die Zähne daran ausgebissen und nach langem zähen Ringen 
irgendwann die Flinte ins Korn geworfen und seither nie wieder angepackt.


Hoffe nun, das es seither deutlich besser geworden ist und würde ihm 

nochmal eine zweite Chance einräumen wollen, so es denn nach diesem 
Vortrag oder Input erfahrener Anwender neuerer Zeit Erfolg verspricht.


Von daher wär ich gespannt und hoch erfreut zugleich...
Full ack von meiner Seite dafür!

Gruß
Andy



Am 24.04.21 um 13:36 schrieb Jonas Stein:

Hallo allerseits,

neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung und 
OCR.


Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich es 
produktiv einsetzen konnte.


Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann 
ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.


Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist 
bei 

Wörterbüchern zu beachten? Wie funktioniert das OCR Training?

Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar 
sind und OCR bereits gut im Scanner erledigen?


Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrung 
berichten? Wollen wir daraus ein TroLUG Thema machen?


Beste Grüße,





OpenPGP_signature
Description: OpenPGP digital signature