Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?
Am 24.04.2021 um 13:36 schrieb Jonas Stein: Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten. Sowas habe ich für eine Telefonanlage im Einsatz, die verschickt Mails mit PDF-Anhängen, diese werden im Mailsystem abgefangen, zerlegt und in Mails mit durchsuchbare PDFs umgewandelt. Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist bei Wörterbüchern zu beachten? Wie funktioniert das OCR Training? Erträgliche Laufzeiten bekommt man durch parallele Verarbeitung der Seiten, zum Zerlegen benutze ich pdftk und pdftoppm, dann erfolgt der parallele Scan mit tesseract zu durchsuchbaren pdf und wenn alle Seiten verarbeitet sind wird mit pdftk alles zu einer Datei zusammengebaut. Ganz wesentlich bei tesseract ist die richtige Orientierung der Seiten und die Sprachangabe. Die Verbesserung durch Training ist eher marginal und bei einer allgemeinen Dokumentenablage sowieso kaum möglich. Auch ist es wichtig dass der tesseract die pdf erzeugt, bei allen anderen im Web zu findenden Lösungen haben sich bei mir die Dateigrössen nach dem OCR extrem aufgebläht. Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar sind und OCR bereits gut im Scanner erledigen? Ich meine die besten Geräte, die überhaupt sauber unter Linux laufen sind Fijitsu 6130 und Nachfolger. Bei denen klappt sogar das Auslesen und Reagieren auf die Steuertasten, wobei nicht alles geht was beschrieben ist. Allerdings würde ich den früher gewählten Ansatz (pro 1-2 Scanner ein Alix-Rechner zur autarken Steuerung + dicke Kiste für OCR/PDF-Umwandlung im Hintergrund) so auch nicht mehr bauen wollen. OCR autark im Scanner kenne ich nur bei den Kopierern, z.B. die PDF-A-Optionen für die grösseren Kopierer von Minolta oder Ricoh. Die sind im Vergleich keineswegs besser als tesseract, haben auch lange Laufzeiten und verschlucken sich hin und wieder komplett. Selbst die Leerseitenerkennung muss man mit Vorsicht geniessen, wenn keine manuelle Kontrolle erfolgt. Siegfried -- Diese E-Mail wurde von Avast Antivirus-Software auf Viren geprüft. https://www.avast.com/antivirus
Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?
Hallo Troluger, seit einiger Zeit verfolge ich nun aus Südkorea punktuell die angeregte Diskussion auf dieser Liste ohne mich selbst aktiv zu beteiligen. Dies ist nun mein erster Beitrag. Ich hoffe, dass ich die Regeln einhalte. Das Scan-Thema interessiert mich auch. Fände ich auch toll, per Skript durchsuchbare PDFs zu erstellen. Seit einigen Jahren benutze ich den CanoScan LIDE 110, einen Flachbett-Scanner, unter Opensuse. Damit habe ich recht gute Scanergebnisse erzielt, allerdings keine durchsuchbaren PDFs erstellt. Das Einlesen von vielen Seiten ist natürlich bei einem solchen Scanner eher beschwerlich. Mit einfachen Tesseract-Befehlen lese ich Texte von Bilddateien aus. Nun wollte ich endlich durchsuchbare PDFs erstellen und erwarb daher vor etwa einem halben Jahre den Brother ADS 2200. https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all <https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all> Die Linux Unterstützung von Brother Geräten ist nach meiner bisherigen Erfahrung recht zufriedenstellend, benutze auch den Multifunktionsdrucker MFC7360 von Brother. Tatsächlich lassen sich mit dem ADS 2200 ordentliche doppelseitige Scans von allerlei Texten, Bildern und Fotos erstellen, vermutlich auch mit den entsprechenden Skripts durchsuchbare PDFs. Die Unterstützung von Brother ist bei diesem Gerät, davon gehe ich aus, besser für deb.-basierte Distributionen. Jedenfalls lohnt es sich, in gewissen zeitlichen Abständen die Treiber Seite von Brother aufzusuchen. Manchmal erscheinen neue Versionen und dann funktioniert auf einmal alles besser. Unter Opensuse benutze ich vornehmlich SimpleScan. Mit der Installation von gscan2pdf unter Opensuse habe ich Probleme. Es ist meines Wissens bei Opensuse im Publishing Repository und noch in privaten Repositories enthalten, nicht aber in den Standard Quellen und auch nicht bei Packman. Es scheint, dass man erst eine endlose Liste von Abhängigkeiten installieren muss, wenn man das Programm hier funktionstüchtig machen will. Daher versuchte ich es zunächst mit Vuescan. Die Testversion scheint mir allerdings nicht ausgereifter zu sein als gscan2pdf, das ich seit einiger Zeit aus einem in Virtualbox installierten Ubuntu 20.04 heraus benutze. Die Installation von gscan2pdf in Ubuntu verlief reibungslos. Damit lassen sich recht gut durchsuchbare PDFs mit dem Brother ADS 2200 erstellen. Allerdings habe ich es noch nicht herausgefunden, wie ich die Leerzeichen zwischen einzelnen Wörtern verringern kann. Auf die Dauer ist es aber recht umständlich, zum Erstellen von durchsuchbaren PDFs immer die virtuelle Maschine zu starten, einfacher wäre es wohl, von der Kommandozeile mit den entsprechenden Befehlen zu arbeiten. Da gscan2pdf recht gute Ergebnisse liefert, schreckte ich allerdings bisher davor zurück, mich tiefer in die Materie einzuarbeiten. Leider kann ich derzeit nicht zu Trolug Treffen kommen. Wollte ich an Online Sitzungen teilnehmen, wäre es Nacht hier. Schöne Grüße Marc Am 25.04.21 um 04:01 schrieb g.maub...@gmx.de: Hallo Andy, Hallo Listlinge, ich nutze meinen Fujitsu fi7160 Office Scanner (https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/workgroup/fi7160/) intensiv für mein papierloses Büro. Dieses Gerät besitze ich seit 2015 und bin bis heute damit sehr zufrieden. Unterstützung seitens des Herstellers Fujitsu für Linux gibt es jedoch nicht. Ich nutze den Scanner mit der kostenpflichtigen VueScan Software (https://www.hamrick.com/de/), die einen guten Job macht. OCR kann die Software nicht. Ich habe ähnliche Erfahrungen mit OCR unter Linux gemacht wie Andy. Meine Erfahrungen sind auch schon etwas älter, ca. 6 Jahre. Ich habe bisher nichts von wirklichen Verbesserungen bei OCR unter Linux gehört. Aus meiner Sicht alles beim Alten und demnach unter Linux produktiv nicht zu gebrauchen. An neuen Infos bin ich auch interessiert. Viele Grüße Georg Gesendet: Samstag, 24. April 2021 um 15:34 Uhr Von: "Randy Andy" An: trolug@trolug.de Betreff: Re: Erfahrungsaustausch Texterkennung/OCR - Interesse? Hi Jonas, TroLuger, ich fände das ein hervorragendes weil nutzbringendes Thema an dem ich mich gern noch einmal versuchen würde, so es denn diesmal mehr Aussicht auf Erfolg verspricht. Zuletzt hatte ich mir gemäß meinem Install-Log ab 2013-04 einige Zeit ab Version 3.02 die Zähne daran ausgebissen und nach langem zähen Ringen irgendwann die Flinte ins Korn geworfen und seither nie wieder angepackt. Hoffe nun, das es seither deutlich besser geworden ist und würde ihm nochmal eine zweite Chance einräumen wollen, so es denn nach diesem Vortrag oder Input erfahrener Anwender neuerer Zeit Erfolg verspricht. Von daher wär ich gespannt und hoch erfreut zugleich... Full ack von meiner Seite dafür! Gruß Andy Am 24.04.21 um 13:36 schrieb Jonas Stein: Hallo allerseits, neulich ging es
Aw: Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?
Hallo Andy, Hallo Listlinge, ich nutze meinen Fujitsu fi7160 Office Scanner (https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/workgroup/fi7160/) intensiv für mein papierloses Büro. Dieses Gerät besitze ich seit 2015 und bin bis heute damit sehr zufrieden. Unterstützung seitens des Herstellers Fujitsu für Linux gibt es jedoch nicht. Ich nutze den Scanner mit der kostenpflichtigen VueScan Software (https://www.hamrick.com/de/), die einen guten Job macht. OCR kann die Software nicht. Ich habe ähnliche Erfahrungen mit OCR unter Linux gemacht wie Andy. Meine Erfahrungen sind auch schon etwas älter, ca. 6 Jahre. Ich habe bisher nichts von wirklichen Verbesserungen bei OCR unter Linux gehört. Aus meiner Sicht alles beim Alten und demnach unter Linux produktiv nicht zu gebrauchen. An neuen Infos bin ich auch interessiert. Viele Grüße Georg > Gesendet: Samstag, 24. April 2021 um 15:34 Uhr > Von: "Randy Andy" > An: trolug@trolug.de > Betreff: Re: Erfahrungsaustausch Texterkennung/OCR - Interesse? > > Hi Jonas, TroLuger, > > ich fände das ein hervorragendes weil nutzbringendes Thema an dem ich > mich gern noch einmal versuchen würde, so es denn diesmal mehr Aussicht > auf Erfolg verspricht. > Zuletzt hatte ich mir gemäß meinem Install-Log ab 2013-04 einige Zeit ab > Version 3.02 die Zähne daran ausgebissen und nach langem zähen Ringen > irgendwann die Flinte ins Korn geworfen und seither nie wieder angepackt. > > Hoffe nun, das es seither deutlich besser geworden ist und würde ihm > > nochmal eine zweite Chance einräumen wollen, so es denn nach diesem > Vortrag oder Input erfahrener Anwender neuerer Zeit Erfolg verspricht. > > Von daher wär ich gespannt und hoch erfreut zugleich... > Full ack von meiner Seite dafür! > > Gruß > Andy > > > > Am 24.04.21 um 13:36 schrieb Jonas Stein: > > Hallo allerseits, > > > > neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung und > > OCR. > > > > Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich es > > produktiv einsetzen konnte. > > > > Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann > > ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten. > > > > Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist > bei > > Wörterbüchern zu beachten? Wie funktioniert das OCR Training? > > > > Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar > > sind und OCR bereits gut im Scanner erledigen? > > > > Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrung > > berichten? Wollen wir daraus ein TroLUG Thema machen? > > > > Beste Grüße, > > > >
Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?
Hi Jonas, TroLuger, ich fände das ein hervorragendes weil nutzbringendes Thema an dem ich mich gern noch einmal versuchen würde, so es denn diesmal mehr Aussicht auf Erfolg verspricht. Zuletzt hatte ich mir gemäß meinem Install-Log ab 2013-04 einige Zeit ab Version 3.02 die Zähne daran ausgebissen und nach langem zähen Ringen irgendwann die Flinte ins Korn geworfen und seither nie wieder angepackt. Hoffe nun, das es seither deutlich besser geworden ist und würde ihm nochmal eine zweite Chance einräumen wollen, so es denn nach diesem Vortrag oder Input erfahrener Anwender neuerer Zeit Erfolg verspricht. Von daher wär ich gespannt und hoch erfreut zugleich... Full ack von meiner Seite dafür! Gruß Andy Am 24.04.21 um 13:36 schrieb Jonas Stein: Hallo allerseits, neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung und OCR. Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich es produktiv einsetzen konnte. Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten. Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist bei Wörterbüchern zu beachten? Wie funktioniert das OCR Training? Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar sind und OCR bereits gut im Scanner erledigen? Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrung berichten? Wollen wir daraus ein TroLUG Thema machen? Beste Grüße, OpenPGP_signature Description: OpenPGP digital signature