Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?

Marc Herbermann Sat, 24 Apr 2021 22:28:06 -0700

Hallo Troluger,

seit einiger Zeit verfolge ich nun aus Südkorea punktuell die angeregteDiskussion auf dieser Liste ohne mich selbst aktiv zu beteiligen. Diesist nun mein erster Beitrag. Ich hoffe, dass ich die Regeln einhalte.Das Scan-Thema interessiert mich auch. Fände ich auch toll, per Skriptdurchsuchbare PDFs zu erstellen.

Seit einigen Jahren benutze ich den CanoScan LIDE 110, einenFlachbett-Scanner, unter Opensuse. Damit habe ich recht guteScanergebnisse erzielt, allerdings keine durchsuchbaren PDFs erstellt.Das Einlesen von vielen Seiten ist natürlich bei einem solchen Scannereher beschwerlich. Mit einfachen Tesseract-Befehlen lese ich Texte vonBilddateien aus.

Nun wollte ich endlich durchsuchbare PDFs erstellen und erwarb daher voretwa einem halben Jahre den Brother ADS 2200.

https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all<https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all>

Die Linux Unterstützung von Brother Geräten ist nach meiner bisherigenErfahrung recht zufriedenstellend, benutze auch denMultifunktionsdrucker MFC7360 von Brother. Tatsächlich lassen sich mitdem ADS 2200 ordentliche doppelseitige Scans von allerlei Texten,Bildern und Fotos erstellen, vermutlich auch mit den entsprechendenSkripts durchsuchbare PDFs. Die Unterstützung von Brother ist bei diesemGerät, davon gehe ich aus, besser für deb.-basierte Distributionen.Jedenfalls lohnt es sich, in gewissen zeitlichen Abständen die TreiberSeite von Brother aufzusuchen. Manchmal erscheinen neue Versionen unddann funktioniert auf einmal alles besser.

Unter Opensuse benutze ich vornehmlich SimpleScan. Mit der Installationvon gscan2pdf unter Opensuse habe ich Probleme. Es ist meines Wissensbei Opensuse im Publishing Repository und noch in privaten Repositoriesenthalten, nicht aber in den Standard Quellen und auch nicht beiPackman. Es scheint, dass man erst eine endlose Liste von Abhängigkeiteninstallieren muss, wenn man das Programm hier funktionstüchtig machen will.

Daher versuchte ich es zunächst mit Vuescan. Die Testversion scheint mirallerdings nicht ausgereifter zu sein als gscan2pdf, das ich seiteiniger Zeit aus einem in Virtualbox installierten Ubuntu 20.04 herausbenutze. Die Installation von gscan2pdf in Ubuntu verlief reibungslos.Damit lassen sich recht gut durchsuchbare PDFs mit dem Brother ADS 2200erstellen. Allerdings habe ich es noch nicht herausgefunden, wie ich dieLeerzeichen zwischen einzelnen Wörtern verringern kann. Auf die Dauerist es aber recht umständlich, zum Erstellen von durchsuchbaren PDFsimmer die virtuelle Maschine zu starten, einfacher wäre es wohl, von derKommandozeile mit den entsprechenden Befehlen zu arbeiten. Da gscan2pdfrecht gute Ergebnisse liefert, schreckte ich allerdings bisher davorzurück, mich tiefer in die Materie einzuarbeiten.

Leider kann ich derzeit nicht zu Trolug Treffen kommen. Wollte ich anOnline Sitzungen teilnehmen, wäre es Nacht hier.


Schöne Grüße

Marc



Am 25.04.21 um 04:01 schrieb g.maub...@gmx.de:

Hallo Andy,
Hallo Listlinge,

ich nutze meinen Fujitsu fi7160 Office Scanner 
(https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/workgroup/fi7160/)
 intensiv für mein papierloses Büro. Dieses Gerät besitze ich seit 2015 und bin 
bis heute damit sehr zufrieden.

Unterstützung seitens des Herstellers Fujitsu für Linux gibt es jedoch nicht. 
Ich nutze den Scanner mit der kostenpflichtigen VueScan Software 
(https://www.hamrick.com/de/), die einen guten Job macht. OCR kann die Software 
nicht.

Ich habe ähnliche Erfahrungen mit OCR unter Linux gemacht wie Andy. Meine 
Erfahrungen sind auch schon etwas älter, ca. 6 Jahre. Ich habe bisher nichts 
von wirklichen Verbesserungen bei OCR unter Linux gehört. Aus meiner Sicht 
alles beim Alten und demnach unter Linux produktiv nicht zu gebrauchen.

An neuen Infos bin ich auch interessiert.

Viele Grüße

Georg

Gesendet: Samstag, 24. April 2021 um 15:34 Uhr
Von: "Randy Andy" <gugelhu...@googlemail.com>
An: trolug@trolug.de
Betreff: Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?

Hi Jonas, TroLuger,

ich fände das ein hervorragendes weil nutzbringendes Thema an dem ich
mich gern noch einmal versuchen würde, so es denn diesmal mehr Aussicht
auf Erfolg verspricht.
Zuletzt hatte ich mir gemäß meinem Install-Log ab 2013-04 einige Zeit ab
   Version 3.02 die Zähne daran ausgebissen und nach langem zähen Ringen
irgendwann die Flinte ins Korn geworfen und seither nie wieder angepackt.

Hoffe nun, das es seither deutlich besser geworden ist und würde ihm

nochmal eine zweite Chance einräumen wollen, so es denn nach diesem
Vortrag oder Input erfahrener Anwender neuerer Zeit Erfolg verspricht.

Von daher wär ich gespannt und hoch erfreut zugleich...
Full ack von meiner Seite dafür!

Gruß
Andy



Am 24.04.21 um 13:36 schrieb Jonas Stein:

Hallo allerseits,

neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung und
OCR.

Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich es
produktiv einsetzen konnte.

Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann
ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.

Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist

bei

Wörterbüchern zu beachten? Wie funktioniert das OCR Training?

Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar
sind und OCR bereits gut im Scanner erledigen?

Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrung
berichten? Wollen wir daraus ein TroLUG Thema machen?

Beste Grüße,

Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?

Antwort per Email an