Hallo Troluger,

seit einiger Zeit verfolge ich nun aus Südkorea punktuell die angeregte Diskussion auf dieser Liste ohne mich selbst aktiv zu beteiligen. Dies ist nun mein erster Beitrag. Ich hoffe, dass ich die Regeln einhalte. Das Scan-Thema interessiert mich auch. Fände ich auch toll, per Skript durchsuchbare PDFs zu erstellen.

Seit einigen Jahren benutze ich den CanoScan LIDE 110, einen Flachbett-Scanner, unter Opensuse. Damit habe ich recht gute Scanergebnisse erzielt, allerdings keine durchsuchbaren PDFs erstellt. Das Einlesen von vielen Seiten ist natürlich bei einem solchen Scanner eher beschwerlich. Mit einfachen Tesseract-Befehlen lese ich Texte von Bilddateien aus.

Nun wollte ich endlich durchsuchbare PDFs erstellen und erwarb daher vor etwa einem halben Jahre den Brother ADS 2200.

https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all <https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all>

Die Linux Unterstützung von Brother Geräten ist nach meiner bisherigen Erfahrung recht zufriedenstellend, benutze auch den Multifunktionsdrucker MFC7360 von Brother. Tatsächlich lassen sich mit dem ADS 2200 ordentliche doppelseitige Scans von allerlei Texten, Bildern und Fotos erstellen, vermutlich auch mit den entsprechenden Skripts durchsuchbare PDFs. Die Unterstützung von Brother ist bei diesem Gerät, davon gehe ich aus, besser für deb.-basierte Distributionen. Jedenfalls lohnt es sich, in gewissen zeitlichen Abständen die Treiber Seite von Brother aufzusuchen. Manchmal erscheinen neue Versionen und dann funktioniert auf einmal alles besser.

Unter Opensuse benutze ich vornehmlich SimpleScan. Mit der Installation von gscan2pdf unter Opensuse habe ich Probleme. Es ist meines Wissens bei Opensuse im Publishing Repository und noch in privaten Repositories enthalten, nicht aber in den Standard Quellen und auch nicht bei Packman. Es scheint, dass man erst eine endlose Liste von Abhängigkeiten installieren muss, wenn man das Programm hier funktionstüchtig machen will.

Daher versuchte ich es zunächst mit Vuescan. Die Testversion scheint mir allerdings nicht ausgereifter zu sein als gscan2pdf, das ich seit einiger Zeit aus einem in Virtualbox installierten Ubuntu 20.04 heraus benutze. Die Installation von gscan2pdf in Ubuntu verlief reibungslos. Damit lassen sich recht gut durchsuchbare PDFs mit dem Brother ADS 2200 erstellen. Allerdings habe ich es noch nicht herausgefunden, wie ich die Leerzeichen zwischen einzelnen Wörtern verringern kann. Auf die Dauer ist es aber recht umständlich, zum Erstellen von durchsuchbaren PDFs immer die virtuelle Maschine zu starten, einfacher wäre es wohl, von der Kommandozeile mit den entsprechenden Befehlen zu arbeiten. Da gscan2pdf recht gute Ergebnisse liefert, schreckte ich allerdings bisher davor zurück, mich tiefer in die Materie einzuarbeiten.

Leider kann ich derzeit nicht zu Trolug Treffen kommen. Wollte ich an Online Sitzungen teilnehmen, wäre es Nacht hier.

Schöne Grüße

Marc



Am 25.04.21 um 04:01 schrieb g.maub...@gmx.de:
Hallo Andy,
Hallo Listlinge,

ich nutze meinen Fujitsu fi7160 Office Scanner 
(https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/workgroup/fi7160/)
 intensiv für mein papierloses Büro. Dieses Gerät besitze ich seit 2015 und bin 
bis heute damit sehr zufrieden.

Unterstützung seitens des Herstellers Fujitsu für Linux gibt es jedoch nicht. 
Ich nutze den Scanner mit der kostenpflichtigen VueScan Software 
(https://www.hamrick.com/de/), die einen guten Job macht. OCR kann die Software 
nicht.

Ich habe ähnliche Erfahrungen mit OCR unter Linux gemacht wie Andy. Meine 
Erfahrungen sind auch schon etwas älter, ca. 6 Jahre. Ich habe bisher nichts 
von wirklichen Verbesserungen bei OCR unter Linux gehört. Aus meiner Sicht 
alles beim Alten und demnach unter Linux produktiv nicht zu gebrauchen.

An neuen Infos bin ich auch interessiert.

Viele Grüße

Georg


Gesendet: Samstag, 24. April 2021 um 15:34 Uhr
Von: "Randy Andy" <gugelhu...@googlemail.com>
An: trolug@trolug.de
Betreff: Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?

Hi Jonas, TroLuger,

ich fände das ein hervorragendes weil nutzbringendes Thema an dem ich
mich gern noch einmal versuchen würde, so es denn diesmal mehr Aussicht
auf Erfolg verspricht.
Zuletzt hatte ich mir gemäß meinem Install-Log ab 2013-04 einige Zeit ab
   Version 3.02 die Zähne daran ausgebissen und nach langem zähen Ringen
irgendwann die Flinte ins Korn geworfen und seither nie wieder angepackt.

Hoffe nun, das es seither deutlich besser geworden ist und würde ihm

nochmal eine zweite Chance einräumen wollen, so es denn nach diesem
Vortrag oder Input erfahrener Anwender neuerer Zeit Erfolg verspricht.

Von daher wär ich gespannt und hoch erfreut zugleich...
Full ack von meiner Seite dafür!

Gruß
Andy



Am 24.04.21 um 13:36 schrieb Jonas Stein:
Hallo allerseits,

neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung und
OCR.

Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich es
produktiv einsetzen konnte.

Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann
ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.

Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist
bei
Wörterbüchern zu beachten? Wie funktioniert das OCR Training?

Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar
sind und OCR bereits gut im Scanner erledigen?

Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrung
berichten? Wollen wir daraus ein TroLUG Thema machen?

Beste Grüße,




Reply via email to