Hallo Troluger,
seit einiger Zeit verfolge ich nun aus Südkorea punktuell die angeregte
Diskussion auf dieser Liste ohne mich selbst aktiv zu beteiligen. Dies
ist nun mein erster Beitrag. Ich hoffe, dass ich die Regeln einhalte.
Das Scan-Thema interessiert mich auch. Fände ich auch toll, per Skript
durchsuchbare PDFs zu erstellen.
Seit einigen Jahren benutze ich den CanoScan LIDE 110, einen
Flachbett-Scanner, unter Opensuse. Damit habe ich recht gute
Scanergebnisse erzielt, allerdings keine durchsuchbaren PDFs erstellt.
Das Einlesen von vielen Seiten ist natürlich bei einem solchen Scanner
eher beschwerlich. Mit einfachen Tesseract-Befehlen lese ich Texte von
Bilddateien aus.
Nun wollte ich endlich durchsuchbare PDFs erstellen und erwarb daher vor
etwa einem halben Jahre den Brother ADS 2200.
https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all
<https://support.brother.com/g/b/producttop.aspx?c=as_ot&lang=en&prod=ads2200_all>
Die Linux Unterstützung von Brother Geräten ist nach meiner bisherigen
Erfahrung recht zufriedenstellend, benutze auch den
Multifunktionsdrucker MFC7360 von Brother. Tatsächlich lassen sich mit
dem ADS 2200 ordentliche doppelseitige Scans von allerlei Texten,
Bildern und Fotos erstellen, vermutlich auch mit den entsprechenden
Skripts durchsuchbare PDFs. Die Unterstützung von Brother ist bei diesem
Gerät, davon gehe ich aus, besser für deb.-basierte Distributionen.
Jedenfalls lohnt es sich, in gewissen zeitlichen Abständen die Treiber
Seite von Brother aufzusuchen. Manchmal erscheinen neue Versionen und
dann funktioniert auf einmal alles besser.
Unter Opensuse benutze ich vornehmlich SimpleScan. Mit der Installation
von gscan2pdf unter Opensuse habe ich Probleme. Es ist meines Wissens
bei Opensuse im Publishing Repository und noch in privaten Repositories
enthalten, nicht aber in den Standard Quellen und auch nicht bei
Packman. Es scheint, dass man erst eine endlose Liste von Abhängigkeiten
installieren muss, wenn man das Programm hier funktionstüchtig machen will.
Daher versuchte ich es zunächst mit Vuescan. Die Testversion scheint mir
allerdings nicht ausgereifter zu sein als gscan2pdf, das ich seit
einiger Zeit aus einem in Virtualbox installierten Ubuntu 20.04 heraus
benutze. Die Installation von gscan2pdf in Ubuntu verlief reibungslos.
Damit lassen sich recht gut durchsuchbare PDFs mit dem Brother ADS 2200
erstellen. Allerdings habe ich es noch nicht herausgefunden, wie ich die
Leerzeichen zwischen einzelnen Wörtern verringern kann. Auf die Dauer
ist es aber recht umständlich, zum Erstellen von durchsuchbaren PDFs
immer die virtuelle Maschine zu starten, einfacher wäre es wohl, von der
Kommandozeile mit den entsprechenden Befehlen zu arbeiten. Da gscan2pdf
recht gute Ergebnisse liefert, schreckte ich allerdings bisher davor
zurück, mich tiefer in die Materie einzuarbeiten.
Leider kann ich derzeit nicht zu Trolug Treffen kommen. Wollte ich an
Online Sitzungen teilnehmen, wäre es Nacht hier.
Schöne Grüße
Marc
Am 25.04.21 um 04:01 schrieb g.maub...@gmx.de:
Hallo Andy,
Hallo Listlinge,
ich nutze meinen Fujitsu fi7160 Office Scanner
(https://www.fujitsu.com/de/products/computing/peripheral/scanners/fi/workgroup/fi7160/)
intensiv für mein papierloses Büro. Dieses Gerät besitze ich seit 2015 und bin
bis heute damit sehr zufrieden.
Unterstützung seitens des Herstellers Fujitsu für Linux gibt es jedoch nicht.
Ich nutze den Scanner mit der kostenpflichtigen VueScan Software
(https://www.hamrick.com/de/), die einen guten Job macht. OCR kann die Software
nicht.
Ich habe ähnliche Erfahrungen mit OCR unter Linux gemacht wie Andy. Meine
Erfahrungen sind auch schon etwas älter, ca. 6 Jahre. Ich habe bisher nichts
von wirklichen Verbesserungen bei OCR unter Linux gehört. Aus meiner Sicht
alles beim Alten und demnach unter Linux produktiv nicht zu gebrauchen.
An neuen Infos bin ich auch interessiert.
Viele Grüße
Georg
Gesendet: Samstag, 24. April 2021 um 15:34 Uhr
Von: "Randy Andy" <gugelhu...@googlemail.com>
An: trolug@trolug.de
Betreff: Re: Erfahrungsaustausch Texterkennung/OCR - Interesse?
Hi Jonas, TroLuger,
ich fände das ein hervorragendes weil nutzbringendes Thema an dem ich
mich gern noch einmal versuchen würde, so es denn diesmal mehr Aussicht
auf Erfolg verspricht.
Zuletzt hatte ich mir gemäß meinem Install-Log ab 2013-04 einige Zeit ab
Version 3.02 die Zähne daran ausgebissen und nach langem zähen Ringen
irgendwann die Flinte ins Korn geworfen und seither nie wieder angepackt.
Hoffe nun, das es seither deutlich besser geworden ist und würde ihm
nochmal eine zweite Chance einräumen wollen, so es denn nach diesem
Vortrag oder Input erfahrener Anwender neuerer Zeit Erfolg verspricht.
Von daher wär ich gespannt und hoch erfreut zugleich...
Full ack von meiner Seite dafür!
Gruß
Andy
Am 24.04.21 um 13:36 schrieb Jonas Stein:
Hallo allerseits,
neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung und
OCR.
Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich es
produktiv einsetzen konnte.
Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann
ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.
Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist
bei
Wörterbüchern zu beachten? Wie funktioniert das OCR Training?
Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar
sind und OCR bereits gut im Scanner erledigen?
Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrung
berichten? Wollen wir daraus ein TroLUG Thema machen?
Beste Grüße,