Am 24.04.2021 um 13:36 schrieb Jonas Stein:

Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.

Sowas habe ich für eine Telefonanlage im Einsatz, die verschickt Mails mit PDF-Anhängen, diese werden im Mailsystem abgefangen, zerlegt und in Mails mit durchsuchbare PDFs umgewandelt.


Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist bei Wörterbüchern zu beachten? Wie funktioniert das OCR Training?

Erträgliche Laufzeiten bekommt man durch parallele Verarbeitung der Seiten, zum Zerlegen benutze ich pdftk und pdftoppm, dann erfolgt der parallele Scan mit tesseract zu durchsuchbaren pdf und wenn alle Seiten verarbeitet sind wird mit pdftk alles zu einer Datei zusammengebaut.

Ganz wesentlich bei tesseract ist die richtige Orientierung der Seiten und die Sprachangabe. Die Verbesserung durch Training ist eher marginal und bei einer allgemeinen Dokumentenablage sowieso kaum möglich.

Auch ist es wichtig dass der tesseract die pdf erzeugt, bei allen anderen im Web zu findenden Lösungen haben sich bei mir die Dateigrössen nach dem OCR extrem aufgebläht.

Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar sind und OCR bereits gut im Scanner erledigen?

Ich meine die besten Geräte, die überhaupt sauber unter Linux laufen sind Fijitsu 6130 und Nachfolger. Bei denen klappt sogar das Auslesen und Reagieren auf die Steuertasten, wobei nicht alles geht was beschrieben ist. Allerdings würde ich den früher gewählten Ansatz (pro 1-2 Scanner ein Alix-Rechner zur autarken Steuerung + dicke Kiste für OCR/PDF-Umwandlung im Hintergrund) so auch nicht mehr bauen wollen.

OCR autark im Scanner kenne ich nur bei den Kopierern, z.B. die PDF-A-Optionen für die grösseren Kopierer von Minolta oder Ricoh. Die sind im Vergleich keineswegs besser als tesseract, haben auch lange Laufzeiten und verschlucken sich hin und wieder komplett. Selbst die Leerseitenerkennung muss man mit Vorsicht geniessen, wenn keine manuelle Kontrolle erfolgt.


Siegfried


--
Diese E-Mail wurde von Avast Antivirus-Software auf Viren geprüft.
https://www.avast.com/antivirus


Antwort per Email an