Re: Printmedien digitalisieren
Hi! Am 22.02.2021 um 09:27 schrieb Bernhard Schiffner : > Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz > voreinstellen? tesseract kommt mit sprach-spezifischen Paketen "hartkodierten Wissens": https://github.com/tesseract-ocr/langdata . Man muss die Sprache(n) vorgeben, sonst kommt Murks raus. Um noch was dazuzusenfen: mein Favorit ist ocrmypdf: https://github.com/jbarlow83/OCRmyPDF , als Kommandozeilen-Komplettlösung. Viele Grüße Sebastian
Aw: Re: Re: Printmedien digitalisieren
Hallo Bernd, im Prinzip habe ich "digital analog" gearbeitet. Alles ande2re auszuknobeln hätte länger gedauert soviel musst eich ja nicht machen. Tesseract hat zwar diverse Sprachfiles auch deutsch ber das hat irgendwie nicht funktioniert. Ich hab dann aber auch keine Energie darauf verschwendet warum das Ding keine deutsche Sprache laden wollte. tesseract -l deu wäre die korrekte Syntax gewesen, danach kommt eine Ascii heraus darin habe ich die Umlaute und Sonderzeichen korrigiert,die Absätze gelöscht wo nötig,den Text in eine odt kopiert und das wars. Das hat sich 27 mal wiederholt sind am Ende 12 Seiten A4 unbearbeitet. Du brauchst mindestens einen Graustufenscan in mindestens 75 dpi. Das war schon der ganze faiule Zauber^^ Mehr gibts da eigentloch nicht zu berichten. Für meine Zwecke hätte die Fehlersuche warum liest der nicht deutsch, länger gedauert wie das manuelle Nacharbeiten und durchlesen muss man den Text danach eh. Um daraus einen Vortrag zu formen müsste ich doch eine arge Luftpumpe spielen, dafür bräuchte man doch mehr substantiellen Inhalt, für weitergehende Fragen stehe ich gerne noch zur Verfügung aber wie gesagt passiert ist hier ja nicht viel Grüße aus dem Weinland Baden Ottmar Gesendet: Montag, 22. Februar 2021 um 09:27 Uhr Von: "Bernhard Schiffner" An: "Linux-User-Group Dresden" Betreff: Re: Aw: Re: Printmedien digitalisieren Danke für die Rückmeldung, klingt ziemlich gut! Kannst Du u.U. mal die Details berichten? Wir wollen uns Mi, 24.2. 20:00 wieder mal virtuell treffen auf https://bbb.schlittermann.de/b/gre-kcf-m77 Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz voreinstellen? Ich habe keine Ahnung, aber Interesse. Vielleicht geht das anderen auch so. (Meine letzten Versuche auf dieser Strecke liegen Jahre zurück ...) Es gab da mal eine Firma, die zeigte, dass Dateien gleich sind, wenn man die mit griechischem Zeichensatz ausdruckt und dann vergleicht. Damit konnte sie den Inhalt ihrer gerichtswichtigen, kofferfüllenden Beweise so streng geheimhalten, dass die Verschleierung erst nach mehreren pa (picoanno, nicht P wie Peta) durch verantwortunglose, sicherlich russische(!) Hacker gebrochen wurde. (SCO vs. IBM) Bernhard Am Sonntag, 21. Februar 2021, 22:29:39 CET schrieb ottmar-schm...@web.de: > Hallo Freunde, > > Also ich habe Seite für Seite gescannt und mit tesseract eingelesen, das ging einigermappen gut. Danke fpr die Hilfe > > Grüße aus dem Weinland Baden > Ottmar
Re: Aw: Re: Printmedien digitalisieren
Ich habe bei einem Vortrag auf dem CLT vor ein paar Jahren von einem Buch (irgendwas über heimat, inkl. Abbildungen) in Fraktur gehört für das Tesseract trainiert wurde (irgendwie meine ich das könnte ein Mitarbeiter der SLUB gewesen sein). Also das geht, aber wie im Detail ist mir auch nicht bekannt (hätte da mit Revolting Librarians Redux einen Anwendungsfall wegen schwierigem Font). nach ein wenig Suche … Ein Vortrag den ich meine nicht wiederzuerkennen … https://chemnitzer.linux-tage.de/2013/vortraege/folien/digitalisierung_buecher.pdf … aber gleiches Thema und ebenfalls Hinweise auf Tesseract. Ergebnisse: gesammelte-werke.org Für die Umwandlung von einem Markup-Format (für die meisten Zwecke dürfte Markdown genügen) würde ich übrigens pandoc empfehlen. Inzwischen kann das auch reproduzierbare Ergebnisse liefern.[0] [0]: https://github.com/jgm/pandoc/issues/7093 On 22.02.21 09:27, Bernhard Schiffner wrote: Kann man tesseract einlernen?
Re: Aw: Re: Printmedien digitalisieren
Danke für die Rückmeldung, klingt ziemlich gut! Kannst Du u.U. mal die Details berichten? Wir wollen uns Mi, 24.2. 20:00 wieder mal virtuell treffen auf https://bbb.schlittermann.de/b/gre-kcf-m77 Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz voreinstellen? Ich habe keine Ahnung, aber Interesse. Vielleicht geht das anderen auch so. (Meine letzten Versuche auf dieser Strecke liegen Jahre zurück ...) Es gab da mal eine Firma, die zeigte, dass Dateien gleich sind, wenn man die mit griechischem Zeichensatz ausdruckt und dann vergleicht. Damit konnte sie den Inhalt ihrer gerichtswichtigen, kofferfüllenden Beweise so streng geheimhalten, dass die Verschleierung erst nach mehreren pa (picoanno, nicht P wie Peta) durch verantwortunglose, sicherlich russische(!) Hacker gebrochen wurde. (SCO vs. IBM) Bernhard Am Sonntag, 21. Februar 2021, 22:29:39 CET schrieb ottmar-schm...@web.de: > Hallo Freunde, > > Also ich habe Seite für Seite gescannt und mit tesseract eingelesen, das ging > einigermappen gut. Danke fpr die Hilfe > > Grüße aus dem Weinland Baden > Ottmar