Re: Printmedien digitalisieren

2021-02-22 Diskussionsfäden Sebastian Hegler
Hi!

Am 22.02.2021 um 09:27 schrieb Bernhard Schiffner :
> Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz 
> voreinstellen?
tesseract kommt mit sprach-spezifischen Paketen "hartkodierten Wissens": 
https://github.com/tesseract-ocr/langdata . Man muss die Sprache(n) vorgeben, 
sonst kommt Murks raus.

Um noch was dazuzusenfen: mein Favorit ist ocrmypdf: 
https://github.com/jbarlow83/OCRmyPDF , als Kommandozeilen-Komplettlösung.


Viele Grüße
Sebastian


Aw: Re: Re: Printmedien digitalisieren

2021-02-22 Diskussionsfäden Ottmar-Schmidt
Hallo Bernd,

 

im Prinzip habe ich "digital analog" gearbeitet. Alles ande2re auszuknobeln hätte länger gedauert soviel musst eich ja nicht machen.

 

Tesseract hat zwar diverse Sprachfiles auch deutsch ber das hat irgendwie nicht funktioniert. Ich hab dann aber auch keine Energie darauf verschwendet warum das Ding keine deutsche Sprache laden wollte.


 

tesseract  -l deu wäre die korrekte Syntax gewesen, danach kommt eine Ascii heraus darin habe ich die Umlaute und Sonderzeichen korrigiert,die Absätze gelöscht  wo nötig,den Text in eine odt kopiert und das wars. Das hat sich 27 mal wiederholt sind am Ende 12 Seiten A4 unbearbeitet.

Du brauchst mindestens einen Graustufenscan in mindestens 75 dpi. Das war schon der ganze faiule Zauber^^

 

Mehr gibts da eigentloch nicht zu berichten. Für meine Zwecke hätte die Fehlersuche warum liest der nicht deutsch, länger gedauert wie das manuelle Nacharbeiten und durchlesen muss man den Text danach eh.

 

Um daraus einen Vortrag zu formen müsste ich doch eine arge Luftpumpe spielen, dafür bräuchte man doch mehr substantiellen Inhalt, für weitergehende Fragen stehe ich gerne noch zur Verfügung aber wie gesagt passiert ist hier ja nicht viel

 

Grüße aus dem Weinland Baden

 

Ottmar


 

 

 


Gesendet: Montag, 22. Februar 2021 um 09:27 Uhr
Von: "Bernhard Schiffner" 
An: "Linux-User-Group Dresden" 
Betreff: Re: Aw: Re: Printmedien digitalisieren

Danke für die Rückmeldung, klingt ziemlich gut!

Kannst Du u.U. mal die Details berichten? Wir wollen uns Mi, 24.2. 20:00 wieder mal virtuell treffen auf
https://bbb.schlittermann.de/b/gre-kcf-m77

Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz voreinstellen? Ich habe keine Ahnung, aber Interesse. Vielleicht geht das anderen auch so.
(Meine letzten Versuche auf dieser Strecke liegen Jahre zurück ...)

Es gab da mal eine Firma, die zeigte, dass Dateien gleich sind, wenn man die mit griechischem Zeichensatz ausdruckt und dann vergleicht.
Damit konnte sie den Inhalt ihrer gerichtswichtigen, kofferfüllenden Beweise so streng geheimhalten, dass die Verschleierung erst nach mehreren pa (picoanno, nicht P wie Peta) durch verantwortunglose, sicherlich russische(!) Hacker gebrochen wurde.
(SCO vs. IBM)

Bernhard

Am Sonntag, 21. Februar 2021, 22:29:39 CET schrieb ottmar-schm...@web.de:
> Hallo Freunde,
>
> Also ich habe Seite für Seite gescannt und mit tesseract eingelesen, das ging einigermappen gut. Danke fpr die Hilfe
>
> Grüße aus dem Weinland Baden
> Ottmar



 






Re: Aw: Re: Printmedien digitalisieren

2021-02-22 Diskussionsfäden vv01f
Ich habe bei einem Vortrag auf dem CLT vor ein paar Jahren von einem 
Buch (irgendwas über heimat, inkl. Abbildungen) in Fraktur gehört für 
das Tesseract trainiert wurde (irgendwie meine ich das könnte ein 
Mitarbeiter der SLUB gewesen sein). Also das geht, aber wie im Detail 
ist mir auch nicht bekannt (hätte da mit Revolting Librarians Redux 
einen Anwendungsfall wegen schwierigem Font).


nach ein wenig Suche …

Ein Vortrag den ich meine nicht wiederzuerkennen … 
https://chemnitzer.linux-tage.de/2013/vortraege/folien/digitalisierung_buecher.pdf 
… aber gleiches Thema und ebenfalls Hinweise auf Tesseract. Ergebnisse: 
gesammelte-werke.org


Für die Umwandlung von einem Markup-Format (für die meisten Zwecke 
dürfte Markdown genügen) würde ich übrigens pandoc empfehlen. Inzwischen 
kann das auch reproduzierbare Ergebnisse liefern.[0]


[0]: https://github.com/jgm/pandoc/issues/7093

On 22.02.21 09:27, Bernhard Schiffner wrote:


Kann man tesseract einlernen?




Re: Aw: Re: Printmedien digitalisieren

2021-02-22 Diskussionsfäden Bernhard Schiffner
Danke für die Rückmeldung, klingt ziemlich gut!

Kannst Du u.U. mal die Details berichten? Wir wollen uns Mi, 24.2. 20:00 wieder 
mal virtuell treffen auf 
https://bbb.schlittermann.de/b/gre-kcf-m77

Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz voreinstellen? 
Ich habe keine Ahnung, aber Interesse. Vielleicht geht das anderen auch so.
(Meine letzten Versuche auf dieser Strecke liegen Jahre zurück ...)

Es gab da mal eine Firma, die zeigte, dass Dateien gleich sind, wenn man die 
mit griechischem Zeichensatz ausdruckt und dann vergleicht.
Damit konnte sie den Inhalt ihrer gerichtswichtigen, kofferfüllenden Beweise so 
streng geheimhalten, dass die Verschleierung erst nach mehreren pa (picoanno, 
nicht P wie Peta) durch verantwortunglose, sicherlich russische(!) Hacker 
gebrochen wurde.
(SCO vs. IBM)

Bernhard

Am Sonntag, 21. Februar 2021, 22:29:39 CET schrieb ottmar-schm...@web.de:
> Hallo Freunde,
>  
> Also ich habe Seite für Seite gescannt und mit tesseract eingelesen, das ging 
> einigermappen gut. Danke fpr die Hilfe
>  
> Grüße aus dem Weinland Baden
> Ottmar