Re: Aw: Re: Printmedien digitalisieren

2021-02-22 Diskussionsfäden vv01f
Ich habe bei einem Vortrag auf dem CLT vor ein paar Jahren von einem 
Buch (irgendwas über heimat, inkl. Abbildungen) in Fraktur gehört für 
das Tesseract trainiert wurde (irgendwie meine ich das könnte ein 
Mitarbeiter der SLUB gewesen sein). Also das geht, aber wie im Detail 
ist mir auch nicht bekannt (hätte da mit Revolting Librarians Redux 
einen Anwendungsfall wegen schwierigem Font).


nach ein wenig Suche …

Ein Vortrag den ich meine nicht wiederzuerkennen … 
https://chemnitzer.linux-tage.de/2013/vortraege/folien/digitalisierung_buecher.pdf 
… aber gleiches Thema und ebenfalls Hinweise auf Tesseract. Ergebnisse: 
gesammelte-werke.org


Für die Umwandlung von einem Markup-Format (für die meisten Zwecke 
dürfte Markdown genügen) würde ich übrigens pandoc empfehlen. Inzwischen 
kann das auch reproduzierbare Ergebnisse liefern.[0]


[0]: https://github.com/jgm/pandoc/issues/7093

On 22.02.21 09:27, Bernhard Schiffner wrote:


Kann man tesseract einlernen?




Re: Aw: Re: Printmedien digitalisieren

2021-02-22 Diskussionsfäden Bernhard Schiffner
Danke für die Rückmeldung, klingt ziemlich gut!

Kannst Du u.U. mal die Details berichten? Wir wollen uns Mi, 24.2. 20:00 wieder 
mal virtuell treffen auf 
https://bbb.schlittermann.de/b/gre-kcf-m77

Kann man tesseract einlernen? Was muss man bezüglich Zeichensatz voreinstellen? 
Ich habe keine Ahnung, aber Interesse. Vielleicht geht das anderen auch so.
(Meine letzten Versuche auf dieser Strecke liegen Jahre zurück ...)

Es gab da mal eine Firma, die zeigte, dass Dateien gleich sind, wenn man die 
mit griechischem Zeichensatz ausdruckt und dann vergleicht.
Damit konnte sie den Inhalt ihrer gerichtswichtigen, kofferfüllenden Beweise so 
streng geheimhalten, dass die Verschleierung erst nach mehreren pa (picoanno, 
nicht P wie Peta) durch verantwortunglose, sicherlich russische(!) Hacker 
gebrochen wurde.
(SCO vs. IBM)

Bernhard

Am Sonntag, 21. Februar 2021, 22:29:39 CET schrieb ottmar-schm...@web.de:
> Hallo Freunde,
>  
> Also ich habe Seite für Seite gescannt und mit tesseract eingelesen, das ging 
> einigermappen gut. Danke fpr die Hilfe
>  
> Grüße aus dem Weinland Baden
> Ottmar






Aw: Re: Printmedien digitalisieren

2021-02-21 Diskussionsfäden Ottmar-Schmidt
Hallo Freunde,

 

Also ich habe Seite für Seite gescannt und mit tesseract eingelesen, das ging einigermappen gut. Danke fpr die Hilfe

 

Grüße aus dem Weinland Baden

Ottmar

 
 

Gesendet: Montag, 15. Februar 2021 um 17:56 Uhr
Von: jm.2...@web.de
An: lug-dd@mailman.schlittermann.de
Betreff: Re: Printmedien digitalisieren

Hallo Ottmar,

da fallen mir ein
– cuneiform (OCR-Programm, Debian-Paket),
– tesseract (dto.),
– OCRopus bzw. OCRopy (komplexer; mehrere Schritte vom Scan bis zur
Textdatei),
– OCR4all (mit ähnlichem Leistungsumfang wie OCRopus, aber neuer und
hinsichtlich der Texterkennung dem Vernehmen nach besser, weil v. a.
schneller).

Aktuelle Einschätzungen, welches Programm das beste ist, kann ich leider
nicht geben. Dennoch viel Erfolg!

Jakob


Am 15.02.21 um 17:33 schrieb ottmar schmidt:
> Hallo und närrische Grüße aus dem Weibland Baden.
>
>
> Ich darf/soll/muss eine Kreuzwegandacht überarbeiteten, die es nur noch
> in ausgedruckter Form gibt.
> Biser wurden die Hefte vorher ausgeteilt und danach wieder eingesammelt.
> Wegen Corona Modell wir das nun auf schwarz-weiß A4 doppelseitigen Druck
> mitm Laserdrucker um. Das kann/darf/muss jeder Teilnehmer danach mit
> nach Hause nehmen und man ist in Sachen Hygienekonzept sauber..
>
> Wie bekommt man das Ganze editierbar wieder in eine Textdatei und nein
> ich will es nicht abtippen 
>
>
> Blätter scannen ist ja nun nicht das Thema. Kennt jemand eine gute
> Texterkennungsoftware am Liebsten als Debian-package.
>
> VG
>
> Ottmar
> --
> Diese Nachricht wurde von meinem Android Mobiltelefon mit WEB.DE
>  Mail gesendet.
 






Aw: Re: Printmedien digitalisieren

2021-02-16 Diskussionsfäden Ottmar-Schmidt
Hallo Fabian,

 

daß Du mir so wenig zutraust, hätte ich jetzt auch nicht gedacht aber ist ok *Spaß*

 

So halb analog digitalisiert, das scheidet leider aus, das alte ist eine Broschüre Format  A4 dreiteilig geteilt aber nur 2 Teile genommen, als Faltbroschüre, geklammert.

das neue Format ist A4 Duplexdruck oben in der Ecke mit einer Takerklammer .

 


Und jetzt kommts ich hab dann mal apt-cache search ocr gemacht danach kam eine Liste lange wie die chinesische Mauer und ich dachte an ein bekanntes Zitat ausm Faust

Da steh' ich nun, ich armer Tor, 

Und bin so klug als wie zuvor!


 



Hinttergrund des Ganzen ist Corona und was damit zusammmen hängt. Die Broschüre wurde mal für teuer Geld gedruckt und wird normal ausgeteilt und danach wieder eingesmmelt das geht in Corona-Zeiten nicht.

 

Ich habe einen leistungsstarken Laserdrucker, der ist mir mal "zugelaufen" weil gelegentliche Papierstaus dann war die Fixiereinheit defekt und seither geht das Ding wie die Feuerwehr.^^ Das Blatt doppelseitig gedruckt kostet um die 2-3 cent.

 

Jetzt ist der Gedanke der das Ganze als doppelseitig gedruckter Schwarzweißdruck A4 mitm Bureautacker zusammen geschossen, auszugeben, und draufzuschreiben "nehmen sie das Manuskript bitte mit nach Hause". das wäre von den Kosten her noch überschaubar. Die Leute die den Kreuzweg organisieren machen alles ehrenamtlich ich dann auch, und wenn ich das ausdrucke kostet ein Manuskript mit 10 Seiten schätzungsweise 10-15 Cent, mit 20 Seiten 20-30 Cent wenn man da, 50-100 Exemplare ausdruckt und verschenkt, das ist dann vn den Kosten her alles überschaubar

 

Da werden  noch Lieder eingebaut und evtl auch Zeichnung mal schauen was ich im Netz noch finde und verwenden darf und ich nicht alles abtippen will  , das ist mir dann auch zuviel. *gg*

 

VG

 

Ottmar

 
 

Gesendet: Dienstag, 16. Februar 2021 um 22:19 Uhr
Von: "Fabian Hänsel" 
An: lug-dd@mailman.schlittermann.de
Betreff: Re: Printmedien digitalisieren

Hallo Ottmar,

On 15.02.21 17:33, ottmar schmidt wrote:
> Hallo und närrische Grüße aus dem Weibland Baden.

Ist das jetzt Feminismus oder abschätzig? ;-)

Back to topic:

> Ich darf/soll/muss eine Kreuzwegandacht überarbeiteten, die es nur noch
> in ausgedruckter Form gibt.
> Biser wurden die Hefte vorher ausgeteilt und danach wieder eingesammelt.
> Wegen Corona Modell wir das nun auf schwarz-weiß A4 doppelseitigen Druck
> mitm Laserdrucker um. Das kann/darf/muss jeder Teilnehmer danach mit
> nach Hause nehmen und man ist in Sachen Hygienekonzept sauber..

Früher(tm) hätte man das alte Exemplar genommen, auf den Kopierer gelegt
(der ja auch vergrößern/verkleinern kann), mit der Schere ins neue
Format "layoutet", zusammengeleimt und das fertige Ergebnis dann
tausendfach vom Kopierer vervielfältigen lassen. Sofern nicht zu viele
Gebete zu überarbeiten sind ('Beschütze uns vor dem Bluescreen und führe
uns nicht in Versuchung, einen Ad-Blocker zu nutzen.'), könnte es
klappen, die alte Version einfach mit mit 1000+ dpi zu scannen (strikt
schwarzweiß) und dann mit Gimp & Co ins neue Format zu bringen.

Beste Grüße
Fabian
 






Aw: Re: Printmedien digitalisieren

2021-02-16 Diskussionsfäden Ottmar-Schmidt
Hallo Jakob,

 

das klingt doch mal gar nicht so schlecht. bis ich mit dem Kreutzweg fertig bin weiss ich wie das Ganze am Besten geht ^^

 

Was Du mir vorschlägst klingt dochschonmal überschaubar und Versuch macht kluch

 

VG

 

Ottmar


Gesendet: Montag, 15. Februar 2021 um 17:56 Uhr
Von: jm.2...@web.de
An: lug-dd@mailman.schlittermann.de
Betreff: Re: Printmedien digitalisieren

Hallo Ottmar,

da fallen mir ein
– cuneiform (OCR-Programm, Debian-Paket),
– tesseract (dto.),
– OCRopus bzw. OCRopy (komplexer; mehrere Schritte vom Scan bis zur
Textdatei),
– OCR4all (mit ähnlichem Leistungsumfang wie OCRopus, aber neuer und
hinsichtlich der Texterkennung dem Vernehmen nach besser, weil v. a.
schneller).

Aktuelle Einschätzungen, welches Programm das beste ist, kann ich leider
nicht geben. Dennoch viel Erfolg!

Jakob


Am 15.02.21 um 17:33 schrieb ottmar schmidt:
> Hallo und närrische Grüße aus dem Weibland Baden.
>
>
> Ich darf/soll/muss eine Kreuzwegandacht überarbeiteten, die es nur noch
> in ausgedruckter Form gibt.
> Biser wurden die Hefte vorher ausgeteilt und danach wieder eingesammelt.
> Wegen Corona Modell wir das nun auf schwarz-weiß A4 doppelseitigen Druck
> mitm Laserdrucker um. Das kann/darf/muss jeder Teilnehmer danach mit
> nach Hause nehmen und man ist in Sachen Hygienekonzept sauber..
>
> Wie bekommt man das Ganze editierbar wieder in eine Textdatei und nein
> ich will es nicht abtippen 
>
>
> Blätter scannen ist ja nun nicht das Thema. Kennt jemand eine gute
> Texterkennungsoftware am Liebsten als Debian-package.
>
> VG
>
> Ottmar
> --
> Diese Nachricht wurde von meinem Android Mobiltelefon mit WEB.DE
>  Mail gesendet.