Re: FLOSS PDF-Editor [siehe auch Linux Magazin 2/14, denke auch an OCR]

theo . schmidt Tue, 28 Jan 2014 00:16:42 -0800

Am 27.01.2014 22:53, schrieb Thorsten Behrens:
...

"Übliches" PDF aus Text mit Bitmap-Bildern geht befriedigend bis gut
in LibreOffice Draw, bringt aber viel Arbeit ausser bei kleinen
Änderungen, da alles zeilenweise.

Yup. Denn leider braucht man die höheren Ebenen einer OCR-Software, um
Layout zu erkennen (Mehrspaltensatz, Bildunterschriften, Tabellen
etc.).

Ich muss das relativieren, auch Robert Kehl's späteres Mail ("LO Draw:... quasi unbrauchbar, da sämtliches Layout zerstört wird.")

Nach meiner Erfahrung ist Libre Office Draw gerade sehr gut darin, dasLayout zu erkennen und erhalten.

Es ist ja bald wieder Google Summer of Code, ich wäre bereit, ein
entsprechendes Projekt bei LibreOffice als Mentor zu begleiten,
welches tesseract, ocropus oder CuneiForm als
Layout-Detektions-Backend anbindet...

Meiner Meinung nach braucht es etwas anderes. Libre Office platziertjedes Objekt in der Regel genau, wo es gefunden wurde, und speichertdeshalb sinngemäss im ODG statt ODT Format. Jedoch wird jede Textzeileals eigenes Objekt behandelt. In einem weiteren Schritt könntenzusammengehörende Blöcke von Zeilen automatisch oder mit Hilfe vonmanuellen Markierungen wieder zu einem einzigen Objekt zusammengefügtwerden, so dass der Text wieder Absatzweise statt Zeilenweise editiertwerden könnte. Das wäre doch ein überschaubarer Schritt für euch!

Mir ist nun die OCR-Lösung eingefallen, die ich erwähnt hatte: es istArchivista: http://www.archivista.ch/de/ Dort hat es auch eineOnline-Demo mit vielen Beispielen.


Viele Grüsse, Theo
_______________________________________________
fsfe-de mailing list
fsfe-de@fsfeurope.org
https://mail.fsfeurope.org/mailman/listinfo/fsfe-de

Re: FLOSS PDF-Editor [siehe auch Linux Magazin 2/14, denke auch an OCR]

Antwort per Email an