Am 27.01.2014 22:53, schrieb Thorsten Behrens:
...
"Übliches" PDF aus Text mit Bitmap-Bildern geht befriedigend bis gut
in LibreOffice Draw, bringt aber viel Arbeit ausser bei kleinen
Änderungen, da alles zeilenweise.

Yup. Denn leider braucht man die höheren Ebenen einer OCR-Software, um
Layout zu erkennen (Mehrspaltensatz, Bildunterschriften, Tabellen
etc.).

Ich muss das relativieren, auch Robert Kehl's späteres Mail ("LO Draw: ... quasi unbrauchbar, da sämtliches Layout zerstört wird.")

Nach meiner Erfahrung ist Libre Office Draw gerade sehr gut darin, das Layout zu erkennen und erhalten.

Es ist ja bald wieder Google Summer of Code, ich wäre bereit, ein
entsprechendes Projekt bei LibreOffice als Mentor zu begleiten,
welches tesseract, ocropus oder CuneiForm als
Layout-Detektions-Backend anbindet...

Meiner Meinung nach braucht es etwas anderes. Libre Office platziert jedes Objekt in der Regel genau, wo es gefunden wurde, und speichert deshalb sinngemäss im ODG statt ODT Format. Jedoch wird jede Textzeile als eigenes Objekt behandelt. In einem weiteren Schritt könnten zusammengehörende Blöcke von Zeilen automatisch oder mit Hilfe von manuellen Markierungen wieder zu einem einzigen Objekt zusammengefügt werden, so dass der Text wieder Absatzweise statt Zeilenweise editiert werden könnte. Das wäre doch ein überschaubarer Schritt für euch!

Mir ist nun die OCR-Lösung eingefallen, die ich erwähnt hatte: es ist Archivista: http://www.archivista.ch/de/ Dort hat es auch eine Online-Demo mit vielen Beispielen.

Viele Grüsse, Theo
_______________________________________________
fsfe-de mailing list
fsfe-de@fsfeurope.org
https://mail.fsfeurope.org/mailman/listinfo/fsfe-de

Antwort per Email an