Am 27.01.2014 22:53, schrieb Thorsten Behrens:
...
"Übliches" PDF aus Text mit Bitmap-Bildern geht befriedigend bis gut
in LibreOffice Draw, bringt aber viel Arbeit ausser bei kleinen
Änderungen, da alles zeilenweise.
Yup. Denn leider braucht man die höheren Ebenen einer OCR-Software, um
Layout zu erkennen (Mehrspaltensatz, Bildunterschriften, Tabellen
etc.).
Ich muss das relativieren, auch Robert Kehl's späteres Mail ("LO Draw:
... quasi unbrauchbar, da sämtliches Layout zerstört wird.")
Nach meiner Erfahrung ist Libre Office Draw gerade sehr gut darin, das
Layout zu erkennen und erhalten.
Es ist ja bald wieder Google Summer of Code, ich wäre bereit, ein
entsprechendes Projekt bei LibreOffice als Mentor zu begleiten,
welches tesseract, ocropus oder CuneiForm als
Layout-Detektions-Backend anbindet...
Meiner Meinung nach braucht es etwas anderes. Libre Office platziert
jedes Objekt in der Regel genau, wo es gefunden wurde, und speichert
deshalb sinngemäss im ODG statt ODT Format. Jedoch wird jede Textzeile
als eigenes Objekt behandelt. In einem weiteren Schritt könnten
zusammengehörende Blöcke von Zeilen automatisch oder mit Hilfe von
manuellen Markierungen wieder zu einem einzigen Objekt zusammengefügt
werden, so dass der Text wieder Absatzweise statt Zeilenweise editiert
werden könnte. Das wäre doch ein überschaubarer Schritt für euch!
Mir ist nun die OCR-Lösung eingefallen, die ich erwähnt hatte: es ist
Archivista: http://www.archivista.ch/de/ Dort hat es auch eine
Online-Demo mit vielen Beispielen.
Viele Grüsse, Theo
_______________________________________________
fsfe-de mailing list
fsfe-de@fsfeurope.org
https://mail.fsfeurope.org/mailman/listinfo/fsfe-de