FLOSS PDF-Editor [siehe auch Linux Magazin 2/14, denke auch an OCR]

Di Jan 28 08:15:41 UTC 2014

Am 27.01.2014 22:53, schrieb Thorsten Behrens:
...
>> "Übliches" PDF aus Text mit Bitmap-Bildern geht befriedigend bis gut
>> in LibreOffice Draw, bringt aber viel Arbeit ausser bei kleinen
>> Änderungen, da alles zeilenweise.
>>
> Yup. Denn leider braucht man die höheren Ebenen einer OCR-Software, um
> Layout zu erkennen (Mehrspaltensatz, Bildunterschriften, Tabellen
> etc.).

Ich muss das relativieren, auch Robert Kehl's späteres Mail ("LO Draw: 
... quasi unbrauchbar, da sämtliches Layout zerstört wird.")

Nach meiner Erfahrung ist Libre Office Draw gerade sehr gut darin, das 
Layout zu erkennen und erhalten.

> Es ist ja bald wieder Google Summer of Code, ich wäre bereit, ein
> entsprechendes Projekt bei LibreOffice als Mentor zu begleiten,
> welches tesseract, ocropus oder CuneiForm als
> Layout-Detektions-Backend anbindet...

Meiner Meinung nach braucht es etwas anderes. Libre Office platziert 
jedes Objekt in der Regel genau, wo es gefunden wurde, und speichert 
deshalb sinngemäss im ODG statt ODT Format. Jedoch wird jede Textzeile 
als eigenes Objekt behandelt. In einem weiteren Schritt könnten 
zusammengehörende Blöcke von Zeilen automatisch oder mit Hilfe von 
manuellen Markierungen wieder zu einem einzigen Objekt zusammengefügt 
werden, so dass der Text wieder Absatzweise statt Zeilenweise editiert 
werden könnte. Das wäre doch ein überschaubarer Schritt für euch!

Mir ist nun die OCR-Lösung eingefallen, die ich erwähnt hatte: es ist 
Archivista: http://www.archivista.ch/de/  Dort hat es auch eine 
Online-Demo mit vielen Beispielen.

Viele Grüsse, Theo