FLOSS PDF-Editor [siehe auch Linux Magazin 2/14, denke auch an OCR]
theo.schmidt at wilhelmtux.ch
theo.schmidt at wilhelmtux.ch
Di Jan 28 08:15:41 UTC 2014
Am 27.01.2014 22:53, schrieb Thorsten Behrens:
...
>> "Übliches" PDF aus Text mit Bitmap-Bildern geht befriedigend bis gut
>> in LibreOffice Draw, bringt aber viel Arbeit ausser bei kleinen
>> Änderungen, da alles zeilenweise.
>>
> Yup. Denn leider braucht man die höheren Ebenen einer OCR-Software, um
> Layout zu erkennen (Mehrspaltensatz, Bildunterschriften, Tabellen
> etc.).
Ich muss das relativieren, auch Robert Kehl's späteres Mail ("LO Draw:
... quasi unbrauchbar, da sämtliches Layout zerstört wird.")
Nach meiner Erfahrung ist Libre Office Draw gerade sehr gut darin, das
Layout zu erkennen und erhalten.
> Es ist ja bald wieder Google Summer of Code, ich wäre bereit, ein
> entsprechendes Projekt bei LibreOffice als Mentor zu begleiten,
> welches tesseract, ocropus oder CuneiForm als
> Layout-Detektions-Backend anbindet...
Meiner Meinung nach braucht es etwas anderes. Libre Office platziert
jedes Objekt in der Regel genau, wo es gefunden wurde, und speichert
deshalb sinngemäss im ODG statt ODT Format. Jedoch wird jede Textzeile
als eigenes Objekt behandelt. In einem weiteren Schritt könnten
zusammengehörende Blöcke von Zeilen automatisch oder mit Hilfe von
manuellen Markierungen wieder zu einem einzigen Objekt zusammengefügt
werden, so dass der Text wieder Absatzweise statt Zeilenweise editiert
werden könnte. Das wäre doch ein überschaubarer Schritt für euch!
Mir ist nun die OCR-Lösung eingefallen, die ich erwähnt hatte: es ist
Archivista: http://www.archivista.ch/de/ Dort hat es auch eine
Online-Demo mit vielen Beispielen.
Viele Grüsse, Theo
Mehr Informationen über die Mailingliste FSFE-de