Re: [de-users] alte Dokumente unlesbar (Codierung?)

Matthias Müller Posteo . de Mon, 06 Jan 2020 03:20:23 -0800

Hallo Rainer und alle Diskutanten

Am Montag, 6. Januar 2020, 08:06:51 CET schrieb Rainer:
> Am Sun, 5 Jan 2020 21:59:48 +0100
> 
> schrieb gooly <[email protected]>:
> > >> Den Text öffnen, kopieren, in einen UTF-8-fähigen (sollten unter
> > >> Linux alle sein) Texteditor einfügen, umcodieren und neue
> > >> Textdatei mit LO erstellen.
Das ist für alle zu ändernden Texte notwendig. Mit den SO-/LO- bzw Word-Texten 
geht automatisiert vermutlich gar nix. Möglicherweise bietet MS ein Tool dafür 
an, weiß ich aber nicht.


> > > 
> > > Funktioniert nicht. Beispiel: das Wort "für" (im alten Dokument
> > 
> > > "fŸr"):
> > Wenn es nur die 7 deutschen Sonderzeichen sind: üöäÜÖÄß
> > könnte man die doch einfach "replace Ÿ mit ü" machen.
Ja, darauf läuft es raus, aber…

> > Notepad++ hätte für soetwas die Option, solche Ersetzungen in allen
> > geladenen Dateien auf einmal zu machen - vielleicht hätte gibt's das
> > ja auch auf Linux?
… das ist ein Editor für Windows, der …
> Ja, mit Hilfskonstruktionen ist es möglich, Notepad++ zum Laufen zu
> bringen 
… mit wine zum funktionieren gebracht werden muss. Habe ich noch nicht 
versucht, werde es aber demnächst mal tun.

> (oder die Alternative "Notepadqq" zu nutzen).
Ist zumindest in den Debian-Repos nicht zu finden. 

> Aber wie ich
> meiner gestrigen Antwort auf Dein Posting schon schrieb: Es handelt
> sich ja um einen Texteditor, und ich kann mir im Moment nicht
> vorstellen, wie damit LO-Dateien im odt-Format geladen und bearbeitet
> werden sollen.
Das ist der Punkt. Die Textdaten müssen extrahiert werden, was einigermaßen 
komfortabel nur für ODT-Daten funktioniert und auch nur hier automatisiert 
werden kann. Das ist vermutlich der einfachere Teil des Workflows. Word-Daten 
sind komplett binär, das ist nix mit automatisch den Textteil extrahieren.
Erst nach dem Extrahieren ist es möglich mit einem Tool wie recode oä zu 
konvertieren.

Ab hier wird es beliebig komplex. Nicht nur die Codierung des Textes nuss 
betrachtet werden, sondern auch die Umgebung (Sprachumgebung, Codierung, 
Betriebssystem, …) auf dem Rechner, der die Umkodierung machen soll. Der 
Texteditor, mit dem die Kontrollen (die sind zwingend) gemacht werden ist ein 
Faktor. Bzw kann er Unicode, schaltet er automatisch zwischen den Codierungen 
um, welcher Zeichensatz kommt zur Darstellung zum Einsatz. Nicht ganz 
unwichtig ist auch, ob die Daten dann zwischen Win, Linux, iOS hin und her 
geschoben werden. Da wird teilweise schon mal automatisch konvertiert, je 
nachdem welches Transportmittel eingesetzt wird.

Diese Ausführlichkeit, hat einen einfachen Grund: Ich habe schon mit solch 
einem Problem gekämpft und dann frustriert aufgegeben. Und das waren bereits 
Textdaten, die allerdings von Windows nach Linux transferiert wurden.

Falls du es doch versuchen willst, läuft das ganze auf Scripten raus. 
Werkzeuge mit denen du dann arbeiten müsstest wären
"gzip" / "gunzip" um die SO-/LO-Daten zu entpacken
"find" um sie zu finden und sie dann mit 
"mv" oder "cp" zu verschieben oder kopieren
Für das Ersetzen der seltsamen (eigentlich regulären Unicode-) Zeichen kommen 
diverse Werkzeuge in Frage: "tr", "sed", "recode" und wahrscheinlich noch ein 
paar.

Aus meiner Sicht die einfachste Methode, allerdings auch die mit dem meisten 
Stumpsinn (und deshalb durchaus fehleranfäälig):
Mit LO öffnen und über Suchen/ersetzen (eventl mit RegEx-Hilfe) die Dateien 
einzeln zu bearbeiten. Danach sofort als PDF/A exportieren. PDF/A deshalb, 
weil es ein ISO-genormtes Archivformat ist, 
siehe https://de.wikipedia.org/wiki/PDF/A

-- 
Mit freundlichen Grüßen
Matthias Müller

Diese Mail ist mit OpenPGP signiert!
Zum überprüfen der Signatur, der Integrität und Authentizität
meiner Mails kann man OpenPGP (https://www.openpgp.org/) installieren.
Bitte senden Sie als Antwort auf meine E-Mails reine Text-Nachrichten!

-- 
Liste abmelden mit E-Mail an: [email protected]
Probleme? 
https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy

Re: [de-users] alte Dokumente unlesbar (Codierung?)

Antwort per Email an