Re: [de-users] Writer: falsche Umlaute-Darstellung in von Tesseract erstellten Textdateien

2018-06-30 Diskussionsfäden Wolfgang Jäth
Am 29.06.2018 um 19:47 schrieb Robert Großkopf:
> Hallo Martin,
>> 
>> ich digitalisiere Bücher mithilfe von Tesseract-OCR; nach Erstellung der
>> Texte öffne ich diese mit Writer. Dabei werden die Umlaute und das ß
>> -bedingt durch die Dateierstellung in der Windows-Cmd- falsch dargestellt.
> 
> Die Dateien werden vermutlich nicht mit einem UTF-8-Zeichensatz erstellt
> worden sein.

Kann sein, kann nicht sein; immerhin läuft Tesseract auf diversen
Betreibssystemen, wenn ich das richtig sehen. Ohne einen genaueren Blick
auf entweder das Programm oder das Produkt desselben sind wir auf dem
Gebiet der Spekulation.

> Datei > Öffnen > Filter > Text | Textkodierung wählen
> 
> Jetzt werden nur die *.txt-Dateien angezeigt. Versuche einmal die
> Kodierung "Westeuropäisch - Euro"

Falls das nicht zum gewünschten Ergebnis führen sollte, müsstest du mal
so ein Dokument im Original zur Verfügung stellen[1], damit wir genau
nachschauen können, wie die Kodierung tatsächlich ausschaut.

[1] bei dem Filesharing-Dienst deines geringsten Misstrauens hochladen,
und den Link dann hier posten

Wolfgang
-- 
Dank Donald Trump ist mir endgültig klar geworden: Es ist
nicht der Turm von Pisa, der schief steht, es ist die Welt!


-- 
Liste abmelden mit E-Mail an: users+unsubscr...@de.libreoffice.org
Probleme? 
https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy


gelöst: Re: [de-users] Writer: falsche Umlaute-Darstellung in von Tesseract erstellten Textdateien

2018-06-30 Diskussionsfäden Martin Jenniges

Hallo Robert, vielen Dank für deine Antwort; das war die Lösung!

mit freundlichem Gruss

Martin



Am 29.06.2018 um 19:47 schrieb Robert Großkopf:

Hallo Martin,

ich digitalisiere Bücher mithilfe von Tesseract-OCR; nach Erstellung der
Texte öffne ich diese mit Writer. Dabei werden die Umlaute und das ß
-bedingt durch die Dateierstellung in der Windows-Cmd- falsch dargestellt.

Die Dateien werden vermutlich nicht mit einem UTF-8-Zeichensatz erstellt
worden sein.

Datei > Öffnen > Filter > Text | Textkodierung wählen

Jetzt werden nur die *.txt-Dateien angezeigt. Versuche einmal die
Kodierung "Westeuropäisch - Euro"

Gruß

Robert




--
Liste abmelden mit E-Mail an: users+unsubscr...@de.libreoffice.org
Probleme? 
https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy


Re: [de-users] Writer: falsche Umlaute-Darstellung in von Tesseract erstellten Textdateien

2018-06-29 Diskussionsfäden Robert Großkopf
Hallo Martin,
> 
> ich digitalisiere Bücher mithilfe von Tesseract-OCR; nach Erstellung der
> Texte öffne ich diese mit Writer. Dabei werden die Umlaute und das ß
> -bedingt durch die Dateierstellung in der Windows-Cmd- falsch dargestellt.

Die Dateien werden vermutlich nicht mit einem UTF-8-Zeichensatz erstellt
worden sein.

Datei > Öffnen > Filter > Text | Textkodierung wählen

Jetzt werden nur die *.txt-Dateien angezeigt. Versuche einmal die
Kodierung "Westeuropäisch - Euro"

Gruß

Robert
-- 
Homepage: http://robert.familiegrosskopf.de
LibreOffice Community: http://robert.familiegrosskopf.de/map_3


-- 
Liste abmelden mit E-Mail an: users+unsubscr...@de.libreoffice.org
Probleme? 
https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy


[de-users] Writer: falsche Umlaute-Darstellung in von Tesseract erstellten Textdateien

2018-06-29 Diskussionsfäden Martin Jenniges

Hallo,

ich digitalisiere Bücher mithilfe von Tesseract-OCR; nach Erstellung der 
Texte öffne ich diese mit Writer. Dabei werden die Umlaute und das ß 
-bedingt durch die Dateierstellung in der Windows-Cmd- falsch dargestellt.


Derzeit behelfe ich mir mit Öffnen der TXT-Dateien in notepad++ und 
anschliessenden Auswählen-Kopieren-Einfügen in Writer.


Gibt es eine Möglichkeit, dass W'riter in Windows-Cmd erstellte 
Textdateien sofort korrekt darstellt ?


mit freundlichem Gruss

Martin jenniges

--
Liste abmelden mit E-Mail an: users+unsubscr...@de.libreoffice.org
Probleme? 
https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy