Re: auf UTF-8 umsteigen, Folgen?

2006-07-18 Diskussionsfäden Ace Dahlmann
Hi!

Am Wed, 12 Jul 2006 10:48:30 +0200
schrieb Jochen Schulz [EMAIL PROTECTED]:

  (wenn es das Ziel-System kann) oder du stellst dein Terminal
  passend ein. Im gnome-terminal z.B. kannst du den Zeichensatz
  einstellen. Nutze ich wenn ich mich zu Rechnern verbinde, die noch
  keine UTF-8 Locales haben.
 
 Werd mal schauen, ob xcfe4-terminal das auch kann. Oder ich versuche,
 das mit screen zu lösen.

Ich nutze dafür:

xfterm4 +u8 -bg black -fg white -cr white

LG,
Ace
-- 
()  ASCII Ribbon Campaign - against HTML mail 
/\- against Microsoft attachments
http://www.efn.no/html-bad.html
http://www.goldmark.org/netrants/no-word/attach.html


signature.asc
Description: PGP signature


Re: auf UTF-8 umsteigen, Folgen?

2006-07-13 Diskussionsfäden Jörg Sommer
Hallo Ulrich,

Ulrich Fürst [EMAIL PROTECTED] wrote:
 cat /etc/environment
 # Fuer Gimp
 export G_FILENAME_ENCODING=UTF-8

/etc/environment ist kein Shellskript! Die Datei wird von einem PAM-Modul
verarbeitet, dass nur die Syntax Variable=Wert kennt.

Schöne Grüße, Jörg.
-- 
 Definiere Demokratie...
... eine Mehrheit beweist einer Minderheit, dass Widerstand zwecklos ist.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Helmut Wollmersdorfer

Andreas Pakulat wrote:

On 11.07.06 22:34:27, Ulrich Fürst wrote:

Andreas Pakulat [EMAIL PROTECTED] wrote:

On 11.07.06 19:22:03, Ulrich Fürst wrote:



Manche Programme benötigen extra Optionen. Mein Gimp
braucht z. B. 
cat /etc/environment

# Fuer Gimp
export G_FILENAME_ENCODING=UTF-8

Komisch, hier brauchts das nicht. Aber s.o. ich fahre auch unstable,
moeglich das der schon etwas besser ist als der aus Sarge.

Gimp startete nicht mehr und meldete, dass er diese Variable gesetzt
haben möchte. 



Wie gesagt, kann ich nicht nachvollziehen.


Hab auch keine Probleme damit, aber ich vermeide auch non-ASCII in 
Filenamen. Hab jetzt extra probiert, ein jpg in testäöü.jpg umzubenennen 
- öffnet problemlos in GIMP.


Helmut Wollmersdorfer


--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/


Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Martin Reising
On Wed, Jul 12, 2006 at 02:02:15AM +0200, Steffen Schulz wrote:
 [EMAIL PROTECTED] ~]$ echo $TERM, $LANG
 rxvt-unicode, en_US.utf8

Warum LANG=en_US.utf8 und nicht LC_CTYPE=de_DE.UTF-8 ohne LANG?

-- 
Nicht Absicht unterstellen, wenn auch Dummheit ausreicht!


pgpa2lNI7iSub.pgp
Description: PGP signature


Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Andreas Pakulat
On 12.07.06 02:02:15, Steffen Schulz wrote:
 On 060711 at 21:20, Andreas Pakulat wrote:
   Ein Problem stellen auch zB Dateinamen dar. Die sind ja auch irgendwie
   kodiert, verfuegbare Codings sind im Kernel zu konfigurieren.
  Also damit habe ich eigentlich auch keinerlei Probleme. Wenn ein User
  mit de_DE locale eine Datei mit Umlauten auf einem *nix-Dateisystem
  ablegt kann ich die auch korrekt in UTF-8 locale sehen.
 
 Hm. Ich hoffe mein ü kommt korrekt an, sonst wird das jetzt etwas wirr:

Ja, passt schon.

 [EMAIL PROTECTED] ~]$ echo $TERM, $LANG
 rxvt-unicode, en_US.utf8

Ich mag mich da jetzt irren, aber en_US.utf8 ist keine korrekte locale,
denke ich. Richtig ist en_US.UTF-8, schau mal in deine /etc/locale.gen.

 [EMAIL PROTECTED] ~]$ touch tür
 [EMAIL PROTECTED] ~]$ ls tür
 tür

Da waere mal interesant wie es mit einem Hexeditor aussieht, also

ls tür datei; hexedit datei

Da sollten dann 4 Bytes drin stehen (alternativ auch ls -l datei)

 [EMAIL PROTECTED] ~]$ rm tür
 [EMAIL PROTECTED] ~]$ export LANG=en_US
 [EMAIL PROTECTED] ~]$ urxvt
 
 - touch tür;ls tür; rm tür; geht in dem terminal ebenso. Allerdings
 faellt auf, dass das terminal irgendwie der Meinung ist, ein Zeichen
 anzuzeigen(ü) und 2 zeichen zu editieren, xterm das selbe. :-/

Ja, weil das Terminal denkt es benutzt eine UTF-8 locale, du aber in
Wirklichkeit eine latin1-Kodierung nutzt.

 - touch tür; exit
 
 [EMAIL PROTECTED] ~]$ rm tür
 rm: cannot remove `tür': No such file or directory
 [EMAIL PROTECTED] ~]$ ls tür
 ls: tür: No such file or directory
 [EMAIL PROTECTED] ~]$ ls t?r
 tür

Das Terminal ist aber noch im UTF-8 Modus. So wie du das machst kann ich
das auch nachvollziehen, wobei konsole mir bei einem ls dann nur tr
ausgibt. Wenn ich aber dann konsole sage dass die Locale auf latin1
geaendert wurde, wird bei ls wieder alles korrekt dargestellt. Und ich
kanns mit rm tür auch loeschen.

Kurz: Die Kodierung im Dateisystem ist immer diesselbe, nur die Anzeige
durchs Terminal ist u.U. kaputt.

 Nachdem convmv den Dateinamen von 8859-1 nach utf-8 convertiert hat,
 kann ich den Dateinamen korrekt eintippen. Vorher hats dann auf
 Dateisystemebene nicht gepasst, weil die ü unterschiedlich kodiert
 werden. 

Hier irrst du dich. Auf Dateisystemebene ist alles korrekt gewesen, nur
dein Terminal wusste nicht dass es das High-Byte nicht als erstes von
2 UTF-8 Bytes interpretieren muss.

   Nerviges Problem ist, dass man fuer unicode modifizierte terminals
   benutzt, die dann auch anders heissen. z.B. rxvt-unicode oder uxterm.
  Bloedsinn, deine Howtos sind hoffnungslos veraltet. Solange LANG korrekt
  gesetzt ist, funktionieren xterm, gnome-terminal, konsole und
  xfce4-terminal wunderbar. Ich vermute aber das bei dir einfach LANG
  falsch gesetzt ist.
 
 Nun, als ich damals die entsprechenden terminals probiert habe, wurde
 halt auf die unicode-varianten verwiesen. Das is nu mind. nen Jahr her,
 okay...aber meine Howtos erzaehlen noch immer was von Dateinamen:
 
 http://de.gentoo-wiki.com/Utf8#Dateinamen

Ich hab doch gesagt, die Howtos sind veraltet und das gilt fuer fast
alle UTF-8 Howtos. Glaub mir einfach wenn ich dir sage xterm erkennt ob
es aus einer UTF-8 oder non-UTF-8 locale heraus gestartet wird.

 Oh, und rate was ich eben in der muttrc fand...
 
 set send_charset=UTF-8:ISO-8859-15:ISO-8859-1
 
 Da ist wohl was schiefgelaufen.. ^^

Ja, genau falschherum.

Andreas

-- 
Someone whom you reject today, will reject you tomorrow.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Jochen Schulz
Michael Bienia:
 On 2006-07-11 22:45:07 +0200, Jochen Schulz wrote:
  Ich habe aufgrund des kürzlich erwähnten Datenverlustes den
  Etch-Installer ausprobiert (mit GUI!!elf) und der stellt ja automatisch
  UTF-8 ein. Ich hatte aber dann das Problem, dass eine SSH-Session auf
  ein ISO-8859-1-System furchtbar kaputt aussah. Ich vermute auch, dass
  mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
  (UTF-8 als ISO-8859-1), wenn ich die per SSH vom UTF-System geschrieben
  habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
  Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
  starten müssen?
 
 Das liegt daran, dass dein Terminal noch im UTF-8 Modus war, die
 Gegenseite jedoch in ISO-8859-1 (siehe locale auf dem Zielrechner):
 dein Terminal hat UTF-8 geschickt und die Gegenseite hat es als
 ISO-8859-1 intepretiert = kaputte Umlaute (in beide Richtungen).

Klingt logisch, danke.

 Entweder sagst du dem Zielsystem, dass du eine UTF-8 Locale nutzt (wenn
 es das Ziel-System kann) oder du stellst dein Terminal passend ein.
 Im gnome-terminal z.B. kannst du den Zeichensatz einstellen. Nutze ich
 wenn ich mich zu Rechnern verbinde, die noch keine UTF-8 Locales haben.

Werd mal schauen, ob xcfe4-terminal das auch kann. Oder ich versuche,
das mit screen zu lösen.

J.
-- 
In an ideal world I would cure poverty and go to the gym at least three
days a week.
[Agree]   [Disagree]
 http://www.slowlydownward.com/NODATA/data_enter2.html


signature.asc
Description: Digital signature


Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Steffen Schulz
On 060712 at 10:10, Martin Reising wrote:
 On Wed, Jul 12, 2006 at 02:02:15AM +0200, Steffen Schulz wrote:
  [EMAIL PROTECTED] ~]$ echo $TERM, $LANG
  rxvt-unicode, en_US.utf8
 
 Warum LANG=en_US.utf8 und nicht LC_CTYPE=de_DE.UTF-8 ohne LANG?

Aehm...weil bei mir alles en_US ist und sein soll?

Aber stimmt, die LC-Variablen hab ich bei dem Experiment uebersehen.

Wenn ich LC_ALL statt LANG benutze(LC_ALL hat Prioritaet) und
Erwaehntes ausprobiere, tritt der Fehler in dem nicht-unicode-terminal
nicht mehr auf. Also dass er irgendwie nen 2byte-Zeichen zu editieren
versucht und nen einzelnes ü anzeigt. Dafuer kann man jetzt dort den
Unicode-Dateinamen nicht mehr lesen. Man sieht die 2 byte Sondermuell
statt dem Umlaut.  Wenn man im nicht-unicode-term die datei tür nochmal
erstellt und sich das im unicode-term anschaut, hat man dort 2
dateinamen, die gleich aussehen. Wenn man rm tür eintippt, kann man nur
einen davon loeschen, naemlich halt den unicode-namen.


Es sind halt doch verschiedene Codings. Die selben eingetippten Zeichen
resultieren auf FS-Ebene in verschiedene Bitstrings und wenn man den
unicode-umlaut nach latin1 ausgibt gibts dann halt Muell.


mfg
pepe
-- 
Hi, I'm a unix-virus.
Please copy me into your .signature to help me spread!


signature.asc
Description: Digital signature


Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Jochen Schulz
Steffen Schulz:
 On 060711 at 23:10, Jochen Schulz wrote:
  UTF-8 ein. Ich hatte aber dann das Problem, dass eine SSH-Session auf
  ein ISO-8859-1-System furchtbar kaputt aussah. Ich vermute auch, dass
  mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
  (UTF-8 als ISO-8859-1), wenn ich die per SSH vom UTF-System geschrieben
  habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
  Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
  starten müssen?
 
 Ich benutz zwar kein Screen, aber der setzt im Gegensatz zu SSH meines
 Wissens die Kodierungen um. Dh. den haettest du wohl mindestens mal
 neustarten oder ihm das anders beibringen muessen, weil der Input
 fuer Screen nun utf8-codiert ist..

Hm. Es gibt screen -U:

-U   Run  screen  in  UTF-8  mode. This option tells screen that your
 terminal sends and understands UTF-8 encoded characters. It also
 sets the default encoding for new windows to `utf8'.

Stelle ich mein lokales PuTTY auf UTF-8 ein und mache auf dem
Zielrechner ein neues screen mit -U auf, werden Umlaute zB in mutt als
die berühmten Kästchen dargestellt. In der Shell selbst kann ich aber
welche eingeben. In vim geht das wiederum gar nicht, da kommen zwar
Umlaute raus, aber immer gefolgt von einem Leerzeichen oder Murks.

J.
-- 
Nothing is as I planned it.
[Agree]   [Disagree]
 http://www.slowlydownward.com/NODATA/data_enter2.html


signature.asc
Description: Digital signature


Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Steffen Schulz
On 060712 at 10:40, Andreas Pakulat wrote:
 On 12.07.06 02:02:15, Steffen Schulz wrote:
  [EMAIL PROTECTED] ~]$ echo $TERM, $LANG
  rxvt-unicode, en_US.utf8
 
 Ich mag mich da jetzt irren, aber en_US.utf8 ist keine korrekte locale,
 denke ich. Richtig ist en_US.UTF-8, schau mal in deine /etc/locale.gen.

/etc/locales.build, hier ist gerade gentoo. Hm. Stimmt, es heisst
UTF-8, aber das erzeugt hier noch immer das gleiche Problem. (bashrc
angepasst und komplett ausgeloggt, ohne kdm/gdm/whatever sondern
startx)

  [EMAIL PROTECTED] ~]$ touch tür
  [EMAIL PROTECTED] ~]$ ls tür
  tür
 
 Da waere mal interesant wie es mit einem Hexeditor aussieht, also
 
 ls tür datei; hexedit datei
 
 Da sollten dann 4 Bytes drin stehen (alternativ auch ls -l datei)

Na hoffentlich nicht, das war nur ein touch :)

mit LC_ALL=en_US.UTF-8:

[EMAIL PROTECTED] ~]$ echo tür  tür
[EMAIL PROTECTED] ~]$ hexdump -C tür
  74 c3 bc 72 0a|t..r.|
0005

Sieht fuer mich okay aus. Und wenn ich, wie in der anderen Mail zu
lesen, nun auch mal LC_* beachte und das auf latin1 stelle und dann nen
xterm oder urxvt starte, kann ich da 2 Sonderzeichen statt dem ü sehen.

ohne unicode:

[EMAIL PROTECTED] ~]$ export LC_ALL=en_US
[EMAIL PROTECTED] ~]$ xterm
-
  [EMAIL PROTECTED] ~]$ export LC_ALL=en_US
  [EMAIL PROTECTED] ~]$ echo tür  test
  [EMAIL PROTECTED] ~]$ ls -l test
  -rw-r--r-- 1 pepe pepe 4 2006-07-12 11:14 test
  [EMAIL PROTECTED] ~]$ hexdump -C test 
    74 fc 72 0a   |tür.|
  0004


Sieht fuer mich korrekt aus.

  - touch tür;ls tür; rm tür; geht in dem terminal ebenso. Allerdings
  faellt auf, dass das terminal irgendwie der Meinung ist, ein Zeichen
  anzuzeigen(ü) und 2 zeichen zu editieren, xterm das selbe. :-/
 
 Ja, weil das Terminal denkt es benutzt eine UTF-8 locale, du aber in
 Wirklichkeit eine latin1-Kodierung nutzt.

Ajo, Weil innerhalb des neuen term wieder auf utf gesetzt wird. Wenn
man dort auch nochmal LC_ALL=en_US macht, wie oben geschehen, tritt das
nicht auf.


  - touch tür; exit
  
  [EMAIL PROTECTED] ~]$ rm tür
  rm: cannot remove `tür': No such file or directory
  [EMAIL PROTECTED] ~]$ ls tür
  ls: tür: No such file or directory
  [EMAIL PROTECTED] ~]$ ls t?r
  tür
 
 Das Terminal ist aber noch im UTF-8 Modus.

Ja, darum gehts ja. Wenn ich normal in utf-8 arbeite und jmd mit
latin1/9 ne Datei mit zB Umlauten erstellt, wie ich es oben gemacht
habe, dann kann ich diese Datei im UTF-8-term zwar zufaellig korrekt
anzeigen, aber meine Umlaute unterscheiden in der Codierung von denen
in der Datei, daher funktioniert zB rm tür dann nicht.

Das bedeutet um auf utf8 zu wechseln muessen die Dateinamen und Inhalte
ggf. umkodiert werden. Und wenn mir spaeter einer ne Datei unterschiebt,
die mit latin1/9 erstellt wurde, bekomm ich ggf Probleme, deren
Dateinamen einzugeben, weil meine Umlaute 2 Byte lang sind, die im
Dateinamen nur ein Byte...(und auch nen anderes codewort haben..)

  http://de.gentoo-wiki.com/Utf8#Dateinamen
 
 Ich hab doch gesagt, die Howtos sind veraltet und das gilt fuer fast
 alle UTF-8 Howtos. Glaub mir einfach wenn ich dir sage xterm erkennt ob
 es aus einer UTF-8 oder non-UTF-8 locale heraus gestartet wird.

Jo, tut es auch oben. Und die aktuelle Einstellung innerhalb der
dortigen Shell ist auch wichtig, um diesen Fehler zu beheben, dass sich
das Terminal nicht sicher ist, ob das Zeichen nun 1 oder 2 Byte lang
ist.



mfg
pepe
-- 
Zeit ist das, was man an der Uhr abliest.   -- Albert Einstein


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Jochen Schulz
Andreas Pakulat:
 On 11.07.06 22:45:07, Jochen Schulz wrote:
  
  Ich habe aufgrund des kürzlich erwähnten Datenverlustes den
  Etch-Installer ausprobiert (mit GUI!!elf) und der stellt ja automatisch
  UTF-8 ein.
 
 Achja? Ich war bisher der Meinung dass er dpkg-reconfigure locales
 ausfuehrt und du dann waehlen kannst. Aber ich hab auch noch nie Etch
 installiert...

IIRC war da nur am Anfang das Menü mit der Auswahl von Sprache und
Keyboard-Layout. Ich habe Englisch mit deutschem Layout gewählt und
bekam en_US.UTF8. Ist aber natürlich im Nachhinein leicht umzustellen.

  Ich hatte aber dann das Problem, dass eine SSH-Session auf
  ein ISO-8859-1-System furchtbar kaputt aussah.
 
 Kannst du das etwas genauer beschreiben?

IIRC sah es nach UTF8 als ISO interpretiert aus. Umlaute oder
Ähnliches wurden als zwei merkwürdige Zeichen dargestellt. Ich kann
das grade nicht wiederholen, weil mein Notebook noch in Holland ist (und
ich momentan an einem Windows sitze).

  Ich vermute auch, dass
  mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
  (UTF-8 als ISO-8859-1),
 
 Deine Mail auf die ich geantwortet habe war UTF-8 deklariert und soweit ich
 das gesehen habe auch genauso kodiert. Nur das das eben nicht unbedingt
 immer sinnvoll ist, insbesondere wenn man mit Leuten kommuniziert die
 kaputte Mailclients oder Webmailer benutzen.

Hm? Wo genau war die Deklaration? Ich sehe hier nur

MIME-Version: 1.0
Content-Type: multipart/signed; micalg=pgp-sha1;
protocol=application/pgp-signature;
boundary=+SfteS7bOf3dGlBC
Content-Disposition: inline

Kann sein, dass GnuPG irgendwas umkodiert. Eine unsignierte Mail sieht
bei mir so aus:

MIME-Version: 1.0
Content-Type: text/plain; charset=iso-8859-1
Content-Disposition: inline
Content-Transfer-Encoding: 8bit

Die gpg manpage ist nicht so furchtbar aufschlussreich, was das angeht.
Some strings werden nach UTF-8 konvertiert. Die Signatur kanns aber
eigentlich nicht sein, die ist ja US-ASCII. Vielleicht passiert das auf
Deiner Seite?

  wenn ich die per SSH vom UTF-System geschrieben
  habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
  Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
  starten müssen?
 
 Aenderungen an Umgebungsvariablen werden erst nach einem Re-Login
 erkannt.

Ich habe ja keine Variablen geändert. Ich möchte nur eine
Terminalsession von einem UTF-System auf ein ISO-System. :)

(Hintergrund: auf dem ISO-System laufen Anwendungen, die immer noch kein
 UTF-8 können. Slrn zum Bleistift. Sonst würde ich alles umstellen.)

 Ich hab grad mal getestet: Eine mit vim erzeugte Datei auf dem Server
 (auf dem LANG=de_DE) kriegt als Kodierung trotzdem UTF-8 (auf dem Client
 ist LANG=de_DE.UTF-8). Eine in mutt verfasste Mail (mit vim als Editor)
 wird in Latin1 kodiert und verschickt.

Klingt merkwürdig. Aber das wird daran liegen, dass mutt nochmal
rekodiert. Ist ja auch vernünftig.

 Ansonsten werden Meldungen von Programmen wohl auch in Latin1
 ausgegeben, ssh scheint das hier nicht korrekt zu konvertieren (also
 sehe ich Rauten statt Umlaute und es fehlt das nachfolgende Zeichen).

Ich weiß auch nicht, ob das die Aufgabe von ssh, dem Terminal, screen
oder sonstwem ist. Zeichensätze und Kodierungen sollen bitte einfach
funktionieren. :)

J.
-- 
When standing at the top of beachy head I find the rocks below very
attractive.
[Agree]   [Disagree]
 http://www.slowlydownward.com/NODATA/data_enter2.html


signature.asc
Description: Digital signature


Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Ingo Blechschmidt
Hi,

Andreas Pakulat wrote:
 On 11.07.06 20:49:08, Kai Hildebrandt wrote:
 Wundere dich aber nach dem Umstieg nicht, dass alles (was mit
 Codierung zu tun hat) etwas langsamer wird.
 
 Du meinst in TB? Wieso dass denn? Hast du Zahlen dazu?

die Performance kann leiden, wenn man UTF-8-Zeichenketten intern auch
als UTF-8 speichert. Da UTF-8 ja eine Kodierung variabler Zeichenlänge
ist, ist dann beispielsweise ein simples substr()/splice() (ab Zeichen
#n m Zeichen extrahieren) O(n+...), da die Zeichenkette von Beginn an
durchsucht werden muss. (IIRC)

Auch ist bei bekannter Anzahl von Bytes die Längenbestimmung in Zeichen
nicht O(1).

Kodiert man aber UTF-8 intern nach UCS-4, so entfallen die Probleme --
substr() ist wieder O(1+...), und auch die Längenbestimmung bei
bekannter Anzahl von Bytes ist wieder O(1). (Nachteil natürlich: Alle
Zeichen benötigen bei UCS-4 vier Bytes; Kompromiss: Man kodiert zu
UCS-2 und rekodiert nach UCS-4, wenn man ein Zeichen findet, dass in
UCS-2 vier Bytes benötigen würde.)


Zusätzlich muss man noch betrachten, dass Thunderbird -- als
Mail-Client -- die meiste Zeit sowieso a) idle oder b) im IO hängt. Der
ganze Kodierungskram ist also nahezu vollständig vernachlässigbar,
IMHO. Insofern teile ich deinen Skeptizismus vollkommen. :)


--Ingo


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Helmut Wollmersdorfer

Ingo Blechschmidt wrote:


die Performance kann leiden, wenn man UTF-8-Zeichenketten intern auch
als UTF-8 speichert. 


Der Effekt ist aber z.B. bei Perl minimal (~27% bei REGEX).


Kodiert man aber UTF-8 intern nach UCS-4, so entfallen die Probleme --


AFAIK tun das eh einige Programmiersprachen.

Helmut Wollmersdorfer


--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/


Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Ulrich Fürst
Helmut Wollmersdorfer [EMAIL PROTECTED] wrote:
 
 Hab auch keine Probleme damit, aber ich vermeide auch non-ASCII in 
 Filenamen. Hab jetzt extra probiert, ein jpg in testäöü.jpg
 umzubenennen - öffnet problemlos in GIMP.

Das ist auch nicht das Problem. Gimp startete auch nicht ohne Datei,
bevor ich die zusätzliche Variable definierte.

Ich werd' mal meine Hacks herausnehmen (hoffentlich finde ich noch
alle) und dann in neuem Thread berichten.


Ulrich



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Ingo Blechschmidt
Hi,

Helmut Wollmersdorfer wrote:
 die Performance kann leiden, wenn man UTF-8-Zeichenketten intern auch
 als UTF-8 speichert.
 
 Der Effekt ist aber z.B. bei Perl minimal (~27% bei REGEX).

jep (unter der Annahme, dass du Perl = 5.8 meinst). (Und die
Unicode-Unterstützung in Perl 5.9 soll IIRC auch noch mal einiges
bringen.)

 Kodiert man aber UTF-8 intern nach UCS-4, so entfallen die Probleme
 --
 
 AFAIK tun das eh einige Programmiersprachen.

Richtig. :) (So beispielsweise auch bei Parrot
(http://www.parrotcode.org/), der designierten virtuellen Maschine für
Perl 6 und viele andere Sprachen.)


--Ingo


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Helmut Wollmersdorfer

Ingo Blechschmidt wrote:

jep (unter der Annahme, dass du Perl = 5.8 meinst). 


perldoc perlhist
[...]
5.8.0 2002-Jul-18

Wir schreiben das Jahr 2006;-)

Helmut Wollmersdorfer


--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/


Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Ingo Blechschmidt
Hi,

Helmut Wollmersdorfer wrote:
 Ingo Blechschmidt wrote:
 jep (unter der Annahme, dass du Perl = 5.8 meinst).
 
 perldoc perlhist
 [...]
 5.8.0 2002-Jul-18
 
 Wir schreiben das Jahr 2006;-)

...und jetzt sag' das nochmal in einer Debian-Liste ;)

(Woody hat 5.6.1. Viele gratis Webhoster haben *mutmaß* wahrscheinlich
auch noch -- wenn überhaupt -- ein altes Perl...)


(SCRN)
--Ingo


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Andreas Pakulat
On 12.07.06 11:31:53, Steffen Schulz wrote:
   - touch tür; exit
   
   [EMAIL PROTECTED] ~]$ rm tür
   rm: cannot remove `tür': No such file or directory
   [EMAIL PROTECTED] ~]$ ls tür
   ls: tür: No such file or directory
   [EMAIL PROTECTED] ~]$ ls t?r
   tür
  
  Das Terminal ist aber noch im UTF-8 Modus.
 
 Ja, darum gehts ja. Wenn ich normal in utf-8 arbeite und jmd mit
 latin1/9 ne Datei mit zB Umlauten erstellt, wie ich es oben gemacht
 habe, dann kann ich diese Datei im UTF-8-term zwar zufaellig korrekt
 anzeigen, aber meine Umlaute unterscheiden in der Codierung von denen
 in der Datei, daher funktioniert zB rm tür dann nicht.

Falsch. Ich hab also grad mal ein xterm aus einer Latin1-Locale
gestartet, ein vi /tmp/testäf gemacht, ein paar Zeichen, u.a. Umlaute,
eingegeben, abgespeichert und Xterm beendet. Die Datei enthält
Latin1-Kodierten Text. Jetzt wieder als ich selbst in einer UTF-8
Umgebung mit konsole:

[EMAIL PROTECTED]:~/tempsudo chown andreas /tmp/testäf
[EMAIL PROTECTED]:~/temprm -i /tmp/testäf
rm: reguläre Datei »/tmp/testäf« entfernen? y
[EMAIL PROTECTED]:~/templs -l /tmp/test*
ls: /tmp/test*: Datei oder Verzeichnis nicht gefunden

Und ich habe testäf so eingegeben, keine Komplettierung benutzt. Das
ganze natuerlich auf einem *nix-FS (ext3 in dem Fall). 

Wenn genau dies bei dir nicht funktioniert (wichtig ist, ein sauberes
Terminal aus einer Shell mit Latin1-locale zu starten), wuerde ich
darauf tippen wollen, das es evtl. an dem en_US liegt - ich habe hier
de_DE...

 Das bedeutet um auf utf8 zu wechseln muessen die Dateinamen und Inhalte
 ggf. umkodiert werden. Und wenn mir spaeter einer ne Datei unterschiebt,
 die mit latin1/9 erstellt wurde, bekomm ich ggf Probleme, deren
 Dateinamen einzugeben, weil meine Umlaute 2 Byte lang sind, die im
 Dateinamen nur ein Byte...(und auch nen anderes codewort haben..)

Das Problem bekommst du nur, wenn du die Dateien von einem Dateisystem
das falsch gemountet wurde runterziehst (sie also beim ls -l schon
falsch angezeigt werden).

Andreas

-- 
Everything will be just tickety-boo today.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-12 Diskussionsfäden Kai Hildebrandt
Hi.

Andreas Pakulat wrote:

 Falls du Ordner mit Umlauten verwendest, werden diese falsch
 angezeigt.
 
 In TB? Dann ist das ein Bug in TB.
 
Nein, eigentlich in KMail in Verbindung mit IMAP-Konten.

Ich denke, dass es bei TB aber ähnlich sein wird.

 Wundere dich aber nach dem Umstieg nicht, dass alles (was mit
 Codierung zu tun hat) etwas langsamer wird.
 
 Du meinst in TB? Wieso dass denn? Hast du Zahlen dazu?
 
Nein, ich meinte allgemein.

Zahlen habe ich nicht, aber seit ich meine beiden Rechner wieder auf
[EMAIL PROTECTED] umgestellt habe, sind sie fühlbar schneller geworden.

Gruß
  Kai


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Peter Jordan
Hallo,

ich bekomme in der nächsten Zeit einen neuen Computer und überlege auf
den Zeichensatz UTF-8 umzusteigen.

Nun habe ich aber von meinem alten System tausende Dateien die mit
normalen ISO-8859-15 codiert sind.

Was hat es jetzt für Folgen, wenn ich meine Dateien auf den neuen
Rechner kopiere? Was muss man beachten?

Was passiert beispielsweise mit meinen Mails in meinem Thunderbirdkonto?

Vielen Dank für Antworten,

Peter


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Ulrich Fürst
Peter Jordan [EMAIL PROTECTED] wrote:
 
 Nun habe ich aber von meinem alten System tausende Dateien die mit
 normalen ISO-8859-15 codiert sind.

Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).
Für die Config-Dateien sollte das kein Problem darstellen, weil ja
eigentlich alles auf englisch ist und somit keine Umlaute enthalten.
Zumindest habe ich bei mir da keine Probleme festgestellt (mit evtl.
vorkommenden anderen Sonderzeichen). 

Je nachdem was Du so installiert hast können natürlich noch Probleme
auftreten. KDE interressiert sich z. B. weder für die .bashrc noch
für .profile etc. Manche Programme benötigen extra Optionen. Mein Gimp
braucht z. B. 
cat /etc/environment
# Fuer Gimp
export G_FILENAME_ENCODING=UTF-8
[...]
Es gibt zumindest in sarge auch Programme, die gar nicht mit UTF-8
können. Der dort enthaltene Sylpheed-Claws MUA bleistiftsweise.

 Was passiert beispielsweise mit meinen Mails in meinem
 Thunderbirdkonto?

Die Mails haben ja den Zeichensatz der verwendet wurde im Header stehen
(sollte zumindest so sein). Das dürfte also kein Problem sein. Falls
ich mich da irre, bitte korrigieren.


Ulrich



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Andreas Pakulat
On 11.07.06 19:22:03, Ulrich Fürst wrote:
 Peter Jordan [EMAIL PROTECTED] wrote:
  
  Nun habe ich aber von meinem alten System tausende Dateien die mit
  normalen ISO-8859-15 codiert sind.
 
 Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).

Noe muss man nicht, jedenfalls solange man einen vernuenftigen Editor
verwendet. Der kann mit etwas Magie u.U. die Kodierung feststellen und
dann fuers Editieren/Anzeigen das ganze intern Umkodieren und beim
Abspeichern wieder in latin9 ablegen. Vim kann das, KDE's kate/kwrite
ebenso. Evtl. muss man ihm sagen welche Kodierung die Datei hat, wenn
Umlaute kaputt sind (aka die Magie hat nicht funktioniert).

 Je nachdem was Du so installiert hast können natürlich noch Probleme
 auftreten. KDE interressiert sich z. B. weder für die .bashrc noch
 für .profile etc.

KDE hat damit ja auch nun ueberhaupt nichts zu tun. Die Shells die
Konsole startet lesen uebrigens sehr wohl .bashrc aus. 

Was das einloggen betrifft: kdm aus testing/unstable liest auch die
Shell-Configs, nicht nur .profile/.bashrc auch .zsh und was es sonst
noch gibt.

 Manche Programme benötigen extra Optionen. Mein Gimp
 braucht z. B. 
 cat /etc/environment
 # Fuer Gimp
 export G_FILENAME_ENCODING=UTF-8

Komisch, hier brauchts das nicht. Aber s.o. ich fahre auch unstable,
moeglich das der schon etwas besser ist als der aus Sarge.

Andreas

-- 
A vivid and creative mind characterizes you.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Steffen Schulz
Hi,

On 060711 at 19:30, Ulrich F�rst wrote:
 Peter Jordan [EMAIL PROTECTED] wrote:
  
  Nun habe ich aber von meinem alten System tausende Dateien die mit
  normalen ISO-8859-15 codiert sind.


Ich hab vor ein paar Monaten spassenshalber mal komplett auf
Unicode/UTF8 umgestellt. Meinen Mailserver (und -Client), auf den
ich nur per ssh zugreife, sowie meinen Desktop-Rechner. Ich hab mich
dabei an die UTF-Howtos gehalten, die man im Netz so findet. Wirklich
Ahnung hab ich von diesem Codierungskram aber nicht, wie man vllt
gleich sieht.


Also mit Konfigurationsdateien hatte ich hier erstmal gar keine
Probleme, man kann problemlos auf Unicode umstellen und an
verschiedenen Ecken noch tunen, ohne dass Programme nicht mehr starten
oder der Rechner nicht mehr booten will oder so. Einziges Problem waren
bei mir Nutzerdaten.


Mail ist nen bissl doof. Entweder weil ich noch immer was falsch mache,
oder viele Clients nicht mit utf8 klar kommen. (�,�,�,�,�,�,�, anyone?)


Ein Problem stellen auch zB Dateinamen dar. Die sind ja auch irgendwie
kodiert, verfuegbare Codings sind im Kernel zu konfigurieren.
Mit convmv kann man die Codierungen aendern. Aber ich hab noch immer
Probleme, wenn zB der p2p-Client gegenueber anderen Clients Dateien
fehlerhaft anzeigt(UTF wird nicht beachtet) oder beim runterladen die
Datei zwar f�b�r heist und korrekt angezeigt wird, aber irgendwie
trotzdem anders/falsch codiert ist. Wenn ich dann zB auf der Tastatur
rm f�b�r eingebe, wird diese Datei nicht geloescht, weil die Umlaute
verschieden kodiert sind. Erst wenn ich den Namen konvertiere kann ich
ihn auch richtig eintippen.(in der Praxis behilft man sich sinnvoller
Weise wildcards/bash-completation)

Meines Wissens hat man bei Unicode wohl schon darauf geachtet, dass
viele Zeichen gleich codiert sind wie in anderen Zeichensaetzen, aber
bei Umlauten hoert es anscheinend schon auf. Nun mag man sagen, wer
Sonderzeichen in Dateinamen nimmt ist selbst schuld. Aber bei
mp3-Sammlungen aus fernen Laendern wird das dann schon doof...


Nerviges Problem ist, dass man fuer unicode modifizierte terminals
benutzt, die dann auch anders heissen. z.B. rxvt-unicode oder uxterm.
Diese Namen als TERM-Variable kennt dann irgendwie auch kaum ein
Rechner, sodass bei der Arbeit mit SSH die Zeile TERM=xterm bei mir
inzwischen ziemlich flink von der Hand geht, sobald das Terminal mal
nicht aussieht wie erwartet. Das laesst sich sicher zB in der
~/.bash_profile permanent loesen, aber ich will eigentlich lieber
wissen, aus welchen Gruenden man hier die Kompatibilitaet aufgibt.
Offenbar geht mir irgendwas verloren, wenn ich TERM=xterm mache..


Zusammenfassend werd ich wohl wieder iso-8859-15 nehmen, wenn ich mal
dazu komme, das Gentoo hier durch Debian zu ersetzen. So tolle
Sonderzeichen eingeben koennen ist nett, aber wenn die dann nicht
ankommen und man sich diverse andere Probleme einhandelt, ist das dann
nicht mehr so toll...


mfg
pepe
-- 
Um sich in einer Schafherde wohlzuf�hlen, muss man vor allem Schaf sein.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Kai Hildebrandt
Hey.

Peter Jordan wrote:

 ich bekomme in der nächsten Zeit einen neuen Computer und überlege auf
 den Zeichensatz UTF-8 umzusteigen.
 
 Nun habe ich aber von meinem alten System tausende Dateien die mit
 normalen ISO-8859-15 codiert sind.
 
 Was hat es jetzt für Folgen, wenn ich meine Dateien auf den neuen
 Rechner kopiere? Was muss man beachten?
 
Konvertieren, z.B. mit uni2ascii (konvertiert in beide Richtungen)

 Was passiert beispielsweise mit meinen Mails in meinem
 Thunderbirdkonto?
 
Falls du Ordner mit Umlauten verwendest, werden diese falsch angezeigt.
Mit den Mails passiert nichts, die Kodierung ist normalerweise
enthalten (us-ascii, iso8859-1, etc.) und wird vom Mailclient
entsprechend interpretiert.

Wundere dich aber nach dem Umstieg nicht, dass alles (was mit Codierung
zu tun hat) etwas langsamer wird.


Gruß
  Kai


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Andreas Pakulat
On 11.07.06 20:58:41, Steffen Schulz wrote:
 Mail ist nen bissl doof. Entweder weil ich noch immer was falsch mache,
 oder viele Clients nicht mit utf8 klar kommen. (?,?,?,?,?,?,?, anyone?)

Hae? Mutt kann wunderbar UTF-8, sofern das korrekt in der Shell gesetzt
ist. Aber das ist noch lange kein Grund seine latin1/latin9 Mails als
UTF-8 zu verschicken, dafuer gibts sowas:

set send_charset = us-ascii:iso-8859-1:iso-8859-15:utf-8

Damit nimmt mutt das kleinstmoegliche Charset beim verschicken. Also
hier meistens iso-8859-1.

 Ein Problem stellen auch zB Dateinamen dar. Die sind ja auch irgendwie
 kodiert, verfuegbare Codings sind im Kernel zu konfigurieren.

Also damit habe ich eigentlich auch keinerlei Probleme. Wenn ein User
mit de_DE locale eine Datei mit Umlauten auf einem *nix-Dateisystem
ablegt kann ich die auch korrekt in UTF-8 locale sehen. Und
Default-Kodierung fuer FS im Kernel ist hier latin1. Solange der Kernel
weiss welche Kodierung das Dateisystem nutzt ist das alles kein Problem.
Problematisch wirds bei FAT/NTFS und evtl. SMB/CIFS, aber dort gibts
Optionen um dem Kernel auf die Spruenge zu helfen. 

 Mit convmv kann man die Codierungen aendern.

Wie gesagt hier unnoetig.

 Aber ich hab noch immer Probleme, wenn zB der p2p-Client gegenueber
 anderen Clients Dateien fehlerhaft anzeigt(UTF wird nicht beachtet)
 oder beim runterladen die Datei zwar f?b?r heist und korrekt
 angezeigt wird, aber irgendwie trotzdem anders/falsch codiert ist.

Dann ist irgendwas bei dir kaputt, evtl. auch einfach nur der Client.

 Meines Wissens hat man bei Unicode wohl schon darauf geachtet, dass
 viele Zeichen gleich codiert sind wie in anderen Zeichensaetzen,

Da ist schon dein 1. Denkfehler: Unicode != UTF-8. Unicode ist etwas
sehr abstraktes, IIRC einfach nur ein Mapping von sog. Codepoints auf
Glyphen. UTF-8 ist eine Zeichenkodierung fuer Byte-Streams die alle
Unicode-Zeichen darstellen kann. Dadurch das UTF-8 variable Lange
Byte-Folgen fuer 1 Zeichen nutzt kann es den ASCII-Zeichensatz direkt
nutzen. Also alle UTF-8 1-Byte-Zeichenfolgen sind mit demselben
Integerwert im ASCII-Zeichensatz zu finden. Umlaute liegen aber oberhalb
von 127 und werden deswegen mit 2 Bytes kodiert. 

Daneben gibts noch UTF-16 oder UTF-32 die jeweils die entsprechende
Mindestanzahl an Bytes fuer 1 Zeichen nutzen. Dadurch sind damit
kodierte Dateien wirklich nur mit einem Editor/Viewer zu betrachten der
UTF-16/32 auch beherrscht.

 Nerviges Problem ist, dass man fuer unicode modifizierte terminals
 benutzt, die dann auch anders heissen. z.B. rxvt-unicode oder uxterm.

Bloedsinn, deine Howtos sind hoffnungslos veraltet. Solange LANG korrekt
gesetzt ist, funktionieren xterm, gnome-terminal, konsole und
xfce4-terminal wunderbar. Ich vermute aber das bei dir einfach LANG
falsch gesetzt ist.

 Zusammenfassend werd ich wohl wieder iso-8859-15 nehmen, wenn ich mal
 dazu komme, das Gentoo hier durch Debian zu ersetzen. So tolle
 Sonderzeichen eingeben koennen ist nett, aber wenn die dann nicht
 ankommen und man sich diverse andere Probleme einhandelt, ist das dann
 nicht mehr so toll...

Also ich habe 0 Probleme. Hoechstens mal wenn eine Mail anders kodiert
ist, als im Header angegeben, aber das liegt dann meistens am OP und
seinem Mailclient...

Andreas

-- 
You are always busy.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Ulrich Fürst
Andreas Pakulat [EMAIL PROTECTED] wrote:
 On 11.07.06 19:22:03, Ulrich Fürst wrote:
  Peter Jordan [EMAIL PROTECTED] wrote:
   
   Nun habe ich aber von meinem alten System tausende Dateien die mit
   normalen ISO-8859-15 codiert sind.
  
  Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).
 
 Noe muss man nicht, jedenfalls solange man einen vernuenftigen Editor
 verwendet. 

Eben, aber wenn ich mit cat und less arbeite fehlen die Umlaute...

  Je nachdem was Du so installiert hast können natürlich noch Probleme
  auftreten. KDE interressiert sich z. B. weder für die .bashrc noch
  für .profile etc.
 
 KDE hat damit ja auch nun ueberhaupt nichts zu tun. Die Shells die
 Konsole startet lesen uebrigens sehr wohl .bashrc aus. 

Die Konsole ist so ziemlich das einzige was hier keine Probleme gemacht
hat. Viele andere Anwendungen haben Probleme. 
 
 Was das einloggen betrifft: kdm aus testing/unstable liest auch die
 Shell-Configs, nicht nur .profile/.bashrc auch .zsh und was es sonst
 noch gibt.

kdm schon aber offensichtlich nicht alle kde-Anwendungen und auch nicht
alle gtk2 Anwendungen.
 
  Manche Programme benötigen extra Optionen. Mein Gimp
  braucht z. B. 
  cat /etc/environment
  # Fuer Gimp
  export G_FILENAME_ENCODING=UTF-8
 
 Komisch, hier brauchts das nicht. Aber s.o. ich fahre auch unstable,
 moeglich das der schon etwas besser ist als der aus Sarge.

Gimp startete nicht mehr und meldete, dass er diese Variable gesetzt
haben möchte. 

Ulrich



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Jochen Schulz
Andreas Pakulat:
 
 Also ich habe 0 Probleme. Hoechstens mal wenn eine Mail anders kodiert
 ist, als im Header angegeben, aber das liegt dann meistens am OP und
 seinem Mailclient...

Da das Thema mal wieder angesprochen wird und Du Dich scheinbar damit
auskennst... :)

Ich habe aufgrund des kürzlich erwähnten Datenverlustes den
Etch-Installer ausprobiert (mit GUI!!elf) und der stellt ja automatisch
UTF-8 ein. Ich hatte aber dann das Problem, dass eine SSH-Session auf
ein ISO-8859-1-System furchtbar kaputt aussah. Ich vermute auch, dass
mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
(UTF-8 als ISO-8859-1), wenn ich die per SSH vom UTF-System geschrieben
habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
starten müssen?

J.
-- 
The news at ten makes me peevish but animal hospital makes me cry.
[Agree]   [Disagree]
 http://www.slowlydownward.com/NODATA/data_enter2.html


signature.asc
Description: Digital signature


Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Michael Bienia
On 2006-07-11 22:45:07 +0200, Jochen Schulz wrote:
 Ich habe aufgrund des kürzlich erwähnten Datenverlustes den
 Etch-Installer ausprobiert (mit GUI!!elf) und der stellt ja automatisch
 UTF-8 ein. Ich hatte aber dann das Problem, dass eine SSH-Session auf
 ein ISO-8859-1-System furchtbar kaputt aussah. Ich vermute auch, dass
 mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
 (UTF-8 als ISO-8859-1), wenn ich die per SSH vom UTF-System geschrieben
 habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
 Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
 starten müssen?

Das liegt daran, dass dein Terminal noch im UTF-8 Modus war, die
Gegenseite jedoch in ISO-8859-1 (siehe locale auf dem Zielrechner):
dein Terminal hat UTF-8 geschickt und die Gegenseite hat es als
ISO-8859-1 intepretiert = kaputte Umlaute (in beide Richtungen).
Entweder sagst du dem Zielsystem, dass du eine UTF-8 Locale nutzt (wenn
es das Ziel-System kann) oder du stellst dein Terminal passend ein.
Im gnome-terminal z.B. kannst du den Zeichensatz einstellen. Nutze ich
wenn ich mich zu Rechnern verbinde, die noch keine UTF-8 Locales haben.

Michael


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Andreas Kroschel
* Ulrich Fürst:

  Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).
 
 Noe muss man nicht, jedenfalls solange man einen vernuenftigen Editor
 verwendet. 
 
 Eben, aber wenn ich mit cat und less arbeite fehlen die Umlaute...

lv als Substitut für less ist im Raten der Codierung recht gut. Mir
fällt damit nicht auf, wenn es eine iso-8859-Datei anzuschauen gilt.

 kdm schon aber offensichtlich nicht alle kde-Anwendungen und auch nicht
 alle gtk2 Anwendungen.

Welche GTK2-Anwendungen denn nicht?

Andreas
-- 
You have been selected for a secret mission.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Andreas Pakulat
On 11.07.06 22:34:27, Ulrich Fürst wrote:
 Andreas Pakulat [EMAIL PROTECTED] wrote:
  On 11.07.06 19:22:03, Ulrich Fürst wrote:
   Peter Jordan [EMAIL PROTECTED] wrote:

Nun habe ich aber von meinem alten System tausende Dateien die mit
normalen ISO-8859-15 codiert sind.
   
   Wenn Du in Text-Dateien Umlaute hast musst Du die umändern (lassen).
  
  Noe muss man nicht, jedenfalls solange man einen vernuenftigen Editor
  verwendet. 
 
 Eben, aber wenn ich mit cat und less arbeite fehlen die Umlaute...

Jupp.

   Je nachdem was Du so installiert hast können natürlich noch Probleme
   auftreten. KDE interressiert sich z. B. weder für die .bashrc noch
   für .profile etc.
  
  KDE hat damit ja auch nun ueberhaupt nichts zu tun. Die Shells die
  Konsole startet lesen uebrigens sehr wohl .bashrc aus. 
 
 Die Konsole ist so ziemlich das einzige was hier keine Probleme gemacht
 hat. Viele andere Anwendungen haben Probleme. 

Also ich hab bisher keine Anwendungen gefunden die Probleme machen,
insbesondere keine KDE-Anwendungen. Allerdings setzt das vorraus dass
die LANG-Variable beim Starten der X11-Sitzung aktiv ist. Was eben nur
fuer kdm aus Testing gilt, nicht fuer den aus Sarge. Dort muss man das
ganze entweder ueber .xsession loesen, oder direkt die
kdm-Xsession-Skripte abaendern.

  Was das einloggen betrifft: kdm aus testing/unstable liest auch die
  Shell-Configs, nicht nur .profile/.bashrc auch .zsh und was es sonst
  noch gibt.
 
 kdm schon aber offensichtlich nicht alle kde-Anwendungen

Rueck doch mal bitte mit konkreten Beispielen raus. Hier verhalten sich
_alle_ von mir eingesetzten KDE-Anwendungen korrekt, sofern LANG korrekt
und auch in der unsichtbaren session-shell gesetzt ist.

 und auch nicht alle gtk2 Anwendungen.

Auch damit habe ich bisher keinerlei Probleme, aber ausser grip und
gelegentlich easytag brauch ich da nichts.

   Manche Programme benötigen extra Optionen. Mein Gimp
   braucht z. B. 
   cat /etc/environment
   # Fuer Gimp
   export G_FILENAME_ENCODING=UTF-8
  
  Komisch, hier brauchts das nicht. Aber s.o. ich fahre auch unstable,
  moeglich das der schon etwas besser ist als der aus Sarge.
 
 Gimp startete nicht mehr und meldete, dass er diese Variable gesetzt
 haben möchte. 

Wie gesagt, kann ich nicht nachvollziehen.

Andreas

-- 
You will be Told about it Tomorrow.  Go Home and Prepare Thyself.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Andreas Pakulat
On 11.07.06 22:45:07, Jochen Schulz wrote:
 Andreas Pakulat:
  
  Also ich habe 0 Probleme. Hoechstens mal wenn eine Mail anders kodiert
  ist, als im Header angegeben, aber das liegt dann meistens am OP und
  seinem Mailclient...
 
 Ich habe aufgrund des kürzlich erwähnten Datenverlustes den
 Etch-Installer ausprobiert (mit GUI!!elf) und der stellt ja automatisch
 UTF-8 ein.

Achja? Ich war bisher der Meinung dass er dpkg-reconfigure locales
ausfuehrt und du dann waehlen kannst. Aber ich hab auch noch nie Etch
installiert...

 Ich hatte aber dann das Problem, dass eine SSH-Session auf
 ein ISO-8859-1-System furchtbar kaputt aussah.

Kannst du das etwas genauer beschreiben?

 Ich vermute auch, dass
 mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
 (UTF-8 als ISO-8859-1),

Deine Mail auf die ich geantwortet habe war UTF-8 deklariert und soweit ich
das gesehen habe auch genauso kodiert. Nur das das eben nicht unbedingt
immer sinnvoll ist, insbesondere wenn man mit Leuten kommuniziert die
kaputte Mailclients oder Webmailer benutzen.

 wenn ich die per SSH vom UTF-System geschrieben
 habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
 Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
 starten müssen?

Aenderungen an Umgebungsvariablen werden erst nach einem Re-Login
erkannt.

Ich hab grad mal getestet: Eine mit vim erzeugte Datei auf dem Server
(auf dem LANG=de_DE) kriegt als Kodierung trotzdem UTF-8 (auf dem Client
ist LANG=de_DE.UTF-8). Eine in mutt verfasste Mail (mit vim als Editor)
wird in Latin1 kodiert und verschickt.

Ansonsten werden Meldungen von Programmen wohl auch in Latin1
ausgegeben, ssh scheint das hier nicht korrekt zu konvertieren (also
sehe ich Rauten statt Umlaute und es fehlt das nachfolgende Zeichen).

Das mit dem nicht-konvertieren von vim koennte eine Einstellungssache
sein, auf dem Server mache ich derlei kaum...

Andreas

-- 
Be careful!  Is it classified?


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Andreas Pakulat
On 11.07.06 20:49:08, Kai Hildebrandt wrote:
 Peter Jordan wrote:
  ich bekomme in der nächsten Zeit einen neuen Computer und überlege auf
  den Zeichensatz UTF-8 umzusteigen.
  
  Nun habe ich aber von meinem alten System tausende Dateien die mit
  normalen ISO-8859-15 codiert sind.
  
  Was hat es jetzt für Folgen, wenn ich meine Dateien auf den neuen
  Rechner kopiere? Was muss man beachten?
  
 Konvertieren, z.B. mit uni2ascii (konvertiert in beide Richtungen)

Wie soll dass denn helfen? Latin1-Kodierte Dateien enthalten 8bit
Zeichen, nicht 7Bit Ascii. 7Bit Ascii braucht man nicht in UTF-8 zu
wandeln, weil es in UTF-8 auf diesselbe Weise kodiert wird, als 1 Byte
mit 7 signifikanten Bits. Umkodierungen von latin1 zu utf-8 fuehrt
recode zuverlaessig durch:

recode latin1..utf-8 foobar

Und sagt dir dabei auch gleich ob die Datei ueberhaupt latin1 ist.

  Was passiert beispielsweise mit meinen Mails in meinem
  Thunderbirdkonto?
  
 Falls du Ordner mit Umlauten verwendest, werden diese falsch angezeigt.

In TB? Dann ist das ein Bug in TB.

 Wundere dich aber nach dem Umstieg nicht, dass alles (was mit Codierung
 zu tun hat) etwas langsamer wird.

Du meinst in TB? Wieso dass denn? Hast du Zahlen dazu?

Andreas

-- 
A few hours grace before the madness begins again.


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Peter Wiersig
On Tue, Jul 11, 2006 at 06:31:09PM +0200, Peter Jordan wrote:
 
 Nun habe ich aber von meinem alten System tausende Dateien die
 mit normalen ISO-8859-15 codiert sind.

Die Rekodierung Latin9-Unicode ist problemlos.

Aufpassen muss man nur bei CP125[0-2] kodierten Dateien welche
unter Windows als standard-kodierung verwendet wird. Die sieht den
Latin-Codes aehnlich, muss aber als Ausgangskodierung richtig
benannt werden damit die Kodierung in Unicode erfolgen kann.

UTF-8 ist nur ein encoding Schema.
http://www.unicode.org/faq/utf_bom.html#2

Peter


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)



Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Steffen Schulz
On 060711 at 23:10, Jochen Schulz wrote:
 UTF-8 ein. Ich hatte aber dann das Problem, dass eine SSH-Session auf
 ein ISO-8859-1-System furchtbar kaputt aussah. Ich vermute auch, dass
 mein mutt auf ebendiesem System falsch kodierte Mails rausgeschickt hat
 (UTF-8 als ISO-8859-1), wenn ich die per SSH vom UTF-System geschrieben
 habe. Muß ich da irgendwas machen, damit ich keine Probleme kriege?
 Liegt das am Terminal, oder hätte ich screen (in dem mutt läuft) neu
 starten müssen?

Ich benutz zwar kein Screen, aber der setzt im Gegensatz zu SSH meines
Wissens die Kodierungen um. Dh. den haettest du wohl mindestens mal
neustarten oder ihm das anders beibringen muessen, weil der Input
fuer Screen nun utf8-codiert ist..


mfg
pepe
-- 
No matter where you are... Everyone is always connected.
- Serial Experiments Lain


signature.asc
Description: Digital signature


Re: auf UTF-8 umsteigen, Folgen?

2006-07-11 Diskussionsfäden Steffen Schulz
On 060711 at 21:20, Andreas Pakulat wrote:
  Ein Problem stellen auch zB Dateinamen dar. Die sind ja auch irgendwie
  kodiert, verfuegbare Codings sind im Kernel zu konfigurieren.
 Also damit habe ich eigentlich auch keinerlei Probleme. Wenn ein User
 mit de_DE locale eine Datei mit Umlauten auf einem *nix-Dateisystem
 ablegt kann ich die auch korrekt in UTF-8 locale sehen.

Hm. Ich hoffe mein ü kommt korrekt an, sonst wird das jetzt etwas wirr:

[EMAIL PROTECTED] ~]$ echo $TERM, $LANG
rxvt-unicode, en_US.utf8
[EMAIL PROTECTED] ~]$ touch tür
[EMAIL PROTECTED] ~]$ ls tür
tür
[EMAIL PROTECTED] ~]$ rm tür
[EMAIL PROTECTED] ~]$ export LANG=en_US
[EMAIL PROTECTED] ~]$ urxvt

- touch tür;ls tür; rm tür; geht in dem terminal ebenso. Allerdings
faellt auf, dass das terminal irgendwie der Meinung ist, ein Zeichen
anzuzeigen(ü) und 2 zeichen zu editieren, xterm das selbe. :-/

- touch tür; exit

[EMAIL PROTECTED] ~]$ rm tür
rm: cannot remove `tür': No such file or directory
[EMAIL PROTECTED] ~]$ ls tür
ls: tür: No such file or directory
[EMAIL PROTECTED] ~]$ ls t?r
tür


- Unter anderem locale erzeugte Dateien werden hier korrekt angezeigt,
aber wenn ich den Namen eingebe passt er nicht auf den im FS
vorhandenen.


 Default-Kodierung fuer FS im Kernel ist hier latin1. Solange der Kernel
 weiss welche Kodierung das Dateisystem nutzt ist das alles kein Problem.
 Problematisch wirds bei FAT/NTFS und evtl. SMB/CIFS, aber dort gibts
 Optionen um dem Kernel auf die Spruenge zu helfen. 

  Mit convmv kann man die Codierungen aendern.
 
 Wie gesagt hier unnoetig.

Von oben weiter, also mit kaputter Datei tür(man entschuldige
meine Kreativitaet..)

[EMAIL PROTECTED] ~]$ convmv --notest -f iso-8859-1 -t utf-8 t?r
mv ./tür  ./tür
Ready!
[EMAIL PROTECTED] ~]$ rm tür

Nachdem convmv den Dateinamen von 8859-1 nach utf-8 convertiert hat,
kann ich den Dateinamen korrekt eintippen. Vorher hats dann auf
Dateisystemebene nicht gepasst, weil die ü unterschiedlich kodiert
werden. Sieht man auch daran, dass ich so 2x die gleiche Datei
erstellen kann, einmal wird sie auf FS-Ebene mit iso-8859-1 und einmal
mit utf-8 kodiert, der Dateiname unterscheidet sich dort also.

Oda aba da is noch wat andret falsch...

  Aber ich hab noch immer Probleme, wenn zB der p2p-Client gegenueber
  anderen Clients Dateien fehlerhaft anzeigt(UTF wird nicht beachtet)
  oder beim runterladen die Datei zwar f?b?r heist und korrekt
  angezeigt wird, aber irgendwie trotzdem anders/falsch codiert ist.
 Dann ist irgendwas bei dir kaputt, evtl. auch einfach nur der Client.

Der p2p-Client, ja, weil er die Namen nicht entsprechend der locale
abspeichert. 

  Nerviges Problem ist, dass man fuer unicode modifizierte terminals
  benutzt, die dann auch anders heissen. z.B. rxvt-unicode oder uxterm.
 Bloedsinn, deine Howtos sind hoffnungslos veraltet. Solange LANG korrekt
 gesetzt ist, funktionieren xterm, gnome-terminal, konsole und
 xfce4-terminal wunderbar. Ich vermute aber das bei dir einfach LANG
 falsch gesetzt ist.

Nun, als ich damals die entsprechenden terminals probiert habe, wurde
halt auf die unicode-varianten verwiesen. Das is nu mind. nen Jahr her,
okay...aber meine Howtos erzaehlen noch immer was von Dateinamen:

http://de.gentoo-wiki.com/Utf8#Dateinamen


Oh, und rate was ich eben in der muttrc fand...

set send_charset=UTF-8:ISO-8859-15:ISO-8859-1

Da ist wohl was schiefgelaufen.. ^^


mfg
pepe
-- 
Hi, I'm a unix-virus.
Please copy me into your .signature to help me spread!


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)