Andreas Pakulat <[EMAIL PROTECTED]> writes:

> Also da waere ich jetzt mal interessiert. Ich musste mich mal ein
> wenig mit UTF16/UTF8 fuer meine Arbeit beschaeftigen (wie erfolgt
> die Kodierung und sowas). Ich hab mich da nicht weiter in den ganzen
> Unicodekram eingearbeitet von wegen Ebenen und so... Aber ich habe
> in der Doku zu UTF-8 von www.unicode.org nichts von 6 Byte gelesen,
> 4 waren da das Maximum.

Ohne dass ich den konkreten Kodieralgorithmus im Kopf (oder ihn mir
auch nur jemals im Detail angeschaut ;-) hÃtte, vermute ich, dass es
an dem Unterschied zwischen Unicode und ISO 10646.  Unicode definiert
nur Zeichen deren Codepoint maximal 21 Bit hat; dafÃr reichen bei
UTF-8 Kodierung dann max. 4 Bytes.  ISO hat sich zwar meines Wissens
mit Unicode verstÃndigt, keine Codepoints mit mehr als 21 Bits Breite
tatsÃchlich zu vergeben, theoretisch aber kÃnnte ISO 10646 bis zu 31
oder 32 Bits Breite vergeben.  Da UTF-8 von ISO definiert ist,
brauchen die also max. 6 Bytes.  Die letzten beiden Bytes haben aber
wohl auf absehbare Zeit nur theoretische Bedeutung.  Insofern hast du
recht.

http://www.cl.cam.ac.uk/~mgk25/unicode.html

finde ich ziemlich informativ und wird recht oft zitiert.


cheers,

andreas

Reply via email to