El dom, 30-10-2005 a las 23:49 -0300, Alvaro Herrera escribió: > Horst von Brand escribió: > > > Unicode (el actual standard internacional, codigo de 32 bits) es una > > codificacion unificada de todos los caracteres existentes. Para simplificar > > su manejo, se usa una codificacion de largo variable, UTF-8; "casualmente" > > Unicode coincide con ASCII en los 128 primeros caracteres, y UTF-8 codifica > > caracteres Unicode < 128 como ese byte unicamente. > > En realidad Unicode es la especificacion de los "glifos" (los dibujos de > los caracteres), la secuencia de ordenamiento entre ellos, las > relaciones de mayuscula/minuscula, y otras propiedades de ese estilo. > > Como se codifica cada caracter Unicode en secuencias de bits es un > problema aparte. UTF-8 es la codificacion mas comun (sobre todo para > lenguajes occidentales, me parece), pero hay otras como UTF-16 y UTF-32, > que no comparten las mismas propiedades.
No sólo para lenguajes occidentales, si fuera así sería una solución demasiado rebuscada para algo que podría resolverse con 2 bytes y sobrarían bits. El problema de UTF-16 y UTF-32 (UCS-2 y UCS-4 respectivamente) es la complejidad de implementación, ya que consideran tamaños de palabra mayores. En UTF-8 se puede escribir hebreo, cirílico, árabe, thai, etc. AFAIR, no es posible incorporarlos todos, pero si los principales (que en sí ya son bastantes). Vale la pena echarle una leída al RFC correspondiente: "UTF-8, a transformation format of ISO 10646" en http://www.ietf.org/rfc/rfc2279.txt -- Germán Poó Caamaño http://www.ubiobio.cl/~gpoo/ Concepción - Chile