Re: bash et UTF-8

Laurent Giroud Tue, 03 Aug 2004 07:18:57 -0500

> [Laurent Giroud]
> > Ca c'est bizarre.
> > L'UTF-8 est calqué quasiment identiquement sur
> > l'iso-8859-15 pour les 8 premiers bits.
> 
> Tu confonds la table des caractères et le codage utilisé.


Pas tout à fait, j'ai cru me souvenir que l'ISO-8859-15 était un sous 
ensemble de l'UTF-8, alors que c'est l'ASCII qui en est un.
Mais bon, je me suis gourré c'est clair :)

> > Ce n'est pas l'utilisation d'un "il suffit" qui permet
> > de dire que c'est irréaliste, c'est l'ampleur de la
> > tâche que ça représente.
> 
> C'est bien beau de se documenter, encore faut-il passer à
> la pratique ;)
> 
> Si tout ce qui t'intéresse est de fournir un bon support
> pour l'UTF-8, la solution la plus simple est de conserver
> des char et de changer les routines de calcul de
> longueur de chaînes, recherche d'expressions, etc. C'est
> ce que fait la majorité des programmeurs, avec
> éventuellement conversion du codage si l'utilisateur
> n'est pas en UTF-8.

Effectivement, c'est mieux qu'utiliser les wchar car ceux-ci sont de taille 
fixe et donc moins souples et surtout imposent un encodage unicode alors que 
conserver des char permet de gérer n'importe quel type d'encodage supporté 
par la locale (via la libc).
La quantité de travail est équivalente en revanche.

> Ce que tu décris avec wchar est autre chose, mais les
> ayatollahs de l'UTF-8 sont contre car ça permet aux
> codages existants (8-bit ou multibyte) de continuer à
> être supportés, alors qu'il faudrait les éradiquer.

L'éradication me parait un objectif assez utopiste et implique de toute 
manière qu'on dispose toujours de convertisseurs local->unicode en cas de 
rencontre d'un fichier non encodé dans un des divers formats unicode. Donc 
entre le système des locales et ça mon coeur balance... :)
 
> Les 2 approches requièrent beaucoup plus de travail que
> tu ne sembles l'imaginer.

C'est très possible, en effet comme tu l'indiques, je ne suis pas passé de la 
documentation à la pratique pour l'instant ;)

Mais néanmoins, la libc et gettext gèrent déjà automatiquement l'encodage 
en fonction de la locale, si la lib de recherche d'expressions le gère 
également, c'est autant de travail en moins (j'ose espérer que tout le monde 
ne réécrit pas ses propres routines de gestion de chaînes dans son coin).
L'essentiel du travail me semble assez simple si la gestion des caractères 
textuels a été écrite de façon relativement neutre.

Je vais coder sous peu des trucs en liaison avec tout ça, donc si je me trompe 
je ne manquerais pas de te donner raison ;)

Hop,
Laurent

PS : ceci dit, on dérive un peu non ? c'est plus trop debian comme discussion 
;)

Re: bash et UTF-8

Reply via email to