Germán Poó Caamaño escribio:
> No sólo para lenguajes occidentales, si fuera así sería una solución
> demasiado rebuscada para algo que podría resolverse con 2 bytes y 
> sobrarían bits.  El problema de UTF-16 y UTF-32 (UCS-2 y UCS-4 
> respectivamente) es la complejidad de implementación, ya que 
> consideran tamaños de palabra mayores.

La codificacion UTF-32 utiliza un numero fijo de bits (32), lo que, a
mi parecer, hace mas facil la implementacion que en el caso de UTF-8,
que es de largo variable.  El problema de UTF-32 y UTF-16 es la cantidad
de bits desperdiciados, especialmente en lenguajes occidentales, donde
tal como tu dices, 2 bytes son suficientes y ademas sobran bits.

Saludos!
-- 
Roberto Bonvallet
From [EMAIL PROTECTED]  Tue Nov  1 13:26:26 2005
From: [EMAIL PROTECTED] (Enrique Place)
Date: Tue Nov  1 13:31:00 2005
Subject: =?iso-8859-1?q?=BFutilidad_para_limpiar/corregir_c=F3digo_HTML?=
        =?iso-8859-1?q?=3F?=
Message-ID: <[EMAIL PROTECTED]>

Tengo "heredado" código html muy "chancho" (muchos generados a partir
de Word) y me están haciendo perder mucho tiempo porque quiero borrar
todas las marcas de estilos, fonts y varios indeseables.

Quiero tener como resultado un código limpio html, lo más básico posible.
Qué scripts/utilidades pueden recomendar?

Uso Quanta y Eclipse/PHPEclipse, pero no encontré este tipo de funcionalidad.
Estuve buscando en Freshmeat.net, y encontré muchos interesantes:

Microsoft Word 2002 Unmunger
http://freshmeat.net/projects/wordunmunger/

html_scrub
http://freshmeat.net/projects/htmlscrub/

Html To Xhtml Convertor - Default branch
http://freshmeat.net/projects/htx/

Sugerencias, experiencias? En lo posible para consola, y siempre, GPL
(aunque toleraría algún BSD ;-)

--
Saludos, Enrique.

Responder a