Hola!

Yo dentro de poco tendré que resolver un problema similar. Hay un contenido
Html en una BBDD, el cual ha de ser limpiado para pasar a ser válido.
Yo me he generado una pequeña aplicacion web que hace lo siguiente: recoge
ese contenido de la bbdd y le pasa el tidy [1] especificándole unos
parametros de "parseo". Este proceso, me genera un fichero Html un poco mas
limpio que el inicial, que es el que posteriormente le paso al validador del
W3C.
Los resultados del validador del W3C los almaceno, y posteriormente los
parseo para generarme unas estadísticas de los errores que se han producido
al validar (error mas común, número de apariciones, lugar donde se produjo,
...).
Todo este proceso me sirve para ese contenido de la BBDD refinarlo y que el
número total de errores a modificar posteriormente sea menor, y a su vez
poder obtener un posible patrón de los errores, ya que, dependiendo de cómo
esté el código inicial de "mal", puede que no te escapes de tener que ir
manualmente página por página modificando las cosas que no pudieron ser
mejoradas.

Para no saturar la web del W3C en cuanto a peticiones de validación y por
agilizar la aplicación, lo más cómodo es tener instalado en tu máquina linux
local, el tidy y el validador del W3C [2].

Espero haberte entendido, porque sino lo que te queda es el uso de
expresiones regulares mediante algún lenguaje de script (php por ejemplo)
[3] extrayendo el código de la bbdd y parseándolo, para luego volver a
introducirlo.

[1] http://tidy.sourceforge.net/
[2] http://validator.w3.org/source/
[3] http://www.ignside.net/man/php/regex.php
[x] http://www.ignside.net/man/html-kit/tidy.php (explicacion de Tidy en
español)

Saludos!

On 2/7/07, Lista de Distribución <[EMAIL PROTECTED]> wrote:
>
> Buenas,
>
> Necesitaba ayuda con un tema de expresiones regulares. Estoy un proyecto
> que
> sin cambio de diseño, tiene que pasar de no ser accesible a ser accesible.
> El tema de maqueta y diseño, parece más o menos encauzado. Pero ahora
> tengo
> choco con el problema de los contenidos de la BBDD. Estos contenidos,
> desde
> el momento en que se ponga el nuevo proyecto en producción serán con
> código
> HTML válido, pero actualmenet, en esa BBDD hay mucho código que no sirve,
> ya
> sean <font o <b> o cosas así...
>
> Mi idea es recorrer toda la BBDD, e ir reparando con expresiones regulares
> los "pequeños fallos" que existan, pero me cuesta mucho encontrar las
> expresiones que debiera usar, ya que no he trabajado nunca con ellas...
> alguien puede echarme una mano?
>
> Gracias
>
> _______________________________________________
> Lista de distribución Ovillo
> Para escribir a la lista, envia un correo a Ovillo@lists.ovillo.org
> Puedes modificar tus datos o desuscribirte en la siguiente dirección:
> http://lists.ovillo.org/mailman/listinfo/ovillo
>



-- 
David Castelló
http://www.estandaresweb.es
http://coredump.es
_______________________________________________
Lista de distribución Ovillo
Para escribir a la lista, envia un correo a Ovillo@lists.ovillo.org
Puedes modificar tus datos o desuscribirte en la siguiente dirección: 
http://lists.ovillo.org/mailman/listinfo/ovillo

Responder a