Hola! Yo dentro de poco tendré que resolver un problema similar. Hay un contenido Html en una BBDD, el cual ha de ser limpiado para pasar a ser válido. Yo me he generado una pequeña aplicacion web que hace lo siguiente: recoge ese contenido de la bbdd y le pasa el tidy [1] especificándole unos parametros de "parseo". Este proceso, me genera un fichero Html un poco mas limpio que el inicial, que es el que posteriormente le paso al validador del W3C. Los resultados del validador del W3C los almaceno, y posteriormente los parseo para generarme unas estadísticas de los errores que se han producido al validar (error mas común, número de apariciones, lugar donde se produjo, ...). Todo este proceso me sirve para ese contenido de la BBDD refinarlo y que el número total de errores a modificar posteriormente sea menor, y a su vez poder obtener un posible patrón de los errores, ya que, dependiendo de cómo esté el código inicial de "mal", puede que no te escapes de tener que ir manualmente página por página modificando las cosas que no pudieron ser mejoradas.
Para no saturar la web del W3C en cuanto a peticiones de validación y por agilizar la aplicación, lo más cómodo es tener instalado en tu máquina linux local, el tidy y el validador del W3C [2]. Espero haberte entendido, porque sino lo que te queda es el uso de expresiones regulares mediante algún lenguaje de script (php por ejemplo) [3] extrayendo el código de la bbdd y parseándolo, para luego volver a introducirlo. [1] http://tidy.sourceforge.net/ [2] http://validator.w3.org/source/ [3] http://www.ignside.net/man/php/regex.php [x] http://www.ignside.net/man/html-kit/tidy.php (explicacion de Tidy en español) Saludos! On 2/7/07, Lista de Distribución <[EMAIL PROTECTED]> wrote: > > Buenas, > > Necesitaba ayuda con un tema de expresiones regulares. Estoy un proyecto > que > sin cambio de diseño, tiene que pasar de no ser accesible a ser accesible. > El tema de maqueta y diseño, parece más o menos encauzado. Pero ahora > tengo > choco con el problema de los contenidos de la BBDD. Estos contenidos, > desde > el momento en que se ponga el nuevo proyecto en producción serán con > código > HTML válido, pero actualmenet, en esa BBDD hay mucho código que no sirve, > ya > sean <font o <b> o cosas así... > > Mi idea es recorrer toda la BBDD, e ir reparando con expresiones regulares > los "pequeños fallos" que existan, pero me cuesta mucho encontrar las > expresiones que debiera usar, ya que no he trabajado nunca con ellas... > alguien puede echarme una mano? > > Gracias > > _______________________________________________ > Lista de distribución Ovillo > Para escribir a la lista, envia un correo a Ovillo@lists.ovillo.org > Puedes modificar tus datos o desuscribirte en la siguiente dirección: > http://lists.ovillo.org/mailman/listinfo/ovillo > -- David Castelló http://www.estandaresweb.es http://coredump.es _______________________________________________ Lista de distribución Ovillo Para escribir a la lista, envia un correo a Ovillo@lists.ovillo.org Puedes modificar tus datos o desuscribirte en la siguiente dirección: http://lists.ovillo.org/mailman/listinfo/ovillo