2010/7/6 Ferran <fer...@fompi.net>: > On 06/07/10 10:39, Ignacio Torres Masdeu wrote: >> >> Meeec. Error. Nunca, nunca, *NUNCA* uses expresiones regulares para >> tratar HTML. Seguro que el lenguaje que usas tiene librerías para >> hacerlo mejor de lo que lo conseguirás tú en dos años de dedicarte a >> ello. > > Ese nunca es, como todo, matizable. Si buscas 3 o 4 cadenas fijas es más > eficiente usar regex; comprobado y requetecomprobado.
Si es un parser general que tratará, por ejemplo, el feed de un planet que contiene html de distintos proveedores y por tanto no homogéneo (nada de cadenas fijas) *no* uses regex. Al final tienes más excepciones que reglas y acabas reinventando la rueda por enésima vez. Para el que de todas formas quiera crear otro parser html el frikitruco del día es: todo lo que esté entre < y > es un tag, aunque lo que haya en medio sea \0. ¿Cual es la primera* regexp con la que trabajarás? *primera = estás entrando en un infierno chaval, no te quejes, tú te lo has buscado. Firmado: El que se tuvo que currar un parser HTML con regex en Javascript (Netscape Enterprise Server) allá por 1999 y todavía tiene pesadillas. -- _______________________________________________ Comandob mailing list Comandob@badopi.org http://lists.badopi.org/mailman/listinfo/comandob