2010/7/6 Ferran <fer...@fompi.net>:
> On 06/07/10 10:39, Ignacio Torres Masdeu wrote:
>>
>> Meeec. Error. Nunca, nunca, *NUNCA* uses expresiones regulares para
>> tratar HTML. Seguro que el lenguaje que usas tiene librerías para
>> hacerlo mejor de lo que lo conseguirás tú en dos años de dedicarte a
>> ello.
>
> Ese nunca es, como todo, matizable. Si buscas 3 o 4 cadenas fijas es más
> eficiente usar regex; comprobado y requetecomprobado.

Si es un parser general que tratará, por ejemplo, el feed de un planet
que contiene html de distintos proveedores y por tanto no homogéneo
(nada de cadenas fijas) *no* uses regex. Al final tienes más
excepciones que reglas y acabas reinventando la rueda por enésima vez.

Para el que de todas formas quiera crear otro parser html el
frikitruco del día es: todo lo que esté entre < y > es un tag, aunque
lo que haya en medio sea \0. ¿Cual es la primera* regexp con la que
trabajarás?

*primera = estás entrando en un infierno chaval, no te quejes, tú te
lo has buscado.

Firmado: El que se tuvo que currar un parser HTML con regex en
Javascript (Netscape Enterprise Server) allá por 1999 y todavía tiene
pesadillas.
--
_______________________________________________
Comandob mailing list
Comandob@badopi.org
http://lists.badopi.org/mailman/listinfo/comandob

Responder a