Hola El día 21 de abril de 2011 11:02, lasizoillo <lasizoi...@gmail.com> escribió: > El día 21 de abril de 2011 15:16, lopz <lowlife...@gmail.com> escribió: >> >> El día 20 de abril de 2011 09:37, lasizoillo <lasizoi...@gmail.com> escribió: >>> >>> Recuerdo que cuando usaba BeautifulSoup, antes de por supuesto pasarme >>> a otra librería, tenía la extraña costumbre de leer la documentación: >>> http://www.crummy.com/software/BeautifulSoup/documentation.html#Modifying%20the%20Parse%20Tree >> >> >> Solo por curiosidad ¿cuál usas ahora? >> Es que yo me he quedado con BS y al parecer el lxml va bastante fino. >> > > Pues si, uso lxml mayormente. Pero no hay que olvidarse de BS del todo ;-) > http://lxml.de/elementsoup.html > > Tener xpath y selectores css puede ahorrar mucho tiempo (de > programador) y lineas de código. Con el iterparse puedes procesar > ficheros xml de varios gigas a una velocidad equivalente o superior a > la que se puede conseguir con un parser sax en java (mucho más coñazo > de hacer y mantener). > > Tanto para webscraping, como para procesar ficheros enormes en xml, > lxml no defrauda. La unica desventaja es que hay que compilar cosas en > c, no es pure python. > > Saludos:
Gracias por los detalles, pero algo más, cómo va lxml con código html mal formado? me refiero a etiquetas sin cerrar, etc. Perdón por no probarlo y preguntar jeje pero si lo has usado mucho ya debes tener claro como responde ante estos casos ;) Que yo recuerde eso hacía muy bien BS con respecto a otros parsers saludOS > > Javi > _______________________________________________ > Python-es mailing list > Python-es@python.org > http://mail.python.org/mailman/listinfo/python-es > FAQ: http://python-es-faq.wikidot.com/ > -- lopz es libre, usa --> GNU/linux gentoo +--[RSA 2048]--+ | ..o.o=+ | | o =o*.+ | | . . *oO . | | .EBoo | | o.S | +--[lopz.org]--+ _______________________________________________ Python-es mailing list Python-es@python.org http://mail.python.org/mailman/listinfo/python-es FAQ: http://python-es-faq.wikidot.com/