Hola Lopz. Si no me equivoco, lxml tiene todo lo que tiene BS y mas (ademas de ser mucho mas rapido)... http://lxml.de/elementsoup.html <http://lxml.de/elementsoup.html>http://lxml.de/lxmlhtml.html <http://lxml.de/lxmlhtml.html>http://lxml.de/parsing.html
<http://lxml.de/parsing.html>En estos tres enlaces creo que encontraras suficiente información sobre lo que preguntas. Un saludo. Andrei. El 24 de abril de 2011 04:00, lopz <lowlife...@gmail.com> escribió: > Hola > > El día 21 de abril de 2011 11:02, lasizoillo <lasizoi...@gmail.com> > escribió: > > El día 21 de abril de 2011 15:16, lopz <lowlife...@gmail.com> escribió: > >> > >> El día 20 de abril de 2011 09:37, lasizoillo <lasizoi...@gmail.com> > escribió: > >>> > >>> Recuerdo que cuando usaba BeautifulSoup, antes de por supuesto pasarme > >>> a otra librería, tenía la extraña costumbre de leer la documentación: > >>> > http://www.crummy.com/software/BeautifulSoup/documentation.html#Modifying%20the%20Parse%20Tree > >> > >> > >> Solo por curiosidad ¿cuál usas ahora? > >> Es que yo me he quedado con BS y al parecer el lxml va bastante fino. > >> > > > > Pues si, uso lxml mayormente. Pero no hay que olvidarse de BS del todo > ;-) > > http://lxml.de/elementsoup.html > > > > Tener xpath y selectores css puede ahorrar mucho tiempo (de > > programador) y lineas de código. Con el iterparse puedes procesar > > ficheros xml de varios gigas a una velocidad equivalente o superior a > > la que se puede conseguir con un parser sax en java (mucho más coñazo > > de hacer y mantener). > > > > Tanto para webscraping, como para procesar ficheros enormes en xml, > > lxml no defrauda. La unica desventaja es que hay que compilar cosas en > > c, no es pure python. > > > > Saludos: > > > > Gracias por los detalles, pero algo más, cómo va lxml con código html > mal formado? > me refiero a etiquetas sin cerrar, etc. > Perdón por no probarlo y preguntar jeje pero si lo has usado mucho ya > debes tener > claro como responde ante estos casos ;) > Que yo recuerde eso hacía muy bien BS con respecto a otros parsers > > saludOS > > > > > Javi > > _______________________________________________ > > Python-es mailing list > > Python-es@python.org > > http://mail.python.org/mailman/listinfo/python-es > > FAQ: http://python-es-faq.wikidot.com/ > > > > > > -- > lopz es libre, usa --> GNU/linux gentoo > > +--[RSA 2048]--+ > | ..o.o=+ | > | o =o*.+ | > | . . *oO . | > | .EBoo | > | o.S | > +--[lopz.org]--+ > _______________________________________________ > Python-es mailing list > Python-es@python.org > http://mail.python.org/mailman/listinfo/python-es > FAQ: http://python-es-faq.wikidot.com/ > -- http://twitter.com/andsux http://www.niwi.be **** http://www.freebsd.org/ http://www.postgresql.org/ http://www.python.org/ http://www.djangoproject.com/ "Linux is for people who hate Windows, BSD is for people who love UNIX" "Social Engineer -> Because there is no patch for human stupidity"
_______________________________________________ Python-es mailing list Python-es@python.org http://mail.python.org/mailman/listinfo/python-es FAQ: http://python-es-faq.wikidot.com/