Hola

El día 21 de abril de 2011 11:02, lasizoillo <lasizoi...@gmail.com> escribió:
> El día 21 de abril de 2011 15:16, lopz <lowlife...@gmail.com> escribió:
>>
>> El día 20 de abril de 2011 09:37, lasizoillo <lasizoi...@gmail.com> escribió:
>>>
>>> Recuerdo que cuando usaba BeautifulSoup, antes de por supuesto pasarme
>>> a otra librería, tenía la extraña costumbre de leer la documentación:
>>> http://www.crummy.com/software/BeautifulSoup/documentation.html#Modifying%20the%20Parse%20Tree
>>
>>
>> Solo por curiosidad ¿cuál usas ahora?
>> Es que yo me he quedado con BS y al parecer el lxml va bastante fino.
>>
>
> Pues si, uso lxml mayormente. Pero no hay que olvidarse de BS del todo ;-)
> http://lxml.de/elementsoup.html
>
> Tener xpath y selectores css puede ahorrar mucho tiempo (de
> programador) y lineas de código. Con el iterparse puedes procesar
> ficheros xml de varios gigas a una velocidad equivalente o superior a
> la que se puede conseguir con un parser sax en java (mucho más coñazo
> de hacer y mantener).
>
> Tanto para webscraping, como para procesar ficheros enormes en xml,
> lxml no defrauda. La unica desventaja es que hay que compilar cosas en
> c, no es pure python.
>
> Saludos:



Gracias por los detalles, pero algo más, cómo va lxml con código html
mal formado?
me refiero a etiquetas sin cerrar, etc.
Perdón por no probarlo y preguntar jeje pero si lo has usado mucho ya
debes tener
claro como responde ante estos casos ;)
Que yo recuerde eso hacía muy bien BS con respecto a otros parsers

saludOS
>

> Javi
> _______________________________________________
> Python-es mailing list
> Python-es@python.org
> http://mail.python.org/mailman/listinfo/python-es
> FAQ: http://python-es-faq.wikidot.com/
>



-- 
lopz es libre, usa --> GNU/linux gentoo

+--[RSA 2048]--+
|  ..o.o=+       |
|   o =o*.+      |
|  . . *oO .      |
|     .EBoo      |
|      o.S         |
+--[lopz.org]--+
_______________________________________________
Python-es mailing list
Python-es@python.org
http://mail.python.org/mailman/listinfo/python-es
FAQ: http://python-es-faq.wikidot.com/

Responder a