Una soluzione con lxml:
from lxml import html
pagina = html.parse('http://www.google.it').getroot()
for item in pagina.cssselect('title'):
print item.text
Come già detto è meglio non utilizzare le RegEx per fare il parsing html:
http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not
Il giorno 29 settembre 2010 16:04, franco93it <[email protected]> ha
scritto:
> Il giorno 29 settembre 2010 15:56, Nicola Larosa <[email protected]> ha
> scritto:
>
>> Ho avuto buoni risultati con lxml.html
>> (http://codespeak.net/lxml/lxmlhtml.html). lxml è una delle migliori
>> librerie XML per Python, ed lxml.html è un parser tollerante specifico
>> per l'HTML.
>
>
> Mi puoi fare un esempio di estrazione come devo fare io con lxml?
>
> _______________________________________________
> Python mailing list
> [email protected]
> http://lists.python.it/mailman/listinfo/python
>
>
_______________________________________________
Python mailing list
[email protected]
http://lists.python.it/mailman/listinfo/python