Re: [gull] Python & HTLMParser module

cedric briner Thu, 31 Jan 2008 05:57:28 -0800

Message destine aux Pythoniens :

oups desole daniel si tu recois ce message  a double.


va voir sur python beautifull soup:
http://www.crummy.com/software/BeautifulSoup/

En voulant automatiser un acces web, j'ai utilise le module HTMLParser dePython pour extraire ce que je veux de la page html. Or, ce module s'ecraselamentablement en rencontrant le pattern suivant :
"....<script language=javascript>
if(window.yzq_p==null)document.write("<scr"+"ipt language=javascriptsrc=http://l.yimg.com/us.js.yimg.com/lib/bc/bc_2.0.4.js></scr"+"ipt>");..."
En fait, c'est la reconnaissance d'un end-tag qui pointe sur : </scr"+"ipt> !
La raison est liee a l'utilisation de RE pour parser de l'HTML (une aberrationa mes yeux; mais enfin...). Ceci engendre naturellement plein de problemes,et tout modification d'une des regles rend les choses encore plus fragiles.
Quelqu'un connait-il un module Python plus robuste que celui-ci ? J'airedefini la methode parse_endtag() de la classe HTMLParser pour contourner ceprobleme, mais je ne trouve pas cela tres elegant... Quelqu'un a-t-il dejarencontre ce genre de chose ? La page web incriminee est :
        http://finance.yhaoo.com

dc

_______________________________________________
gull mailing list
gull@lists.alphanet.ch
http://lists.alphanet.ch/mailman/listinfo/gull



--

Cedric BRINER
23 ch. Salomon-PENAY  | mel  mailto:[EMAIL PROTECTED]
CH-1217 Meyrin        | voip callto:[EMAIL PROTECTED]
                      |
                      | tel::maison:  +41(0)32/510-6739
                      | tel::portable +41(0)78/665-9701
                      | tel::travail  +41(0)22/379-2356
_______________________________________________
gull mailing list
gull@lists.alphanet.ch
http://lists.alphanet.ch/mailman/listinfo/gull

Re: [gull] Python & HTLMParser module

Répondre à