Message destine aux Pythoniens :
oups desole daniel si tu recois ce message a double.
va voir sur python beautifull soup:
http://www.crummy.com/software/BeautifulSoup/
En voulant automatiser un acces web, j'ai utilise le module HTMLParser de
Python pour extraire ce que je veux de la page html. Or, ce module s'ecrase
lamentablement en rencontrant le pattern suivant :
"....<script language=javascript>
if(window.yzq_p==null)document.write("<scr"+"ipt language=javascript
src=http://l.yimg.com/us.js.yimg.com/lib/bc/bc_2.0.4.js></scr"+"ipt>");..."
En fait, c'est la reconnaissance d'un end-tag qui pointe sur : </scr"+"ipt> !
La raison est liee a l'utilisation de RE pour parser de l'HTML (une aberration
a mes yeux; mais enfin...). Ceci engendre naturellement plein de problemes,
et tout modification d'une des regles rend les choses encore plus fragiles.
Quelqu'un connait-il un module Python plus robuste que celui-ci ? J'ai
redefini la methode parse_endtag() de la classe HTMLParser pour contourner ce
probleme, mais je ne trouve pas cela tres elegant... Quelqu'un a-t-il deja
rencontre ce genre de chose ? La page web incriminee est :
http://finance.yhaoo.com
dc
_______________________________________________
gull mailing list
gull@lists.alphanet.ch
http://lists.alphanet.ch/mailman/listinfo/gull
--
Cedric BRINER
23 ch. Salomon-PENAY | mel mailto:[EMAIL PROTECTED]
CH-1217 Meyrin | voip callto:[EMAIL PROTECTED]
|
| tel::maison: +41(0)32/510-6739
| tel::portable +41(0)78/665-9701
| tel::travail +41(0)22/379-2356
_______________________________________________
gull mailing list
gull@lists.alphanet.ch
http://lists.alphanet.ch/mailman/listinfo/gull