Re: [Python-es] obtener path completo de los recursos de una página web

lasizoillo Sat, 29 Jan 2011 17:42:38 -0800

El día 30 de enero de 2011 02:18, Milton Galo Patricio Inostroza
Aguilera <[email protected]> escribió:
> Hola:
>
> He estado utilizando urllib2 para obtener el contenido de páginas web.
>  Hasta ahora todo sin problemas :-).  Me di cuenta que el src de las
> imagenes, css y javascript de algunos sitios está con ruta relativa
> por lo que cuando obtengo la página pierdo todo eso (tengo la página
> en un solo archivo).  He buscado en la librería como poder cambiar los
> path relativos a absolutos y no he podido encontrar una solución.


Urllib vale para descargar una url y se ve que lo hace bien.

Para convertir una url a absoluta necesitas saber la url base y la url
a convertir:
http://docs.python.org/library/urlparse.html#urlparse.urljoin

La base se extrae del elemento base o de la dirección de la que te
descargaste la pagina con los links:
http://www.w3schools.com/tags/tag_base.asp

El como haces el parsing de las páginas queda como misterio, pero se
supone que lo haces de algún modo ;-)

Saludos:

Javi
_______________________________________________
Python-es mailing list
[email protected]
http://mail.python.org/mailman/listinfo/python-es
FAQ: http://python-es-faq.wikidot.com/

Re: [Python-es] obtener path completo de los recursos de una página web

Responder a