El mar, 06-07-2010 a las 11:45 +0200, Ignacio Torres Masdeu escribió: > 2010/7/6 jors <worby...@gmail.com>: > > Yo estoy con Ferran. Tanto en el cutre-script como en la app, sólo busco > > tags html de imágenes, y para eso quiero tener que evitar tener que usar > > una librería que parsee html :S > > Y compruebas que no estén dentro de un comentario? > <!-- Esto es un ejemplo > <img src="/noexiste.jpg"> > --> > > ¿O que no sean parte de un string javascript? > <script> > var img='<img src="/patata.jpg">'; > </script> > > Entiendo que tu regexp es algo del estilo de lo siguiente, porque si > empiezas a tratar excepciones tardas menos (y consumes menos recursos) > tirando de librería. Uso PHP porque creo recordar que es tu "language > of choice": > > test.html: > <img src="/tmp/test.jpg"> > <IMG > ALT="PATATA" > SRC="/tmp/test.jpg" > > > <!-- > Esto no debería pillarlo > <img src="/tmp/estanodeberiasalir.jpg"> > --> > <script> > var img='<img src="/patata.jpg">'; > </script> > > <img src="/tmp/test.jpg"> > <img src="/tmp/test.jpg"> > <object src="/tmp/test.jpg"> > > test.php: > $s = file_get_contents('/tmp/test.html'); > preg_match_all('/<img[^>]+src="([^"]+)"[^>]*>/i',$s,$matches); > print_r($matches); > > Resultado: > > Array > ( > [0] => Array > ( > [0] => <img src="/tmp/test.jpg"> > [1] => <IMG > ALT="PATATA" > SRC="/tmp/test.jpg" > > > [2] => <img src="/tmp/estanodeberiasalir.jpg"> > [3] => <img src="/patata.jpg"> > [4] => <img src="/tmp/test.jpg"> > [5] => <img src="/tmp/test.jpg"> > ) > > [1] => Array > ( > [0] => /tmp/test.jpg > [1] => /tmp/test.jpg > [2] => /tmp/estanodeberiasalir.jpg > [3] => /patata.jpg > [4] => /tmp/test.jpg > [5] => /tmp/test.jpg > ) > > ) > > Es decir. Tienes una función que no hace lo que debería al 100%. Tal > vez puedes vivir con ello y tu "debe" es distinto (puedes coger los > falsos resultados de un comentario, pero a mi me duele. Para gustos > los colores. :P
Si fuera con páginas html en crudo vale, pero piensa que esa "búsqueda" de tags la hago sobre lo que ya recibo preparseado de feedparser. La verdad, yo veo poco probable (no imposible, claro, en esta vida nada es imposible) encontrarme con cosas como comentarios html o scripts (y encima cuyo contenido referencie imagenes) en extractos rss de feedparser... raro sería si encuentras alguno que no te pertenezca xD BTW, tanto el script como la app estan en Python. Pero gracias por el apunte, muy completo :D [Offtopic] El pasado sábado por la mañana pasé por Sallent por la ferretería CIFEC (que por cierto, nos atendió un desastre de cuidao) y pensé en tí. Eso es amor xD jors -- _______________________________________________ Comandob mailing list Comandob@badopi.org http://lists.badopi.org/mailman/listinfo/comandob