El mar, 06-07-2010 a las 11:45 +0200, Ignacio Torres Masdeu escribió:
> 2010/7/6 jors <worby...@gmail.com>:
> > Yo estoy con Ferran. Tanto en el cutre-script como en la app, sólo busco
> > tags html de imágenes, y para eso quiero tener que evitar tener que usar
> > una librería que parsee html :S
> 
> Y compruebas que no estén dentro de un comentario?
> <!-- Esto es un ejemplo
>   <img src="/noexiste.jpg">
> -->
> 
> ¿O que no sean parte de un string javascript?
> <script>
> var img='<img src="/patata.jpg">';
> </script>
> 
> Entiendo que tu regexp es algo del estilo de lo siguiente, porque si
> empiezas a tratar excepciones tardas menos (y consumes menos recursos)
> tirando de librería. Uso PHP porque creo recordar que es tu "language
> of choice":
> 
> test.html:
> <img src="/tmp/test.jpg">
> <IMG
> ALT="PATATA"
> SRC="/tmp/test.jpg"
> >
> <!--
> Esto no debería pillarlo
> <img src="/tmp/estanodeberiasalir.jpg">
> -->
> <script>
> var img='<img src="/patata.jpg">';
> </script>
> 
> <img src="/tmp/test.jpg">
> <img src="/tmp/test.jpg">
> <object src="/tmp/test.jpg">
> 
> test.php:
>   $s = file_get_contents('/tmp/test.html');
>   preg_match_all('/<img[^>]+src="([^"]+)"[^>]*>/i',$s,$matches);
>   print_r($matches);
> 
> Resultado:
> 
> Array
> (
>     [0] => Array
>         (
>             [0] => <img src="/tmp/test.jpg">
>             [1] => <IMG
> ALT="PATATA"
> SRC="/tmp/test.jpg"
> >
>             [2] => <img src="/tmp/estanodeberiasalir.jpg">
>             [3] => <img src="/patata.jpg">
>             [4] => <img src="/tmp/test.jpg">
>             [5] => <img src="/tmp/test.jpg">
>         )
> 
>     [1] => Array
>         (
>             [0] => /tmp/test.jpg
>             [1] => /tmp/test.jpg
>             [2] => /tmp/estanodeberiasalir.jpg
>             [3] => /patata.jpg
>             [4] => /tmp/test.jpg
>             [5] => /tmp/test.jpg
>         )
> 
> )
> 
> Es decir. Tienes una función que no hace lo que debería al 100%. Tal
> vez puedes vivir con ello y tu "debe" es distinto (puedes coger los
> falsos resultados de un comentario, pero a mi me duele. Para gustos
> los colores. :P

Si fuera con páginas html en crudo vale, pero piensa que esa "búsqueda"
de tags la hago sobre lo que ya recibo preparseado de feedparser.

La verdad, yo veo poco probable (no imposible, claro, en esta vida nada
es imposible) encontrarme con cosas como comentarios html o scripts (y
encima cuyo contenido referencie imagenes) en extractos rss de
feedparser... raro sería si encuentras alguno que no te pertenezca xD

BTW, tanto el script como la app estan en Python. Pero gracias por el
apunte, muy completo :D

[Offtopic] El pasado sábado por la mañana pasé por Sallent por la
ferretería CIFEC (que por cierto, nos atendió un desastre de cuidao) y
pensé en tí. Eso es amor xD

jors

--
_______________________________________________
Comandob mailing list
Comandob@badopi.org
http://lists.badopi.org/mailman/listinfo/comandob

Responder a