En general, no usaria un regex para parsear html (o ningun tipo de XML) a menos que estuviera 100% seguro de que lo que busco no va a cambiar en la vida (siempre desde la misma fuenta y generado a maquina). Sino que utilizaria un parser especializado para ello. en la propia libreria estandar de python hay uno[1] y ademas hay muchas librerias especializadas (como beautiful soup [2]) que posiblemente lo faciliten aun mas.
Asi en un vistazo rapido, podria fallarte si alguien mete espacio de mas entre los atributos del tag se incluyera algun otro atributo de img antes del data:el alt que tienes en el ejemplo bien podria haber sido escrito antes del data se usaran comillas simples para definir los valores del atributo (lo normal es doble, pero es aceptable tambien) [1]: https://docs.python.org/3/library/html.parser.html [2]: http://www.crummy.com/software/BeautifulSoup/ 2014-07-30 10:58 GMT+02:00 Kiko <kikocorre...@gmail.com>: > > > > El 30 de julio de 2014, 10:33, Eduard Diaz <eventgra...@gmail.com> > escribió: > > No hace falta que lo parsees a mano utiliza la libreria base64[1] >> >> > Creo que no lo he explicado correctamente. El problema de transformar la > información está resuelto. Mi problema es como obtener la información para > poder transformarla. > > >> >> [1]http://www.programcreek.com/2013/09/convert-image-to-string-in-python/ >> >> El día 30 de julio de 2014, 9:25, Kiko <kikocorre...@gmail.com> escribió: >> > Hola a todos. >> > >> > Estoy intentando extraer información de imágenes de un código html >> > (http://en.wikipedia.org/wiki/Data_URI_scheme) >> > >> > El formato sería el siguiente: >> > >> > <img >> > >> src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz >> > AAALEgAACxIB0t1+/AAA" /> >> > >> > >> > Me interesa extraer la extensión de la imagen (png en el anterior >> ejemplo) y >> > los datos que vienen después de 'base64,' hasta el cierre de comillas >> '"', >> > es decir, >> > >> 'iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz >> > AAALEgAACxIB0t1+/AAA'. >> > >> > >> > Tengo un ejemplo aquí, >> > https://gist.github.com/anonymous/75ab61f586c19e767cf0, pero estoy >> seguro de >> > que mi regex me va a fallar en cuanto encuentre alguna cosa más rara. >> > >> > ¿Alguien me podría indicar si el regex vale o si debería modificarlo >> para >> > que no me dé falsos positivos o acepte falsos negativos? >> > >> > Muchas gracias por adelantado. >> > >> > >> > _______________________________________________ >> > Python-es mailing list >> > Python-es@python.org >> > https://mail.python.org/mailman/listinfo/python-es >> > FAQ: http://python-es-faq.wikidot.com/ >> > >> _______________________________________________ >> Python-es mailing list >> Python-es@python.org >> https://mail.python.org/mailman/listinfo/python-es >> FAQ: http://python-es-faq.wikidot.com/ >> > > > _______________________________________________ > Python-es mailing list > Python-es@python.org > https://mail.python.org/mailman/listinfo/python-es > FAQ: http://python-es-faq.wikidot.com/ > >
_______________________________________________ Python-es mailing list Python-es@python.org https://mail.python.org/mailman/listinfo/python-es FAQ: http://python-es-faq.wikidot.com/