[Python] Estrarre stringa da stringa

2010-09-29 Thread franco93it
Salve. Scarico il sorgente di una pagina web in questo modo: import urllib sock = urllib.urlopen("http://www.sito.ext/pagina.ext";) sorgente = sock.read() sock.close() Ora ho la stringa sorgente con il contenuto della pagina. Come faccio ad estrarre dalla pagina determinate parti contenuti fra t

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Antonello Mangone
Regular Expressions ... Il giorno 29 settembre 2010 14:37, franco93it ha scritto: > Salve. > Scarico il sorgente di una pagina web in questo modo: > > import urllib > sock = urllib.urlopen("http://www.sito.ext/pagina.ext";) > sorgente = sock.read() > sock.close() > > > Ora ho la stringa sorgente

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Vittorio Zuccala'
Sono un po' emozionato: è la prima risposta che do in lista :-) Se stringa è la variabile dove ci sono le informazioni: *import re m = re.search('(.+)', stringa) m.group(0) m.group(1) * Il giorno 29 settembre 2010 14:37, franco93it ha scritto: > Salve. > Scarico il sorgente di una pagina we

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Marco Beri
2010/9/29 franco93it > Salve. > Scarico il sorgente di una pagina web in questo modo: > > import urllib > sock = urllib.urlopen("http://www.sito.ext/pagina.ext";) > sorgente = sock.read() > sock.close() > > import re r = re.compile('()|(<[^>]*>)|([^<]+)', re.DOTALL) for x, y, z in r.findall(sorge

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread franco93it
Il giorno 29 settembre 2010 15:47, Vittorio Zuccala' < vittorio.zucc...@gmail.com> ha scritto: > Sono un po' emozionato: è la prima risposta che do in lista :-) > > Se stringa è la variabile dove ci sono le informazioni: > > *import re > m = re.search('(.+)', stringa) > m.group(0) > m.group(1)* >

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Nicola Larosa
> franco93it ha scritto: >> Scarico il sorgente di una pagina web in questo modo: >> [...] >> Come faccio ad estrarre dalla pagina determinate parti contenuti >> fra tag noti? Vittorio Zuccala' wrote: > Sono un po' emozionato: è la prima risposta che do in lista :-) Grazie, continua per favore!

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread franco93it
Il giorno 29 settembre 2010 15:56, Nicola Larosa ha scritto: > > Ho avuto buoni risultati con lxml.html > (http://codespeak.net/lxml/lxmlhtml.html). lxml è una delle migliori > librerie XML per Python, ed lxml.html è un parser tollerante specifico > per l'HTML. Mi puoi fare un esempio di estrazi

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Carlos Catucci
> Per esempio se nella stringa c'è titolo come faccio ad > ottenere titolo? A sentimento e senza straci a pensare su troppo: str = "titolo" stringa = str.replace( "", "" ) str = stringa.replace( "", "" ) Oppure con le RE import re str = "titolo" re.sub( r'<.*?>', '', str ) Greetings JOKER Lt

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Marco Giusti
On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote: [...] > Le espressioni regolari non sono l'ideale per grammatiche dipendenti dal > contesto come l'HTML: per esempio è difficile estrarre dati in presenza > di tag annidati. Immagino che già conosci questa risposta su stackoverflow[1]

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Nicola Larosa
franco93it wrote: > Mi puoi fare un esempio di estrazione come devo fare io con lxml? Ecco un paio d'esempi. Attenzione che usano entrambi XPath, che è una sintassi potente, ma non immediata, per identificare tag nei markup basati su XML: http://bytes.com/topic/python/answers/790508-parsing-html

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Marco Mariani
2010/9/29 Nicola Larosa +1 per quanto detto da Nicola: se prendi l'abitudine a fare parsing di HTML con le regexp, prima o poi ti trovi dei bachi di sicurezza che ci passa un treno ___ Python mailing list Python@lists.python.it http://lists.python.it/ma

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Gianluca Bargelli
Una soluzione con lxml: from lxml import html pagina = html.parse('http://www.google.it').getroot() for item in pagina.cssselect('title'): print item.text Come già detto è meglio non utilizzare le RegEx per fare il parsing html: http://stackoverflow.com/questions/590747/using-regular-express

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Andrea Gasparini
Marco Giusti spiffera, ùWednesday 29 September 2010 circa: > On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote: > [...] > > > Le espressioni regolari non sono l'ideale per grammatiche dipendenti > > dal contesto come l'HTML: per esempio è difficile estrarre dati in > > presenza di tag

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Andrea Ambu
2010/9/29 Marco Giusti : > Immagino che già conosci questa risposta su stackoverflow[1] ma gli > altri che hanno proposto di usare le espressioni regolari forse no. > > [1] http://tinyurl.com/ydb4j9j > ARGH, sei arrivato prima di me, bravo :P -- Andrea ___

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Marco Mariani
On 29 September 2010 16:17, Nicola Larosa wrote: > franco93it wrote: > > Mi puoi fare un esempio di estrazione come devo fare io con lxml? > > Ecco un paio d'esempi. Attenzione che usano entrambi XPath, che è una > sintassi potente, ma non immediata, per identificare tag nei markup > basati su XM

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Marco Beri
2010/9/29 Marco Giusti > On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote: > [...] > > Le espressioni regolari non sono l'ideale per grammatiche dipendenti dal > > contesto come l'HTML: per esempio è difficile estrarre dati in presenza > > di tag annidati. > > Immagino che già conosc

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Alessandro Dentella
On Wed, Sep 29, 2010 at 02:37:28PM +0200, franco93it wrote: > Salve. > Scarico il sorgente di una pagina web in questo modo: > > > import urllib > sock = urllib.urlopen("http://www.sito.ext/pagina.ext";) > sorgente = sock.read() > sock.close() > > > Ora ho la stringa sorgente co

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Nicola Larosa
> Marco Giusti spiffera: >> Immagino che già conosci questa risposta su stackoverflow[1] ma gli >> altri che hanno proposto di usare le espressioni regolari forse no. >> >> [1] http://tinyurl.com/ydb4j9j Andrea Gasparini wrote: > grazie, tutto l'ufficio sta ridendo per questa cosa :) E`... favo

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Marco Mariani
2010/9/29 Gianluca Bargelli pagina = html.parse('http://www.google.it').getroot() > giuro non ti ho copiato... :-D http://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not ma allora anche http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.

Re: [Python] Estrarre stringa da stringa

2010-09-29 Thread Gianluca Bargelli
Beh sembra che non sia l'unico a usare la home di google per testare gli script :D Fantastico il secondo link! 2010/9/29 Marco Mariani > 2010/9/29 Gianluca Bargelli > > > pagina = html.parse('http://www.google.it').getroot() >> > > > giuro non ti ho copiato... :-D > > > > http://stackoverflow.

Re: [Python] Estrarre stringa da stringa

2010-09-30 Thread Marco Giusti
On Wed, Sep 29, 2010 at 04:54:44PM +0200, Marco Beri wrote: > 2010/9/29 Marco Giusti > > > On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote: > > [...] > > > Le espressioni regolari non sono l'ideale per grammatiche dipendenti dal > > > contesto come l'HTML: per esempio è difficile es