Salve.
Scarico il sorgente di una pagina web in questo modo:
import urllib
sock = urllib.urlopen(http://www.sito.ext/pagina.ext;)
sorgente = sock.read()
sock.close()
Ora ho la stringa sorgente con il contenuto della pagina.
Come faccio ad estrarre dalla pagina determinate parti contenuti fra
Regular Expressions ...
Il giorno 29 settembre 2010 14:37, franco93it franco9...@gmail.com ha
scritto:
Salve.
Scarico il sorgente di una pagina web in questo modo:
import urllib
sock = urllib.urlopen(http://www.sito.ext/pagina.ext;)
sorgente = sock.read()
sock.close()
Ora ho la stringa
Sono un po' emozionato: è la prima risposta che do in lista :-)
Se stringa è la variabile dove ci sono le informazioni:
*import re
m = re.search('title(.+)/title', stringa)
m.group(0)
m.group(1)
*
Il giorno 29 settembre 2010 14:37, franco93it franco9...@gmail.com ha
scritto:
Salve.
2010/9/29 franco93it franco9...@gmail.com
Salve.
Scarico il sorgente di una pagina web in questo modo:
import urllib
sock = urllib.urlopen(http://www.sito.ext/pagina.ext;)
sorgente = sock.read()
sock.close()
import re
r = re.compile('(!--.*?--)|([^]*)|([^]+)', re.DOTALL)
for x, y, z in
Il giorno 29 settembre 2010 15:47, Vittorio Zuccala'
vittorio.zucc...@gmail.com ha scritto:
Sono un po' emozionato: è la prima risposta che do in lista :-)
Se stringa è la variabile dove ci sono le informazioni:
*import re
m = re.search('title(.+)/title', stringa)
m.group(0)
m.group(1)*
franco93it ha scritto:
Scarico il sorgente di una pagina web in questo modo:
[...]
Come faccio ad estrarre dalla pagina determinate parti contenuti
fra tag noti?
Vittorio Zuccala' wrote:
Sono un po' emozionato: è la prima risposta che do in lista :-)
Grazie, continua per favore! :-)
Se
Il giorno 29 settembre 2010 15:56, Nicola Larosa n...@teknico.net ha
scritto:
Ho avuto buoni risultati con lxml.html
(http://codespeak.net/lxml/lxmlhtml.html). lxml è una delle migliori
librerie XML per Python, ed lxml.html è un parser tollerante specifico
per l'HTML.
Mi puoi fare un
Salve,
anche se non sono molto attivo sulla lista la seguo da molto e mi è
stata davvero molto
utile da qualche anno a questa parte.
Volevo far sapere a voi pythonisti che ho pubblicato un primo scriptino
per la pubblicazione
batch di documenti ( doc, odt ,xml) su un blog wordpress,
lo potete
Per esempio se nella stringa c'è titletitolo/title come faccio ad
ottenere titolo?
A sentimento e senza straci a pensare su troppo:
str = titletitolo/title
stringa = str.replace( /title, )
str = stringa.replace( title, )
Oppure con le RE
import re
str = titletitolo/title
re.sub( r'.*?',
On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote:
[...]
Le espressioni regolari non sono l'ideale per grammatiche dipendenti dal
contesto come l'HTML: per esempio è difficile estrarre dati in presenza
di tag annidati.
Immagino che già conosci questa risposta su stackoverflow[1] ma
franco93it wrote:
Mi puoi fare un esempio di estrazione come devo fare io con lxml?
Ecco un paio d'esempi. Attenzione che usano entrambi XPath, che è una
sintassi potente, ma non immediata, per identificare tag nei markup
basati su XML:
http://bytes.com/topic/python/answers/790508-parsing-html
2010/9/29 Nicola Larosa n...@teknico.net
+1 per quanto detto da Nicola: se prendi l'abitudine a fare parsing di HTML
con le regexp, prima o poi ti trovi dei bachi di sicurezza che ci passa un
treno
___
Python mailing list
Python@lists.python.it
Marco Giusti spiffera, ùWednesday 29 September 2010 circa:
On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote:
[...]
Le espressioni regolari non sono l'ideale per grammatiche dipendenti
dal contesto come l'HTML: per esempio è difficile estrarre dati in
presenza di tag
On 29 September 2010 16:17, Nicola Larosa n...@teknico.net wrote:
franco93it wrote:
Mi puoi fare un esempio di estrazione come devo fare io con lxml?
Ecco un paio d'esempi. Attenzione che usano entrambi XPath, che è una
sintassi potente, ma non immediata, per identificare tag nei markup
2010/9/29 Marco Giusti marco.giu...@gmail.com
On Wed, Sep 29, 2010 at 03:56:07PM +0200, Nicola Larosa wrote:
[...]
Le espressioni regolari non sono l'ideale per grammatiche dipendenti dal
contesto come l'HTML: per esempio è difficile estrarre dati in presenza
di tag annidati.
Immagino
On Wed, Sep 29, 2010 at 02:37:28PM +0200, franco93it wrote:
Salve.
Scarico il sorgente di una pagina web in questo modo:
import urllib
sock = urllib.urlopen(http://www.sito.ext/pagina.ext;)
sorgente = sock.read()
sock.close()
Ora ho la stringa sorgente con il
Marco Giusti spiffera:
Immagino che già conosci questa risposta su stackoverflow[1] ma gli
altri che hanno proposto di usare le espressioni regolari forse no.
[1] http://tinyurl.com/ydb4j9j
Andrea Gasparini wrote:
grazie, tutto l'ufficio sta ridendo per questa cosa :)
E`... favolosa! :-D
Il 29 settembre 2010 16:04, fabrizio fortunato
fortunell...@gmail.com ha scritto:
Un saluto.
Giusto un consiglio: le stringhe utilizzate per descrivere cosa fa una
funzione, mettila dopo la definizione, altrimenti perdi l'utilità
delle docstring. Ad esempio in:
funzione che fa qualcosa
def
Beh sembra che non sia l'unico a usare la home di google per testare gli
script :D
Fantastico il secondo link!
2010/9/29 Marco Mariani bir...@gmail.com
2010/9/29 Gianluca Bargelli g.barge...@gmail.com
pagina = html.parse('http://www.google.it').getroot()
giuro non ti ho copiato... :-D
On 29/09/2010 16:59, simozack wrote:
Il 29 settembre 2010 16:04, fabrizio fortunato
fortunell...@gmail.com ha scritto:
Un saluto.
Giusto un consiglio: le stringhe utilizzate per descrivere cosa fa una
funzione, mettila dopo la definizione, altrimenti perdi l'utilità
delle
2010/9/29 fabrizio fortunato fortunell...@gmail.com:
def mia_funzione():
funzione che fa qualcosa
pass
Grazie per l'info
Altra info: __per favore__, quando riepondi, lascia di quoting, solo
le riche che permettano di capire a cosa rispondi e non tutto il msg.
Greetings
JOKER Ltd.
21 matches
Mail list logo