Oi Lucas, vou me intrometer na discussão. Eu também tinha dificuldade com expressões regulares até que aqui na lista me indicaram esse material do Prof. Walmes.
Veja as aulas 20 e 21. Muito bom. http://www.leg.ufpr.br/~walmes/ensino/ce223-2011-01/ Abraços Paulo Nogueira Starzynski Em 22 de outubro de 2011 20:28, Lucas Barbosa <[email protected]> escreveu: > Eu costumo usar a *strsplit*, mas só pq ainda não criei coragem de > aprender a usar isso aí que o Henrique mostrou. > > > Em 22 de outubro de 2011 14:30, Henrique Dallazuanna > <[email protected]>escreveu: > > Tente assim >> >> library(XML) >> >> url <- " >> http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" >> >> Lines <- readLines(url) >> h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) >> >> xpathApply(h, >> "//h1|//p[@class='sub_tit']|//div[@class='clr']//p[@class='left']", >> xmlValue) >> >> 2011/10/21 Daniel Dantas <[email protected]>: >> > Pessoal, como faço pra "limpar" as strings que eu não quero que >> > surgem quando executo o comando abaixo? >> > >> > ################# >> > url <- >> > "http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" >> > dados=readLines(paste(url)) >> > textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x) >> > paste(x,collapse="")) >> > textos >> > ################# >> > >> > a saída do comando acima é esta: >> > >> > [1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário mostra >> > como Lei Geral contribui para o desenvolvimento municipal\" />" >> > [2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne >> lideranças >> > da região centro-sul para apresentar casos de sucesso e mostrar formas >> de >> > implantação da legislação\" />" >> > [3] " <p class=\"left\">04.08.2011 | 09:00" >> > >> > >> > e eu soh quero: >> > da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui >> para o >> > desenvolvimento municipal >> > da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para >> apresentar >> > casos de sucesso e mostrar formas de implantação da legislação >> > da 3° linha: 04.08.2011 >> > >> > então, para facilitar, os excessos são: >> > "<meta property=\ >> > "og:title\ >> > " content=\ >> > "og:description\" >> > <p class=\"left\"> >> > | 09:00" (esse aqui varia quando mudo a URL) >> > >> > outra URL para testar, caso >> > precisem: >> http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212 >> > >> > estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to >> > conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só >> > "pegou" o que queria, e eu quero remover os "excessos" >> > >> > Tenho que fazer isso para vários outros sites, então quero só jogar a >> URL e >> > que ele me retorne o título, subtítulo e data da notícia e o link. >> > >> > Um abraço e meu agradecimento desde já!! >> > >> > >> >> From: [email protected] >> >> Date: Thu, 20 Oct 2011 21:07:01 -0200 >> >> To: [email protected] >> >> Subject: Re: [R-br] Coletar informações (texto) de sites >> >> >> >> Tente assim: >> >> >> >> library(XML) >> >> u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s" >> >> >> >> # Quais munícipios vc precisa >> >> ids <- c(100141003, 100141095) >> >> >> >> # Usando XPATH query >> >> fGetNome <- function(x, ...) { >> >> Lines <- readLines(x) >> >> h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) >> >> gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", xmlValue)) >> >> } >> >> >> >> lapply(sprintf(u, ids), fGetNome) >> >> >> >> >> >> >> >> 2011/10/20 Daniel Dantas <[email protected]>: >> >> > Boa tarde pessoal, >> >> > >> >> > Existe alguma maneira de "pedir" para o R entrar neste site >> >> > http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e >> me >> >> > retornar o nome do prefeito de 2008 e de 2004? >> >> > >> >> > O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 >> para >> >> > ver >> >> > quem foi reeleito, se está no 1° ou 2° mandato. >> >> > >> >> > Para cada município, o link muda apenas o final, então tem como >> >> > programar >> >> > para que ele abra os links de todos os municípios do estado do >> PARANÁ, >> >> > mas >> >> > não sei como fazer ele me retornar o nome do prefeito. >> >> > >> >> > Algo interessante que descobri agora, não sei é por causa do Internet >> >> > Explorer ou é do site, mas se apertarmos com o botão direito no campo >> >> > onde >> >> > está escrito o nome do prefeito, surge-se a opção de exportar para >> Excel >> >> > as >> >> > informações daquele ano. Eu poderia fazer isso 399 (qtde de >> municípios >> >> > do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir >> para o >> >> > R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho >> salvar >> >> > 798 >> >> > planilhas. >> >> > >> >> > Alguém sabe um procedimento mais simples? Espero que eu tenha >> consigo me >> >> > fazer entender. >> >> > >> >> > Obrigado, >> >> > Daniel >> >> > >> >> > _______________________________________________ >> >> > R-br mailing list >> >> > [email protected] >> >> > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >> >> > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >> >> > código >> >> > mínimo reproduzível. >> >> > >> >> >> >> >> >> >> >> -- >> >> Henrique Dallazuanna >> >> Curitiba-Paraná-Brasil >> >> 25° 25' 40" S 49° 16' 22" O >> >> _______________________________________________ >> >> R-br mailing list >> >> [email protected] >> >> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >> >> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >> >> código mínimo reproduzível. >> > >> > _______________________________________________ >> > R-br mailing list >> > [email protected] >> > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >> > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >> código >> > mínimo reproduzível. >> > >> >> >> >> -- >> Henrique Dallazuanna >> Curitiba-Paraná-Brasil >> 25° 25' 40" S 49° 16' 22" O >> _______________________________________________ >> R-br mailing list >> [email protected] >> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >> código mínimo reproduzível. >> > > > _______________________________________________ > R-br mailing list > [email protected] > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça > código mínimo reproduzível. >
_______________________________________________ R-br mailing list [email protected] https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
