Valeu, Paulo! Eu estava mesmo procurando algum material desse tipo. Em 8 de novembro de 2011 11:40, Paulo Nogueira <[email protected]> escreveu:
> Oi Lucas, vou me intrometer na discussão. > Eu também tinha dificuldade com expressões regulares até que aqui na lista > me indicaram esse material do Prof. Walmes. > > Veja as aulas 20 e 21. Muito bom. > http://www.leg.ufpr.br/~walmes/ensino/ce223-2011-01/ > > Abraços > Paulo Nogueira Starzynski > > Em 22 de outubro de 2011 20:28, Lucas Barbosa <[email protected]>escreveu: > > Eu costumo usar a *strsplit*, mas só pq ainda não criei coragem de >> aprender a usar isso aí que o Henrique mostrou. >> >> >> Em 22 de outubro de 2011 14:30, Henrique Dallazuanna >> <[email protected]>escreveu: >> >> Tente assim >>> >>> library(XML) >>> >>> url <- " >>> http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380" >>> >>> Lines <- readLines(url) >>> h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) >>> >>> xpathApply(h, >>> "//h1|//p[@class='sub_tit']|//div[@class='clr']//p[@class='left']", >>> xmlValue) >>> >>> 2011/10/21 Daniel Dantas <[email protected]>: >>> > Pessoal, como faço pra "limpar" as strings que eu não quero que >>> > surgem quando executo o comando abaixo? >>> > >>> > ################# >>> > url <- >>> > "http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12211380 >>> " >>> > dados=readLines(paste(url)) >>> > textos = sapply(strsplit(dados[c(34,35,145)],"\t"),FUN =function(x) >>> > paste(x,collapse="")) >>> > textos >>> > ################# >>> > >>> > a saída do comando acima é esta: >>> > >>> > [1] "<meta property=\"og:title\" content=\"Em Curitiba, seminário >>> mostra >>> > como Lei Geral contribui para o desenvolvimento municipal\" />" >>> > [2] "<meta property=\"og:description\" content=\"Sebrae/PR reúne >>> lideranças >>> > da região centro-sul para apresentar casos de sucesso e mostrar formas >>> de >>> > implantação da legislação\" />" >>> > [3] " <p class=\"left\">04.08.2011 | 09:00" >>> > >>> > >>> > e eu soh quero: >>> > da 1° linha: Em Curitiba, seminário mostra como Lei Geral contribui >>> para o >>> > desenvolvimento municipal >>> > da 2° linha: Sebrae/PR reúne lideranças da região centro-sul para >>> apresentar >>> > casos de sucesso e mostrar formas de implantação da legislação >>> > da 3° linha: 04.08.2011 >>> > >>> > então, para facilitar, os excessos são: >>> > "<meta property=\ >>> > "og:title\ >>> > " content=\ >>> > "og:description\" >>> > <p class=\"left\"> >>> > | 09:00" (esse aqui varia quando mudo a URL) >>> > >>> > outra URL para testar, caso >>> > precisem: >>> http://www.pr.agenciasebrae.com.br/noticia.kmf?canal=724&cod=12201212 >>> > >>> > estava lendo no arquivo de e-mails da lista, sobre strsplit mas n to >>> > conseguindo usar.... até o Luiz, hoje mesmo usou essa função mas ele só >>> > "pegou" o que queria, e eu quero remover os "excessos" >>> > >>> > Tenho que fazer isso para vários outros sites, então quero só jogar a >>> URL e >>> > que ele me retorne o título, subtítulo e data da notícia e o link. >>> > >>> > Um abraço e meu agradecimento desde já!! >>> > >>> > >>> >> From: [email protected] >>> >> Date: Thu, 20 Oct 2011 21:07:01 -0200 >>> >> To: [email protected] >>> >> Subject: Re: [R-br] Coletar informações (texto) de sites >>> >> >>> >> Tente assim: >>> >> >>> >> library(XML) >>> >> u <- "http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=%s" >>> >> >>> >> # Quais munícipios vc precisa >>> >> ids <- c(100141003, 100141095) >>> >> >>> >> # Usando XPATH query >>> >> fGetNome <- function(x, ...) { >>> >> Lines <- readLines(x) >>> >> h <- htmlTreeParse(Lines, asText = TRUE, useInternalNodes = TRUE) >>> >> gsub("\n|\t", "", xpathApply(h, "//table//td[@width='80%']", >>> xmlValue)) >>> >> } >>> >> >>> >> lapply(sprintf(u, ids), fGetNome) >>> >> >>> >> >>> >> >>> >> 2011/10/20 Daniel Dantas <[email protected]>: >>> >> > Boa tarde pessoal, >>> >> > >>> >> > Existe alguma maneira de "pedir" para o R entrar neste site >>> >> > http://www.cnm.org.br/eleicao/mu_ele_prefeito.asp?iIdMun=100141003 e >>> me >>> >> > retornar o nome do prefeito de 2008 e de 2004? >>> >> > >>> >> > O objetivo disto é obter a listagem dos prefeitos de 2004 e de 2008 >>> para >>> >> > ver >>> >> > quem foi reeleito, se está no 1° ou 2° mandato. >>> >> > >>> >> > Para cada município, o link muda apenas o final, então tem como >>> >> > programar >>> >> > para que ele abra os links de todos os municípios do estado do >>> PARANÁ, >>> >> > mas >>> >> > não sei como fazer ele me retornar o nome do prefeito. >>> >> > >>> >> > Algo interessante que descobri agora, não sei é por causa do >>> Internet >>> >> > Explorer ou é do site, mas se apertarmos com o botão direito no >>> campo >>> >> > onde >>> >> > está escrito o nome do prefeito, surge-se a opção de exportar para >>> Excel >>> >> > as >>> >> > informações daquele ano. Eu poderia fazer isso 399 (qtde de >>> municípios >>> >> > do PR) vezes para o ano de 2004 e 399 para o ano de 2008 e pedir >>> para o >>> >> > R consolidar em 1 planilha. Mas mesmo assim dá um certo trabalho >>> salvar >>> >> > 798 >>> >> > planilhas. >>> >> > >>> >> > Alguém sabe um procedimento mais simples? Espero que eu tenha >>> consigo me >>> >> > fazer entender. >>> >> > >>> >> > Obrigado, >>> >> > Daniel >>> >> > >>> >> > _______________________________________________ >>> >> > R-br mailing list >>> >> > [email protected] >>> >> > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >>> >> > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e >>> forneça >>> >> > código >>> >> > mínimo reproduzível. >>> >> > >>> >> >>> >> >>> >> >>> >> -- >>> >> Henrique Dallazuanna >>> >> Curitiba-Paraná-Brasil >>> >> 25° 25' 40" S 49° 16' 22" O >>> >> _______________________________________________ >>> >> R-br mailing list >>> >> [email protected] >>> >> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >>> >> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >>> >> código mínimo reproduzível. >>> > >>> > _______________________________________________ >>> > R-br mailing list >>> > [email protected] >>> > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >>> > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >>> código >>> > mínimo reproduzível. >>> > >>> >>> >>> >>> -- >>> Henrique Dallazuanna >>> Curitiba-Paraná-Brasil >>> 25° 25' 40" S 49° 16' 22" O >>> _______________________________________________ >>> R-br mailing list >>> [email protected] >>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >>> código mínimo reproduzível. >>> >> >> >> _______________________________________________ >> R-br mailing list >> [email protected] >> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >> código mínimo reproduzível. >> > > > _______________________________________________ > R-br mailing list > [email protected] > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça > código mínimo reproduzível. >
_______________________________________________ R-br mailing list [email protected] https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
