obrigado. vou dar uma olhada.
Em 19 de agosto de 2013 08:23, Raphael Saldanha <[email protected]>escreveu: > Olá Vinícios, > > A um tempo atrás usei este código: > > require(XML) > require(tm) > library(RCurl) > library(RTidyHTML) > > u = " > http://observatoriodaimprensa.com.br/news/view/_ed716_as_pesquisas_e_a_volatilidade_das_nuvens > " > > doc.raw <- getURL(u) > html <- htmlTreeParse(doc.raw, useInternal = TRUE, encoding = character()) > txt <- xpathApply(html, > "//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]", > xmlValue) > > --- > > Atenciosamente, > Raphael Saldanha > > [email protected] > > > ------------------------------ > From: [email protected] > Date: Sun, 18 Aug 2013 21:11:04 -0300 > To: [email protected] > Subject: [R-br] Text Mining > > > Pessoal, > > sabe me dizer se no pacote tm ou no RCurl, existe alguma função para > extrair o conteúdo de uma pagina baixada via getURL? Ou seja, apenas o > texto do corpo principal da página. > > Abs > > > > -- > *Vinicius Brito Rocha.* > *Estatístico e Atuário ** > M.Sc. Engenharia de Produção/PO* > > > > _______________________________________________ R-br mailing list > [email protected] > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de > postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo > reproduz�vel. > > _______________________________________________ > R-br mailing list > [email protected] > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça > código mínimo reproduzível. > -- *Vinicius Brito Rocha.* *Estatístico e Atuário ** M.Sc. Engenharia de Produção/PO*
_______________________________________________ R-br mailing list [email protected] https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
