Re: [R-br] Text Mining

Raphael Saldanha Mon, 19 Aug 2013 04:24:31 -0700

Olá Vinícios,

A um tempo atrás usei este código:


require(XML)
require(tm)
library(RCurl)
library(RTidyHTML)

u = 
"http://observatoriodaimprensa.com.br/news/view/_ed716_as_pesquisas_e_a_volatilidade_das_nuvens";

doc.raw <- getURL(u)
html <- htmlTreeParse(doc.raw, useInternal = TRUE, encoding = character())
txt <- xpathApply(html, 
"//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]",
 xmlValue)

---
Atenciosamente,Raphael Saldanha
[email protected]

From: [email protected]
Date: Sun, 18 Aug 2013 21:11:04 -0300
To: [email protected]
Subject: [R-br] Text Mining

Pessoal,
sabe me dizer se no pacote tm ou no RCurl, existe alguma função para extrair o 
conteúdo  de uma pagina baixada via getURL? Ou seja, apenas o texto do corpo 
principal da página.


Abs

-- 
Vinicius Brito Rocha.
Estatístico e Atuário 

M.Sc. Engenharia de Produção/PO






_______________________________________________
R-br mailing list
[email protected]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo 
m�nimo reproduz�vel.

_______________________________________________
R-br mailing list
[email protected]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br
Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código 
mínimo reproduzível.

Re: [R-br] Text Mining

Responder a