Leonardo, boa tarde! Voltando na discussão...
Acredito que não tem como fazer a conexão direta com o arquivo .zip alocado na web, mas uma vez que você baixa o arquivo com download.file(), pode usar unz() para não precisar descompactar. Tem um post antigo em < https://stat.ethz.ch/pipermail/r-help/2008-October/176266.html>. Abaixo tem um exemplo bem simples, mas que pode ser útil. É feita a leitura de uma tabela .html a partir de um arquivo .zip alocado no Google Drive. ### <code r> setwd("D:\\TEMP") url.zip <- "https://drive.google.com/open?id=0B8y1jJExW6kabHU3SXV3dXB2OEk" url.zip <- sub("^.*\\?(id.*$)", " https://drive.google.com/uc?export=download&\\1", url.zip) url.zip ### https://drive.google.com/uc?export=download&id=0B8y1jJExW6kabHU3SXV3dXB2OEk" if (!file.exists("html.zip")) download.file(url.zip, "html.zip", mode="wb") unzip("html.zip", list=T) ### conteúdo closeAllConnections() con <- unz("html.zip", "htmlTable.html") XML::readHTMLTable(readLines(con)) # $`NULL` # First Name Last Name Points # 1 Jill Smith 50 # 2 Eve Jackson 94 close(con) ### </code> ================================================ Éder Comunello PhD Student in Agricultural Systems Engineering (USP/Esalq) Brazilian Agricultural Research Corporation (Embrapa) Dourados, MS, Brazil [22 16.5'S, 54 49.0'W] Em 7 de janeiro de 2016 10:54, Leonard de Assis <[email protected]> escreveu: > Paulo, o que achei via google de ontem pra hoje vai nessa direção mesmo. > > > > Estou rodando vários exemplos que achei e, em paralelo, adaptando meu > código. > > > > Eu já consigo ler os trecos dentro do HTML, o que agarra é esse processo > de descompactar o htm dentro. > > > > Fiz um esqueminha em C usando curl e xml que funciona. Se ficar demorando > muito, porto essa joça pra ficar no formato que o R entende e resolvo por > esse caminho. > > > > Ou então, deixo como está, que é baixar o zip, descompactar e ler. > > > > *De:* R-br [mailto:[email protected]] *Em nome de *Paulo > Nogueira Starzynski > *Enviada em:* quinta-feira, 7 de janeiro de 2016 09:39 > *Para:* R-BR <[email protected]> > *Assunto:* Re: [R-br] Ler um HTM > > > > Leonardo, > > talvez você já tenha alguma vez trilhado o caminho das pedras do > webscrapping, mas, se não, recomendo os pacotes XML, RCurl e rvest (eu uso > mais os dois primeiros). > > > Abraços, > > Paulo > > > > Em 6 de janeiro de 2016 23:45, Leonard de Assis <[email protected]> > escreveu: > > Boa noite a todos > > > > Estou com um problema idiota em mãos. Preciso ler um arquivo .HTM dentro > de um arquivo .zip. > > Até agora, o jeito que achei mais produtivo foi: > > 1. baixar o zip (posso fazer isso com o R via download.file) > > 2. extrair o .HTM do arquivo (posso fazer isso via unzip) > > 3. ler a tabela contida no HTM utilizando readHTMLTable (lib XML) > > > > A questão que tenho é a seguinte: > > > > Existe um jeito mais rápido que este? Eu já consegui ler .csv direto de > arquivo .zip utilizando o comando unz e read.table. Será que funciona assim > também em HTML? Se sim, qual seria a func? > > > > Leonard > > > > OS: ainda tenho que pensar como fazer webscrap desse htm, kkk > > > > > > > _______________________________________________ > R-br mailing list > [email protected] > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça > código mínimo reproduzível. > > > > _______________________________________________ > R-br mailing list > [email protected] > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça > código mínimo reproduzível. >
_______________________________________________ R-br mailing list [email protected] https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.
