Re: [DEBIAN] script para baixar dados

2010-10-13 Thread Humberto Araujo de Sousa
Não seria mais fácil fazer um robozinho no PHP ou no Java para baixar 
esses arquivos para você ?


Saudações,


Humberto Araujo de Sousa
humbe...@dontec.com.br
(62) 3223-0652
(62) 9299-7771

Em 13/10/2010 22:27, roberval.s...@gmail.com escreveu:

galera,


eu to me batendo para criar um script que baixe 'uma tonelada' de
arquivos PDF de um site, mas to apanhando horrores...

acontece que pelo site já abaixa automaticamente, quando se acessa a
página... eu não consigo "chegar lá"

exemplo:
estrando no navegador, se acesso a página:
http://www.in.gov.br/imprensa/visualiza/index.jsp?jornal=20&pagina=1&data=13/10/2010

ele automaticamente já baixa o arquivo.. da página 1

é preciso fazer isso várias vezes, (as vezes mais de 2000), mudando a
página para ter o arquivo completo...

ai no bash fiz vários testes... mas nenhum deles abre a página
'seguinte', que é o download 'automático'..


se alguém tiver uma dica de como fazer os downloads de uma 'tacada' só,
agradeço!!
DETALHE: ele sempre baixa o arquivo com o mesmo nome... teria que
renomear na hora de gravar...


[]s Sena







--
To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: http://lists.debian.org/4cb660bb.6020...@dontec.com.br



Re: [DEBIAN] script para baixar dados

2010-10-14 Thread Henry
Em Quarta-feira 13 Outubro 2010, às 22:27:18, roberval.s...@gmail.com escreveu:
> galera,
> 
> 
> eu to me batendo para criar um script que baixe 'uma tonelada' de
> arquivos PDF de um site, mas to apanhando horrores...
> 
> acontece que pelo site já abaixa automaticamente, quando se acessa a
> página...  eu não consigo "chegar lá"
> 
> exemplo:
> estrando no navegador, se acesso a página:
> http://www.in.gov.br/imprensa/visualiza/index.jsp?jornal=20&pagina=1&data=1
> 3/10/2010 ele automaticamente já baixa o arquivo.. da página 1
> 
> é preciso fazer isso várias vezes, (as vezes mais de 2000), mudando a
> página para ter o arquivo completo...
> 
> ai no bash fiz vários testes...  mas nenhum deles abre a página
> 'seguinte', que é o download 'automático'..
> 
> 
> se alguém tiver uma dica de como fazer os downloads de uma 'tacada' só,
> agradeço!!
> DETALHE: ele sempre baixa o arquivo com o mesmo nome... teria que
> renomear na hora de gravar...
> 
> 
> []s Sena


Veja se te ajuda... 

=
#!/bin/bash 
if [  $#  !=  2 ]  
  then echo -e "\n\nUso: $0 dd/mm/ NumeroJornal\n\n"
  exit 0
fi
DATA="$1"
JORNAL="$2"
TEMPO_MENOR="2"
TEMPO_MAIOR="8"
DATA_DIR=`echo "$DATA" | sed 's/\//_/g'`
ANO=`echo $DATA_DIR|cut -d_ -f3`
MES=`echo $DATA_DIR|cut -d_ -f2`
DIA=`echo $DATA_DIR|cut -d_ -f1`
DATA_DIR="$ANO"_"$MES"_"$DIA" 
mkdir -p "$DATA_DIR/$JORNAL" 
touch "$$cookie$$"
trap "rm -f $$cookie$$; exit" INT TERM EXIT
USER="Mozilla/5.0 (X11; U; Linux i686; pt-BR; rv:1.9.1.9) Gecko/20100501 
Iceweasel/3.5.9 (like Firefox/3.5.9)"
OPTS="--save-cookies=$$cookie$$ --load-cookies=$$cookie$$ 
--keep-session-cookies -c -q"
URLS=`wget $OPTS -U="$USER" 
"http://www.in.gov.br/visualiza/index.jsp?data=$DATA&jornal=$JORNAL&pagina=1"; 
-o /dev/null -O - | grep src `
CONTROLADOR=`echo "$URLS" | grep -i controlador| cut -d\" -f4`
ARQUIVOS=`echo "$CONTROLADOR"|sed 's/\&/\n/g' | grep totalArquivos|cut -d= -f2`
if [ -z "$ARQUIVOS" ] 
  then 
echo "Link inválido ou jornal inexistente ou data sem publicação. revise os 
links ou suas opções " 
exit 1
fi
PAGINA=0
for PAGINA in `seq 1 $ARQUIVOS`
do
segundos=0
while [ "$segundos" -le $TEMPO_MENOR ]
 do
   segundos=$RANDOM
   let "segundos %=$TEMPO_MAIOR"  
 done
URLS=`wget $OPTS -U="USER" 
"http://www.in.gov.br/visualiza/index.jsp?data=$DATA&jornal=$JORNAL&pagina=$PAGINA";
 -o /dev/null -O - | grep src`
CONTROLADOR=`echo "$URLS" | grep -i controlador| cut -d\" -f4`
VISUALIZADOR=`echo "$URLS" | grep -i visualizador| cut -d\" -f4`
ARQUIVOS=`echo "$CONTROLADOR"|sed 's/\&/\n/g' | grep totalArquivos|cut -d= -f2`
if [ -z "$ARQUIVOS" ]
   then
echo "Link inválido ou jornal inexistente ou data sem publicação. revise os 
links ou suas opções " 
 exit 1 
fi
REFERER="http://www.in.gov.br/visualiza/navegaJornalSumario.jsp?jornal=$JORNAL&pagina=$PAGINA&data=$DATA&totalArquivos=$ARQUIVOS";
wget $OPTS -U="USER" --referer="$REFERER" "$VISUALIZADOR" -O 
$DATA_DIR/$JORNAL/$PAGINA.pdf  
echo "$DATA_DIR/$JORNAL/$PAGINA.pdf pronto, aguardando $segundos segundos para 
a próxima página"
sleep $segundos
done 
=

[ ]'s, e divirta-se
Henry


-- 
To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: http://lists.debian.org/201010141804.39188.jmhenri...@yahoo.com.br



Re: [DEBIAN] script para baixar dados

2010-10-14 Thread erico dias
eu uso a extensão do firefox DownThemAll

2010/10/14 Henry 

> Em Quarta-feira 13 Outubro 2010, às 22:27:18, roberval.s...@gmail.comescreveu:
> > galera,
> >
> >
> > eu to me batendo para criar um script que baixe 'uma tonelada' de
> > arquivos PDF de um site, mas to apanhando horrores...
> >
> > acontece que pelo site já abaixa automaticamente, quando se acessa a
> > página...  eu não consigo "chegar lá"
> >
> > exemplo:
> > estrando no navegador, se acesso a página:
> >
> http://www.in.gov.br/imprensa/visualiza/index.jsp?jornal=20&pagina=1&data=1
> > 3/10/2010 ele automaticamente já baixa o arquivo.. da página 1
> >
> > é preciso fazer isso várias vezes, (as vezes mais de 2000), mudando a
> > página para ter o arquivo completo...
> >
> > ai no bash fiz vários testes...  mas nenhum deles abre a página
> > 'seguinte', que é o download 'automático'..
> >
> >
> > se alguém tiver uma dica de como fazer os downloads de uma 'tacada' só,
> > agradeço!!
> > DETALHE: ele sempre baixa o arquivo com o mesmo nome... teria que
> > renomear na hora de gravar...
> >
> >
> > []s Sena
>
>
> Veja se te ajuda...
>
> =
> #!/bin/bash
> if [  $#  !=  2 ]
>  then echo -e "\n\nUso: $0 dd/mm/ NumeroJornal\n\n"
>  exit 0
> fi
> DATA="$1"
> JORNAL="$2"
> TEMPO_MENOR="2"
> TEMPO_MAIOR="8"
> DATA_DIR=`echo "$DATA" | sed 's/\//_/g'`
> ANO=`echo $DATA_DIR|cut -d_ -f3`
> MES=`echo $DATA_DIR|cut -d_ -f2`
> DIA=`echo $DATA_DIR|cut -d_ -f1`
> DATA_DIR="$ANO"_"$MES"_"$DIA"
> mkdir -p "$DATA_DIR/$JORNAL"
> touch "$$cookie$$"
> trap "rm -f $$cookie$$; exit" INT TERM EXIT
> USER="Mozilla/5.0 (X11; U; Linux i686; pt-BR; rv:1.9.1.9) Gecko/20100501
> Iceweasel/3.5.9 (like Firefox/3.5.9)"
> OPTS="--save-cookies=$$cookie$$ --load-cookies=$$cookie$$
> --keep-session-cookies -c -q"
> URLS=`wget $OPTS -U="$USER" "
> http://www.in.gov.br/visualiza/index.jsp?data=$DATA&jornal=$JORNAL&pagina=1";
> -o /dev/null -O - | grep src `
> CONTROLADOR=`echo "$URLS" | grep -i controlador| cut -d\" -f4`
> ARQUIVOS=`echo "$CONTROLADOR"|sed 's/\&/\n/g' | grep totalArquivos|cut -d=
> -f2`
> if [ -z "$ARQUIVOS" ]
>  then
>echo "Link inválido ou jornal inexistente ou data sem publicação. revise
> os links ou suas opções "
>exit 1
> fi
> PAGINA=0
> for PAGINA in `seq 1 $ARQUIVOS`
> do
> segundos=0
> while [ "$segundos" -le $TEMPO_MENOR ]
>  do
>   segundos=$RANDOM
>   let "segundos %=$TEMPO_MAIOR"
>  done
> URLS=`wget $OPTS -U="USER" "
> http://www.in.gov.br/visualiza/index.jsp?data=$DATA&jornal=$JORNAL&pagina=$PAGINA";
> -o /dev/null -O - | grep src`
> CONTROLADOR=`echo "$URLS" | grep -i controlador| cut -d\" -f4`
> VISUALIZADOR=`echo "$URLS" | grep -i visualizador| cut -d\" -f4`
> ARQUIVOS=`echo "$CONTROLADOR"|sed 's/\&/\n/g' | grep totalArquivos|cut -d=
> -f2`
> if [ -z "$ARQUIVOS" ]
>   then
>echo "Link inválido ou jornal inexistente ou data sem publicação. revise
> os links ou suas opções "
> exit 1
> fi
> REFERER="
> http://www.in.gov.br/visualiza/navegaJornalSumario.jsp?jornal=$JORNAL&pagina=$PAGINA&data=$DATA&totalArquivos=$ARQUIVOS
> "
> wget $OPTS -U="USER" --referer="$REFERER" "$VISUALIZADOR" -O
> $DATA_DIR/$JORNAL/$PAGINA.pdf
> echo "$DATA_DIR/$JORNAL/$PAGINA.pdf pronto, aguardando $segundos segundos
> para a próxima página"
> sleep $segundos
> done
> =
>
> [ ]'s, e divirta-se
> Henry
>
>
> --
> To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org
> with a subject of "unsubscribe". Trouble? Contact
> listmas...@lists.debian.org
> Archive:
> http://lists.debian.org/201010141804.39188.jmhenri...@yahoo.com.br
>
>


Re: [DEBIAN] script para baixar dados

2010-10-14 Thread Henry
Em Quinta-feira 14 Outubro 2010, às 19:45:54, você escreveu:
> salve Henry,
> 
> Olha  matou a pau total...
> nossa  valeu mesmo!!
> Agora vou estudar muito esse script!!!   era justamente isso que eu
> procurava!
> só já tinha isso ai ou teve que fazer?
> 
> Mais uma vez obrigado a todos da lista pelos toques e dicas!
> 
> []s Sena
> 

De nada. Isso eu fiz rapidinho depois do serviço, vai me servir também. Para 
entender o funcionamento do in.gov.br eu tive a ajuda de uma extensão do 
firefox,  "live http headers". O resto foi apenas perfumaria de bash. 

[ ]'s, e divirta-se. 

Henry



-- 
To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: http://lists.debian.org/201010142145.44341.jmhenri...@yahoo.com.br



Re: [DEBIAN] script para baixar dados

2010-10-14 Thread Rodolfo
Ae, faz um script pra sacar dinheiro da minha conta sem sair de casa ? =D


hehehehebrincando.ficou muito show esse teu script...vo te chama de
henry "The script" man


flw



Em 14 de outubro de 2010 20:45, Henry  escreveu:

> Em Quinta-feira 14 Outubro 2010, às 19:45:54, você escreveu:
> > salve Henry,
> >
> > Olha  matou a pau total...
> > nossa  valeu mesmo!!
> > Agora vou estudar muito esse script!!!   era justamente isso que eu
> > procurava!
> > só já tinha isso ai ou teve que fazer?
> >
> > Mais uma vez obrigado a todos da lista pelos toques e dicas!
> >
> > []s Sena
> >
>
> De nada. Isso eu fiz rapidinho depois do serviço, vai me servir também.
> Para
> entender o funcionamento do in.gov.br eu tive a ajuda de uma extensão do
> firefox,  "live http headers". O resto foi apenas perfumaria de bash.
>
> [ ]'s, e divirta-se.
>
> Henry
>
>
>
> --
> To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org
> with a subject of "unsubscribe". Trouble? Contact
> listmas...@lists.debian.org
> Archive:
> http://lists.debian.org/201010142145.44341.jmhenri...@yahoo.com.br
>
>


Re: [DEBIAN] script para baixar dados

2010-10-15 Thread Rodolfo
Ei mano, tem como me explicar que essa extensão do firefox faz ? nunca
baixei ela


Vlw

Em 14 de outubro de 2010 21:06, Rodolfo  escreveu:

> Ae, faz um script pra sacar dinheiro da minha conta sem sair de casa ? =D
>
>
> hehehehebrincando.ficou muito show esse teu script...vo te chama de
> henry "The script" man
>
>
> flw
>
>
>
> Em 14 de outubro de 2010 20:45, Henry  escreveu:
>
> Em Quinta-feira 14 Outubro 2010, às 19:45:54, você escreveu:
>> > salve Henry,
>> >
>> > Olha  matou a pau total...
>> > nossa  valeu mesmo!!
>> > Agora vou estudar muito esse script!!!   era justamente isso que eu
>> > procurava!
>> > só já tinha isso ai ou teve que fazer?
>> >
>> > Mais uma vez obrigado a todos da lista pelos toques e dicas!
>> >
>> > []s Sena
>> >
>>
>> De nada. Isso eu fiz rapidinho depois do serviço, vai me servir também.
>> Para
>> entender o funcionamento do in.gov.br eu tive a ajuda de uma extensão do
>> firefox,  "live http headers". O resto foi apenas perfumaria de bash.
>>
>> [ ]'s, e divirta-se.
>>
>> Henry
>>
>>
>>
>> --
>> To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org
>> with a subject of "unsubscribe". Trouble? Contact
>> listmas...@lists.debian.org
>> Archive:
>> http://lists.debian.org/201010142145.44341.jmhenri...@yahoo.com.br
>>
>>
>


Re: [DEBIAN] script para baixar dados

2010-10-15 Thread Helio Loureiro
> De nada. Isso eu fiz rapidinho depois do serviço, vai me servir também. Para
> entender o funcionamento do in.gov.br eu tive a ajuda de uma extensão do
> firefox,  "live http headers". O resto foi apenas perfumaria de bash.
>

Não conhecia.  Já baixei aqui e dei uma testada.  Mto bom mesmo.

Valeu pela dica.

[]´s
Helio Loureiro
http://helio.loureiro.eng.br
http://hloureiro.multiply.com
http://twitter.com/helioloureiro


--
To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: 
http://lists.debian.org/aanlktikkmmopng5+vjaabmjamkm2nrw-=ktanb7_7...@mail.gmail.com



Res: Re: [DEBIAN] script para baixar dados

2010-10-15 Thread jmhenrique
Ola. 
Ela mostra para voce tudo o que entra e sai do navegador a cada requisicao, 
valores de headers e inclusive permite que voce injete valores para testes e 
analise o comportamento do procedimento que voce esta realizando. 


[]'s, 
Henry 

Enviado pelo meu aparelho BlackBerry®

-Original Message-
From: Rodolfo 
Date: Fri, 15 Oct 2010 18:06:44 
To: Henry
Cc: debian-user-portuguese
Subject: Re: [DEBIAN] script para baixar dados

Ei mano, tem como me explicar que essa extensão do firefox faz ? nunca
baixei ela


Vlw

Em 14 de outubro de 2010 21:06, Rodolfo  escreveu:

> Ae, faz um script pra sacar dinheiro da minha conta sem sair de casa ? =D
>
>
> hehehehebrincando.ficou muito show esse teu script...vo te chama de
> henry "The script" man
>
>
> flw
>
>
>
> Em 14 de outubro de 2010 20:45, Henry  escreveu:
>
> Em Quinta-feira 14 Outubro 2010, às 19:45:54, você escreveu:
>> > salve Henry,
>> >
>> > Olha  matou a pau total...
>> > nossa  valeu mesmo!!
>> > Agora vou estudar muito esse script!!!   era justamente isso que eu
>> > procurava!
>> > só já tinha isso ai ou teve que fazer?
>> >
>> > Mais uma vez obrigado a todos da lista pelos toques e dicas!
>> >
>> > []s Sena
>> >
>>
>> De nada. Isso eu fiz rapidinho depois do serviço, vai me servir também.
>> Para
>> entender o funcionamento do in.gov.br eu tive a ajuda de uma extensão do
>> firefox,  "live http headers". O resto foi apenas perfumaria de bash.
>>
>> [ ]'s, e divirta-se.
>>
>> Henry
>>
>>
>>
>> --
>> To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org
>> with a subject of "unsubscribe". Trouble? Contact
>> listmas...@lists.debian.org
>> Archive:
>> http://lists.debian.org/201010142145.44341.jmhenri...@yahoo.com.br
>>
>>
>



Re: Re: [DEBIAN] script para baixar dados

2010-10-15 Thread Rodolfo
Poshow de bola então, valeu  pela informação.


T+

Em 15 de outubro de 2010 18:11,  escreveu:

> Ola.
> Ela mostra para voce tudo o que entra e sai do navegador a cada requisicao,
> valores de headers e inclusive permite que voce injete valores para testes e
> analise o comportamento do procedimento que voce esta realizando.
>
>
> []'s,
> Henry
>
> Enviado pelo meu aparelho BlackBerry®
> --
>  *From: *Rodolfo 
> *Date: *Fri, 15 Oct 2010 18:06:44 -0400
> *To: *Henry
> *Cc: *debian-user-portuguese
> *Subject: *Re: [DEBIAN] script para baixar dados
>
> Ei mano, tem como me explicar que essa extensão do firefox faz ? nunca
> baixei ela
>
>
> Vlw
>
> Em 14 de outubro de 2010 21:06, Rodolfo  escreveu:
>
>> Ae, faz um script pra sacar dinheiro da minha conta sem sair de casa ? =D
>>
>>
>> hehehehebrincando.ficou muito show esse teu script...vo te chama
>> de henry "The script" man
>>
>>
>> flw
>>
>>
>>
>> Em 14 de outubro de 2010 20:45, Henry  escreveu:
>>
>>
>> Em Quinta-feira 14 Outubro 2010, às 19:45:54, você escreveu:
>>> > salve Henry,
>>> >
>>> > Olha  matou a pau total...
>>> > nossa  valeu mesmo!!
>>> > Agora vou estudar muito esse script!!!   era justamente isso que eu
>>> > procurava!
>>> > só já tinha isso ai ou teve que fazer?
>>> >
>>> > Mais uma vez obrigado a todos da lista pelos toques e dicas!
>>> >
>>> > []s Sena
>>> >
>>>
>>> De nada. Isso eu fiz rapidinho depois do serviço, vai me servir também.
>>> Para
>>> entender o funcionamento do in.gov.br eu tive a ajuda de uma extensão do
>>> firefox,  "live http headers". O resto foi apenas perfumaria de bash.
>>>
>>> [ ]'s, e divirta-se.
>>>
>>> Henry
>>>
>>>
>>>
>>> --
>>> To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org
>>> with a subject of "unsubscribe". Trouble? Contact
>>> listmas...@lists.debian.org
>>> Archive:
>>> http://lists.debian.org/201010142145.44341.jmhenri...@yahoo.com.br
>>>
>>>
>>
>