Re: [Rio-pm] [HELP] Download
Ajudou muito, não conhecia o Entrez. Obrigado. From: leprevos...@gmail.com To: rio-pm@pm.org Date: Thu, 6 Nov 2014 08:27:54 -0200 Subject: Re: [Rio-pm] [HELP] Download Oi Aureliano, Não sei se você já ouviu falar do NCBI Entrez Direct ou se já o utilizou alguma vez, ams nesse caso acredito que ele possa ser mais útil. O Entrez Direct é um conjunto de scripts bash e Perl que o NCBI forneceu para que quisesse realizar algum tipo de acesso mais "avançado" aos seus bancos de dados, e de forma programática. veja aqui mais informações sobre o Entrez Direct: http://www.ncbi.nlm.nih.gov/books/NBK179288/ Bom, vamos ao seu problema agora; O que você está querendo fazer é baixar pelo terminal uma sequencia do banco de nucleotídeos certo? De acordo com a documentação do Entrez Direct você vai precisar usar o seguinte comando: ./esearch -db nucleotide -query "AL123456 [ACN]" | ./efetch -format fasta O eDirect funciona encadeando os scripts, nesse caso eu estou usando 2 deles, o esearch para a busca e o efetch para o download. Você pode ver na página do livro (o link que passei acima) todos os parâmetros que existem, da pra fazer muita coisa com esses scripts deles. Então, para salvar em um arquivo a sequencia do genoma basta direcionar o comando acima: ./esearch -db nucleotide -query "AL123456 [ACN]" | ./efetch -format fasta > genome.fa e pronto, seu genoma foi baixado e salvo. Espero que dessa forma você consiga contornar o problema que lhe impedia de usar o wget ou o ftp para o download. abraços On 05-11-2014 23:57, Aureliano Guedes wrote: Ola Monges, tenho uma dúvida que talvez seja um pouco específica, provavelmente voltada para bioinformatas. Bom precisava fazer o download desse arquivo (http://www.ncbi.nlm.nih.gov/nuccore/AL123456.3?report=fasta&log$=seqview). Só que não posso fazer de qualquer forma, precisava que fosse um script executando o wget ou ftp. O problema é fazer o download através do wget que estou com dificuldade. Seria basicamente um 'system 'wget .'' só não estou sabendo como fazer. Alguém aqui poderia me ajudar com o wget? No final, só preciso gerar um arquivo no formato fasta. Ex: >gi|444893469|emb|AL123456.3| Mycobacterium tuberculosis H37Rv complete genome TTGACCGATGAGGTTCAGGCTTCACCACAGTGTGGAACGCGGTCGTCTCCGAACTTAACGGCGACC CTAAGGTTGACGACGGACCCAGCAGTGATGCTAATCTCAGCGCTCCGCTGATCAGCAAAGGGCTTG GCTCAATCTCGTCCAGCCATTGACCATCGTCGATTTGCTCTGTTATCCGTGCCGAGCAGCTTTGTC CCGAAATCGAGCGCCATCTGCGGGGATTACCGACGCTCTCAGCCGCCGACTCGGACATCAGA ___ Rio-pm mailing list Rio-pm@pm.org http://mail.pm.org/mailman/listinfo/rio-pm -- Felipe da Veiga Leprevost, PhD. www.leprevost.com.br Laboratory for Proteomics and Protein Engineering. Fiocruz, Brazil. -- Felipe ___ Rio-pm mailing list Rio-pm@pm.org http://mail.pm.org/mailman/listinfo/rio-pm ___ Rio-pm mailing list Rio-pm@pm.org http://mail.pm.org/mailman/listinfo/rio-pm
Re: [Rio-pm] [HELP] Download
Oi Aureliano, Não sei se você já ouviu falar do NCBI Entrez Direct ou se já o utilizou alguma vez, ams nesse caso acredito que ele possa ser mais útil. O Entrez Direct é um conjunto de scripts bash e Perl que o NCBI forneceu para que quisesse realizar algum tipo de acesso mais "avançado" aos seus bancos de dados, e de forma programática. veja aqui mais informações sobre o Entrez Direct: http://www.ncbi.nlm.nih.gov/books/NBK179288/ Bom, vamos ao seu problema agora; O que você está querendo fazer é baixar pelo terminal uma sequencia do banco de nucleotídeos certo? De acordo com a documentação do Entrez Direct você vai precisar usar o seguinte comando: ./esearch -db nucleotide -query "AL123456 [ACN]" | ./efetch -format fasta O eDirect funciona encadeando os scripts, nesse caso eu estou usando 2 deles, o esearch para a busca e o efetch para o download. Você pode ver na página do livro (o link que passei acima) todos os parâmetros que existem, da pra fazer muita coisa com esses scripts deles. Então, para salvar em um arquivo a sequencia do genoma basta direcionar o comando acima: ./esearch -db nucleotide -query "AL123456 [ACN]" | ./efetch -format fasta > genome.fa e pronto, seu genoma foi baixado e salvo. Espero que dessa forma você consiga contornar o problema que lhe impedia de usar o wget ou o ftp para o download. abraços On 05-11-2014 23:57, Aureliano Guedes wrote: > Ola Monges, > > tenho uma dúvida que talvez seja um pouco específica, provavelmente voltada para bioinformatas. > > Bom precisava fazer o download desse arquivo (http://www.ncbi.nlm.nih.gov/nuccore/AL123456.3?report=fasta&log$=seqview). > > Só que não posso fazer de qualquer forma, precisava que fosse um script executando o wget ou ftp. > > O problema é fazer o download através do wget que estou com dificuldade. > > Seria basicamente um 'system 'wget .'' só não estou sabendo como fazer. > > Alguém aqui poderia me ajudar com o wget? > > No final, só preciso gerar um arquivo no formato fasta. > > Ex: > >gi|444893469|emb|AL123456.3| Mycobacterium tuberculosis H37Rv complete genome TTGACCGATGAGGTTCAGGCTTCACCACAGTGTGGAACGCGGTCGTCTCCGAACTTAACGGCGACC CTAAGGTTGACGACGGACCCAGCAGTGATGCTAATCTCAGCGCTCCGCTGATCAGCAAAGGGCTTG GCTCAATCTCGTCCAGCCATTGACCATCGTCGATTTGCTCTGTTATCCGTGCCGAGCAGCTTTGTC CCGAAATCGAGCGCCATCTGCGGGGATTACCGACGCTCTCAGCCGCCGACTCGGACATCAGA > > > > > ___ Rio-pm mailing list > Rio-pm@pm.org http://mail.pm.org/mailman/listinfo/rio-pm -- Felipe da Veiga Leprevost, PhD. www.leprevost.com.br Laboratory for Proteomics and Protein Engineering. Fiocruz, Brazil. -- Felipe ___ Rio-pm mailing list Rio-pm@pm.org http://mail.pm.org/mailman/listinfo/rio-pm
Re: [Rio-pm] [HELP] Download
Com o comando wget para pegar somente o conteudo do site ficaria assim: wget -q -O - http://www.ncbi.nlm.nih.gov/nuccore/AL123456.3?report=fasta&log$=seqview&format=text e para pegar o resultado com o perl: perl -E 'say qx{wget -q -O - http://www.ncbi.nlm.nih.gov/nuccore/AL123456.3?report=fasta&log$=seqview&format=text }' O problema é que este texto é carregado sempre dinamicamente através de um javascript. Se você não tiver o link para acesso direto a este conteúdo vai ficar complicado de baixar. Abraço, *Daniel Vinciguerra (@dvinciguerra)* Web solution architect, perl dev, vegetarian, geek and co-founder at *Bivee* bivee.com.br - github.com/Bivee 2014-11-05 23:57 GMT-02:00 Aureliano Guedes : > Ola Monges, > > tenho uma dúvida que talvez seja um pouco específica, provavelmente > voltada para bioinformatas. > > Bom precisava fazer o download desse arquivo ( > http://www.ncbi.nlm.nih.gov/nuccore/AL123456.3?report=fasta&log$=seqview). > > Só que não posso fazer de qualquer forma, precisava que fosse um script > executando o wget ou ftp. > > O problema é fazer o download através do wget que estou com dificuldade. > > Seria basicamente um 'system 'wget .'' só não estou sabendo como fazer. > > Alguém aqui poderia me ajudar com o wget? > > No final, só preciso gerar um arquivo no formato fasta. > > Ex: > >gi|444893469|emb|AL123456.3| Mycobacterium tuberculosis H37Rv complete > genome > TTGACCGATGAGGTTCAGGCTTCACCACAGTGTGGAACGCGGTCGTCTCCGAACTTAACGGCGACC > CTAAGGTTGACGACGGACCCAGCAGTGATGCTAATCTCAGCGCTCCGCTGATCAGCAAAGGGCTTG > GCTCAATCTCGTCCAGCCATTGACCATCGTCGATTTGCTCTGTTATCCGTGCCGAGCAGCTTTGTC > CCGAAATCGAGCGCCATCTGCGGGGATTACCGACGCTCTCAGCCGCCGACTCGGACATCAGA > > > > ___ > Rio-pm mailing list > Rio-pm@pm.org > http://mail.pm.org/mailman/listinfo/rio-pm > ___ Rio-pm mailing list Rio-pm@pm.org http://mail.pm.org/mailman/listinfo/rio-pm
[Rio-pm] [HELP] Download
Ola Monges, tenho uma dúvida que talvez seja um pouco específica, provavelmente voltada para bioinformatas. Bom precisava fazer o download desse arquivo (http://www.ncbi.nlm.nih.gov/nuccore/AL123456.3?report=fasta&log$=seqview). Só que não posso fazer de qualquer forma, precisava que fosse um script executando o wget ou ftp. O problema é fazer o download através do wget que estou com dificuldade. Seria basicamente um 'system 'wget .'' só não estou sabendo como fazer. Alguém aqui poderia me ajudar com o wget? No final, só preciso gerar um arquivo no formato fasta. Ex: >gi|444893469|emb|AL123456.3| Mycobacterium tuberculosis H37Rv complete genome TTGACCGATGAGGTTCAGGCTTCACCACAGTGTGGAACGCGGTCGTCTCCGAACTTAACGGCGACC CTAAGGTTGACGACGGACCCAGCAGTGATGCTAATCTCAGCGCTCCGCTGATCAGCAAAGGGCTTG GCTCAATCTCGTCCAGCCATTGACCATCGTCGATTTGCTCTGTTATCCGTGCCGAGCAGCTTTGTC CCGAAATCGAGCGCCATCTGCGGGGATTACCGACGCTCTCAGCCGCCGACTCGGACATCAGA ___ Rio-pm mailing list Rio-pm@pm.org http://mail.pm.org/mailman/listinfo/rio-pm