Michael Grünstäudl (Gruenstaeudl), PhD

Few-liner: Batch download of DNA sequences from NCBI

The wonders of entrez

Today I found myself in need of a script to download dozens of DNA sequences submitted to NCBI Nucleotide. The sequences in questeion were stores in file input.txt.

$ cat input.txt
  Liriope_muscari_USACult,JX080424
  Dracaena_adamii_IVORYCOAST,JX080436
  ...

Here is how I did it:

$ INF=input.txt
$ for line in $(cat $INF); do
    SEQNAME=$(echo "$line" | awk -F',' '{print $1}')
    ACCNUM=$(echo "$line" | awk -F',' '{print $2}')
    FULLNAM=$(echo ">${SEQNAME}_${ACCNUM}")
    SEQ=$(esearch -db nucleotide -query "$ACCNUM" | efetch -format fasta | tail -n +2)
    echo -e "$FULLNAM\n$SEQ" >> out.txt
  done

Der Beitrag wurde am Tuesday, den 24. April 2018 um 20:46 Uhr von Michael Grünstäudl veröffentlicht und wurde unter bioinformatics, one-liners abgelegt. Sie können die Kommentare zu diesem Eintrag durch den RSS 2.0 Feed verfolgen. Sie können einen Kommentar schreiben, oder einen Trackback auf Ihrer Seite einrichten.

Freie Universität Berlin

Service-Navigation

Postdoctoral Researcher at the Freie Universität Berlin

Few-liner: Batch download of DNA sequences from NCBI

Leave a Reply

Archives