日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何下载一个物种的全部EST序列 | NCBI | 表达序列标签

發(fā)布時間:2024/4/14 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何下载一个物种的全部EST序列 | NCBI | 表达序列标签 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

EST:表達序列標簽,expressed sequence tags 。

顧名思義,很好理解,就是表達出來的序列,即從基因組DNA上表達出來的RNA,但是我們沒法測序RNA,所以我們最終測的是表達序列的cDNA片段。

“標簽”:就是指這些序列可能比較短,但是可以用來標定一個物種。

常見下載方式有兩種:

1. NCBI Web下載

https://www.ncbi.nlm.nih.gov/dbEST/

打開,搜索你要的物種,比如?Camellia ,可以看到結果EST (50287)。

Web下載幾個還行,想要批量下載就有點費力了,ncbi反爬蟲,也不好爬。

2. NCBI ftp下載

ftp://ftp.ncbi.nih.gov/repository/dbEST/

直接wget就可以批量下載了。

for one in `seq 1 81` do echo $one wget ftp://ftp.ncbi.nih.gov/repository/dbEST/dbEST.reports.000000.${one}.gz done  

下載后的文件格式是:

IDENTIFIERSdbEST Id: 5 EST name: EST00006 GenBank Acc: M61958 GDB Dsegment: D0S2525ECLONE INFO Clone Id: HHCSB86 Source: ATCC Id in host: 77063 DNA type: cDNAPRIMERS Sequencing: M13 Forward PolyA Tail: UnknownSEQUENCETGCACAACCAAGTTTTGTGACTACGGGAAGGCTCCCGGGGCAGAGGAGTACGCTCAACAAGATGTGTTAAAGAAATCTTACTCCAAGGCCTTCACGCTGACCATCTCTGCCCTCTTTGTGACACCCAAGACGACTGGGGCCCNGGTGGAGTTAAGCGAGCAGCAACTNCAGTTGTNGCCGAGTGATGTGGACAAGCTGTCACCCACTGACAEntry Created: May 26 1992 Last Updated: Dec 18 2012PUTATIVE ID Assigned by submitter2',3'-cyclic nucleotide phoshodiesteraseLIBRARY Id: LIBEST_000004 Lib Name: LIBEST_000004 Hippocampus, Stratagene (cat. #936205) Organism: Homo sapiens Vector: lambdaZAP-II Description: Female, 2 years; oligo-dT + random primed cDNA synthesis;

信息是挺全面的,自己想要哪個物種就只能自己提取了。

提取成FASTA的腳本我就不貼了(效率很重要,因為文件很大)。

?最后我還是自己寫了個腳本,biopython實在是太慢了。

import gzip inf = gzip.open("dbEST.reports.000000.49.gz","rb") raw_id = "" seq = ""for line in inf:if line.stratswith("GenBank Acc"):id = line.split(":")[1].strip() if line.stratswith("SEQUENCE"):seq = ""while True:rline = inf.readline()seq+=rline.strip()if not line.stratswith(" "):breakif line.stratswith("Organism"):organism = line.split(":")[1].strip()if organism.startswith("Camellia"):print(">"+id+" "+organism, seq, sep="\n")

  

我的腳本可以用,但是不一定很快。

我用awk試了很久,沒有成功。

?

2018年3月16日  

總結

以上是生活随笔為你收集整理的如何下载一个物种的全部EST序列 | NCBI | 表达序列标签的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。