GenBank格式
一級蛋白質和核酸數據庫在分子生物學界是如此的司空見慣,以致于我們很少會去考慮這些普遍存在的工具是如何建立的。但是如果我們能夠了解這些序列是如何匯集到一起的,這將有助于我們加深對生物學的理解,并且能夠更加充分地發掘這些記錄中蘊藏的信息。
GenBank是美國國立衛生研究院維護的基因序列數據庫,匯集并注釋了所有公開的核酸以及蛋白質序列。每個記錄代表了一個單獨的、連續的、帶有注釋的DNA或RNA片段。這些文件按類別分為幾組:有些按照系統發生學劃分,另外一些則按照生成這些序列數據的技術方法劃分。目前GenBank中所有的記錄均來自于最初作者向DNA序列數據庫的直接提交。這些作者將序列數據作為論文的一部分來發表,或將數據直接公開。GenBank由位于馬里蘭州Bethesda的美國國立衛生研究院下屬國立生物技術信息中心建立,與日本DNA數據庫(DDBJ)以及歐洲生物信息研究院的歐洲分子生物學實驗室核苷酸數據庫(EMBL)一起,都是國際核苷酸序列數據庫合作的成員。所有這三個中心都可以獨立地接受數據提交,而三個中心之間則逐日交換信息,并制作相同的充分詳細的數據庫向公眾開放(雖然格式上有細微的差別,并且所使用的信息系統也略有不同)。
這一章描述GenBank數據庫是如何構成的,它如何與蛋白質數據庫相銜接,以及如何解釋其中的數據成分。關于序列數據庫,前人已經作了大量的工作,具體可參見(Schuleret al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; Georgeet al., 1997; Stoesser et al., 1997; Tateno et al., 1997)。所有這些論文都指出了數據庫快速增長的趨勢,并對如何利用這些生物學資源提出了建議。出于科學研究的考慮,以及由于歷史的原因,序列數據被分別存放在核苷酸和蛋白質數據庫中。核苷酸序列是查詢核苷酸數據庫以及蛋白質數據庫時的主要出發點,并且目前有一種趨勢,將核苷酸數據庫介入到蛋白質數據庫的管理之中(正如我們下面將要看到的那樣)。這并不奇怪,因為數據庫維護者與數據提交者之間的直接通訊將有利于保證數據的真實性與準確性(提交者需要一個檢索號,并且他們想要得到他們添加到數據庫中的新記錄)。在很多情況下,這種對數據的關注意味著提供適當的信息來注釋CDS(coding sequence:編碼序列),并告訴我們如何得到翻譯產物。這種對蛋白質和核酸序列統一管理的傾向也明顯地體現在NCBI的Entrez之中,在GenBank的管理之中,以及在GenPept格式記錄的生成過程之中。在歐洲,EBI的工作人員統一維護管理Swiss-Prot和TREMBL,這些工作人員也負責EMBL核苷酸數據庫的管理工作。還有Amos Bairoch和他在日內瓦大學的研究組。(見本章后的列表)。盡管如此,建立核苷酸和蛋白質數據庫的初衷還是有區別的。本章還初步討論了將在第六章詳細描述的數據模型。這一章主要是從GenBank flatfile的角度介紹序列數據,但必須明確的是,“flatfile”(不論是GenBank, EMBL, Swiss-Prot或PIR),都只是ASN.1報告的一個方面。而ASN.1才是代表了NCBI數據模型的語言。GenBank以DNA為核心,包含了許多計算生物學資源。
歷史上,蛋白質數據庫先于核苷酸數據庫。在60年代初,Dayhoff和他的同事們收集了所有當時已知的氨基酸序列,這就是“蛋白質序列與結構圖冊”(Dayhoff et al., 1965)。這一蛋白質數據庫后來成為PIR(George et al., 1997)。這本書為今天整個生物信息學界日常工作所依賴的計算生物學資源播下了種子。這個在1965年可以很容易地存放在一張軟盤上的數據集(盡管那時并不存在軟盤這種存儲介質),是一小群人多年的工作成果。今天,任何一個DNA或蛋白質數據庫每天增加的數據量都數倍于此。最早的DNA序列數據庫于1982年在歐洲分子生物學實驗室誕生,隨即就開始了一個數據庫爆炸的時代。(見圖2.1)。R. Cook-Deegan(1993)在《基因戰爭》中詳細描述了這一時期人類基因組計劃的歷史。此后不久因一項NIH與洛斯阿拉莫斯國家實驗室的合同而誕生了GenBank。兩個中心都致力于發展輸入方式,這主要是將學術刊物上公開發表的論文轉換為更適合計算機使用的電子格式。日本的DNA數據庫(DDBJ),在幾年后加入了數據收集的合作。在1988年一次三方會議之后(現在稱之為“國際DNA序列數據庫合作計劃”)達成了一項協議,對數據庫的記錄采用共同的格式,并且每個數據庫只負責更新提交到這一數據庫的那些數據。現在三個中心都收集直接提交的數據,并在三者之間發布。這樣,任何一個中心都擁有并發布所有的序列數據。這種方式下每條記錄只被生成這條記錄的數據庫所擁有,也就是說只有生成這條記錄的數據庫可以對記錄進行更新,這就防止了“更新沖突”。否則如果每個數據庫都可以修改任一條記錄,并覆蓋其他數據庫的數據,就必定會發生錯誤。近年來的安排保證了沒有一個數據庫可以覆蓋其他數據庫更新的記錄。所有的序列數據庫也都是計算生物學中心,并且越發表明序列數據不能簡單地由自動化方式來生成。每個數據庫都成為了一個中心,在那里生成序列數據,并由生物學家進行驗證,同時還開發一些利用這些信息的工具(例如NCBI的Entrez,見第5章,以及EBI現在正在開發的SRS)。很明顯的一點是一些專職的,介入到收集數據、提供發現與檢索工具,并且作為研究機構來研究新算法、發掘公共數據庫并在最高水平進行科學活動的機構將能夠最大限度地服務于用戶群體。在這一環境下,知識被最高效率地獲取與共享,并且新的研究與理解這樣大量數據的方法也不斷涌現。
這一章的著重介紹GenBank核苷酸數據庫,GenBank是包含了三個重要蛋白質數據庫(Swiss-Prot, PIR和PDB)的一系列數據庫中的一個。這一系列數據庫中的每一個都對數據庫現在和將來的使用方法產生了或產生過重大影響。PDB是關于核酸和蛋白質結構的數據庫,將在第三章中詳細介紹。Swiss-Prot和PIR可以稱為二級數據庫,它比已經存在于一級數據庫中的數據提供了更多的信息。Swiss-Prot和PIR中的蛋白質序列主要來源于核苷酸數據庫,另外一小部分是直接向Swiss-Prot提交的(這些蛋白質是直接測序的)或者是從公開發表的論文中搜索到的。這里沒有詳細討論這些情況,我們建議讀者通過其他途徑了解更多的詳情(Bairoch and Apweiller, 1997; George et al., 1997)。
需要注意的是,如同在第六章和第十四章中一樣,這里的“GenBank”指的是DDBJ/EMBL/GenBank。DDBJ和EMBL核苷酸數據庫與GenBank緊密合作,逐日交換數據。他們從不同的地點,用不同的格式發布同樣的信息。他們也都是提供其他數據、工具和服務的研究機構。這些雖然從理論上是無關的活動,但實際上很難分開。例如,Entrez(見第5章)是NCBI的一個計劃,它包含了GenBank數據在其中。但Entrez和GenBank(都是NCBI的產品)從本質上是不同的,前者是一個信息檢索系統,而后者是一個Entrez從中進行檢索的數據庫。
一級和二級數據庫
一級和二級數據庫之間存在著本質的差別。序列數據庫對科學界最重要的貢獻就是這些序列本身。一級數據庫記錄了實驗結果,以及一些初步的解釋。而更進一步分析工作的結論只能從二級數據庫中查找到。一級數據庫中的核苷酸序列記錄是從直接實驗得到的,這些記錄是對存在于某個實驗室的試管中的生物分子測序的結果。它們不代表共有序列(雖然是多次讀取同一克隆,或相同的基因來源),它們也不代表一些計算機生成的字符串。這在序列分析的解釋中很重要,也意味著在大多數情況下一個給定的序列就是研究者所需要的全部。每一個這樣的DNA或RNA序列都將被注釋以描述對實驗結果的分析,這一分析闡明了為什么這一序列會被這樣確定。
在DNA序列記錄中的一種常見的注釋是編碼序列(CDS)。大多數蛋白質序列都不是直接由實驗確定的,而是通過DNA序列得到的。這在實驗、計算以及相似性比對工作中占有很大的比重。這并行于賦予一個產物名稱,或者功能說明(通過對相似性比對的分析)。這一方法很有效,但也有誤導的可能。DNA,RNA和蛋白質序列都是計算分析工作的對象,它們是一級數據庫中有價值的成分。
那些在DNA序列記錄的基礎上進行計算、分析或其他工作的研究者通常認為他們所處理的是原始信息。但是在很多情況下,氨基酸序列從某種程度上說是解釋的結果,而并非是直接測序得到的。這樣,在使用和說明由這些序列得到的結果時就需要格外小心。由mRNA序列數據推導出蛋白質序列通常并不難,但必須選擇正確的啟始編碼子。對于原核生物或低等真核生物序列的注釋通常相對簡單,但研究者同樣需要注意避免缺少注釋或增加不必要的注釋。(見第10章以及Cannon et al., 1997)。將序列標記為CDS通常需要格外小心,因為這是蛋白質數據庫全自動或半自動生成的開始步驟。
格式與內容:計算機與人
數據庫被用來存放原始數據,以及一系列附加的注釋。不同的檢索工具和程序利用了這些信息中的不同部分。縱觀各種格式,我們可以發現其中應用了一些共同的規則,以使得多種情況下在不同格式之間生成和交換數據成為可能。最便于人閱讀的格式對計算機程序來講很可能并非是最有效率的(例如GenBank flatfile,見附錄2.1和2.2,這是一種人可以閱讀的ASN.1版本)。這些記錄還有二進代碼版,更加緊湊,計算機處理也更快。但不幸的是,由于歷史的原因,對一種固定格式的頻繁使用使得引入另一種格式極為困難,盡管新的格式可能更加富含信息,更加準確,易于復制和計算,易于抽取信息,易于使用。(但我們并未放棄嘗試,見第3、6、14章)。GBFF的簡單性,使我們都可以獲得易用的工具,這也是EMBL和GBFF極大通用性的重要原因。
作為最簡單的格式,一個DNA序列可以表示為一個帶有一些標記的核苷酸字符串。這里是一個以FASTA(或Pearson格式)文件表示的核苷酸序列數據:
>L04459
*******************
或同樣的,一個蛋白質記錄:
>P31373
*******************
FASTA格式廣泛應用于許多分子生物學軟件包之中。作為最簡單的情況(正如上面所顯示的),大于號(>)表示一個新文件的開始。標記符
轉載于:https://www.cnblogs.com/frostbelt/archive/2010/07/26/1785508.html
總結
- 上一篇: 开通CSDN博客的第一篇文章以及博客名的
- 下一篇: stm32f0 大小端_STM32F0系