宏基因组大数据分析的质量控制流程规范
宏基因組大數據分析的質量控制流程規范
鄭廣勇1,楊楨1,曹瑞芳1,劉婉2,李亦學1,2,張國慶1,2
1. 中國科學院上海生命科學研究院生物醫學大數據中心,上海 200031
2. 上海生物信息技術研究中心,上海 201203
摘要:宏基因組數據具有數據量大、復雜度高的特點,從數據類型來看,其涵蓋了元數據和測序數據。為了保證宏基因組數據后續功能分析的有效性和正確性,需要對這些元數據和測序數據進行嚴格的質量控制檢測。詳細描述了宏基因組數據的質量控制流程,包括元數據和測序數據的信息檢查、低質量片段的過濾等過程,從而為宏基因組數據分析提供了預處理的規范,這將為微生物組大數據分析提供堅實的基礎。
關鍵詞:微生物組;宏基因組;大數據分析;二代測序;質量控制
doi:10.11959/j.issn.2096-0271.2018025
論文引用格式:鄭廣勇, 楊楨, 曹瑞芳, 等. 宏基因組大數據分析的質量控制流程規范[J]. 大數據, 2018, 4(3): 3-12.
ZHENG G Y, YANG Z, CAO R F, et al. Quality control of big data analysis for metagenomics[J]. Big Data Research, 2018, 4(3): 3-12.
1? 引言
近年來,隨著二代測序技術及各種高通量組學技術的快速發展,生物醫學研究進入大數據時代。實驗技術和信息技術的發展,使生物醫學數據開始從萬億字節的TB級躍升到千萬億字節的EB級,引發了后基因組時代的生物醫學研究的深刻變革。生物醫學研究已經從第一范式的實驗科學,或快或慢地進入第二范式理論科學、第三范式計算科學,直到最新的第四范式數據密集型科學。數據質量對大數據分析與挖掘的價值日益凸顯。目前,測序能力的提升極大地推動了包括微生物組學在內的各種組學的快速發展,進而催生了大量以微生物為主要研究對象的國際合作項目,使得微生物組和微生物系統組成為生物醫學大數據的重點研究方向之一。微生物組是指存在于特定環境或生態系統中的微生物以及它們攜帶的遺傳信息和生物學功能的總和[1]。微生物組與人類健康有極為重要的關系,人體微生物組由數百至數千種不同的微生物組成,其細胞總數可達數萬億之多,數量遠超人體自身細胞數量,其中獨特的微生物基因數量多達2 000萬個,數目遠遠超過人的基因數目(大約 2.5 萬個)。通過對人體微生物組進行研究,可以解析人類健康、營養、代謝等方面的科學問題。
2 ?國內外相關研究
目前,宏基因組(metagenome)技術是微生物組研究的重要手段之一,該技術利用基因組學策略研究特定環境樣品中包含的全部微生物的遺傳組成及其功能模式 [2]。宏基因組技術直接從環境樣品中提取DNA樣本,避開了傳統的微生物分離培養方法,為研究和利用占微生物種類99%以上的不可培養的微生物提供了一種新的途徑和良好的策略。近年來,高通量測序技術的快速發展為微生物表型及其遺傳機制的探索提供了新的技術方案[3]。宏基因組技術在農業、林業、環保、醫藥等領域都有著廣泛的應用,提供了豐富的人體、動植物、各類環境的科學研究數據[4-8]。2005年以來,以國際宏基因組聯盟為代表的微生物組研究計劃帶動了很多國家的相關研究,例如美國的人類微生物組計劃(Human Microbiome Project, HMP)[9]和歐盟的人類腸道微生物聯盟(Metagenomics of the Human Intestinal Tract Consortium,MetaHIT)[10]。這些項目的實施,推動了數據庫和數據挖掘等基礎研究工作的開展,并對相關數據標準與質量控制等提出了新的要求。相對傳統組學數據而言,宏基因組測序數據量大、涉及的微生物基因組復雜度高,而且可能存在大量未知物種,傳統的基于單一組學或單一物種的分析方法無法直接應用于宏基因組研究,針對宏基因組數據的采集、整理、存儲以及后續研究分析等仍缺乏統一的規范。因此,宏基因組研究急需建立一套涵蓋樣本信息以及測序數據采集、整理、存儲、交換、分析的數據規范與標準。從數據流程看,宏基因組的分析過程包括元數據和測序數據質量控制、微生物群落組成分析、群落功能生態分析、菌群差異功能分析等步驟(如圖1所示)。其中,元數據和測序數據質量控制是后續一系列分析的基礎,直接影響整個分析的完整性和正確性,因而在整個數據分析過程中具有十分重要的意義。本文對宏基因組研究中的元數據及測序數據的預處理過程中的相關質量控制標準進行了簡要探討,從而為宏基因組數據分析提供支撐。
圖1 宏基因組數據主要分析流程
3 ?宏基因組數據質量控制
宏基因組的測序數據具有數據量大、復雜度高的特點,其數據分析有一些特定的要求,具體而言主要有以下幾個方面。
● 宏基因組研究中樣本收集、存儲、運輸等信息都對微生物菌群差異分析有重要影響,因此需要在元數據中記錄這些信息,并在質量控制流程中對元數據和測序數據進行一致性檢查,以保證后續分析的正確性。
● 宏基因組研究通常依賴二代或三代測序技術,其測序速度比一代測序技術有顯著提升,但其測序長度及準確度卻有所下降,因此在宏基因組數據質量控制流程中必須對數據進行去噪、剔除接頭、切除無效序列等操作,以保證結果的可靠性。
● 與宿主相關的微生物樣品測序結果中通常包含一定數量的宿主基因片段,這些片段會對后續的微生物菌群分析產生干擾,因此在宏基因組數據質量控制流程中必須去除這些宿主基因片段,以保證后續分析的有效性。
● 需要對樣本的測序深度進行一定的評估,從而保證不同分組樣本差異分析的需求。
筆者在長期的微生物組大數據分析過程中,根據宏基因組的數據特點和數據分析的要求,提出了一套完整的數據質量控制流程(如圖2所示),具體包括:元數據和測序數據的一致性檢查、測序數據的質量檢測、低質量測序序列的過濾及切除、接頭序列及無關序列的剔除、宿主及污染序列的過濾、混合樣本的數據分割、樣本菌群的組成分析、不同分組樣本的主坐標分析(principal coordinate analysis,PCoA)這8個步驟,下面將對這些步驟進行詳細論述。
圖2 宏基因組數據質量控制流程
3.1 元數據和測序數據的一致性檢查
元數據是對數據進行描述的數據(data about data),主要對數據的屬性進行表述。元數據主要包括數據來源、數據收集整理模式以及數據可靠性等信息,是實驗數據的重要組成部分。就宏基因組研究而言,元數據提供了項目技術設計、材料來源、實驗方案、結果描述等至關重要的信息[11]。目前國際基因組標準聯盟(Genomic Standards Consortium,GSC)已開發了針對基因組[12]、宏基因組[13]及擴增子[14]研究的多種元數據標準框架,框架包括組學數據的檢查列表以及取樣環境描述包(environmental package)。其中,宏基因組數據標準框架的制定原則指出,人體樣本和環境樣本的最少信息集合應當以樣本為出發點,保證樣本的基因型和表型關聯分析、不同分組樣本的差異分析、樣本菌群組成的機理研究分析的需求,因此筆者建議宏基因組的元數據中應當包含如下基本信息。
● 人體樣本:個人基本生理信息、生活行為方式、膳食結構、營養狀況、既往病史等信息。
● 環境樣本:樣本獲取過程中的采集地點、大氣、水文、溫度、壓力、運輸方法、存儲媒介等信息。
同時,筆者建議使用國際宏基因組數據標準框架制定的標準詞匯來描述元數據,從而給出精確的元數據語義信息,進而建立可共享的、可被機器處理的本體支持,利于未來的數據資源整合。在元數據完整性檢查完成后,需要開展元數據與測序數據的一致性檢查,重點檢查測序數據的樣本是否符合元數據描述的樣本,查看是否存在數據遺漏、差錯匹配、錯誤標注等現象,這些都會對后續的數據分析造成嚴重的影響。這種一致性檢查是數據完整性、有效性的重要質量控制步驟。
3.2 測序數據的質量檢測
目前,宏基因組研究大都采用二代測序技術。以illumina為代表的二代測序技術基本都運用邊合成邊測序的策略,在堿基鏈合成的過程中,隨著合成鏈的增長, DNA聚合酶的效率會不斷下降,特異性也逐漸變差,從而造成堿基合成錯誤率增高。此外,測序儀在開始進行合成反應時,也會由于反應不夠穩定帶來質量值的波動。測序數據的質量好壞會影響下游的分析,不同測序平臺的測序錯誤率存在較大差異,因此在數據分析前,需要確定原始數據是通過哪種測序平臺產生的、其錯誤分布規律如何、是否存在一定測序偏向性、是否受序列中堿基含量分布(GC含量)影響等[15]。目前對原始測序數據進行質量檢測,通常使用FastQC和PRINSEQ[16]這兩種檢測軟件包。FastQC軟件包既有圖形操作界面,又有命令行操作模式,能同時支持多種文件格式,包括FastQ、SAM和BAM格式等。其測序質量報告主要包括:讀段(reads)各位置的堿基質量值分布、堿基的總體質量值分布、reads各個位置上堿基分布比例、GC含量分布、reads各個位置的非確定堿基數目、是否含有測序接頭序列等。PRINSEQ是另一款常用的測序質量檢測軟件,其報告內容主要包括:reads數目以及長度頻率分布、堿基質量頻率分布、序列復雜度、GC含量、重復序列及接頭信息等。
3.3 低質量測序序列的過濾及切除
原始測序數據通常包含測序分值較低的堿基序列,其處理方式包括過濾和切除。對于全長質量都比較低的序列,可直接進行過濾處理;而對于只有部分片段質量較低的序列,則可以通過片段切除的方法來處理。最基本的切除方法為設定特定的切除長度或剩余長度,這種方法會去除部分測序質量較好的片段,從而造成一定的信息損失,因此更為通用的方案是從序列任意一端開始,逐個切除低于質量閾值的堿基。如目前較為流行的低質量序列切除與過濾軟件Trimmomatic[17]及PRINSEQ均支持從任意一端開始切除低質量堿基。另一種方案為滑窗策略,將窗口內的堿基質量與設定的閾值進行比較,如果滑窗內的堿基數值低于質量閾值,則切除整個滑窗的堿基。用戶可根據實際情況設置滑窗大小及質量閾值。另外,值得注意的是,測序時如果無法判定一個堿基是哪種堿基,通常標記為N字符,不同的組裝比對軟件對于N字符的處理方式完全不同,有的用4種堿基隨機替代N字符,有的則是用固定的某個堿基替代N字符,由于N字符會導致錯誤的組裝和比對,因此含N字符較多的序列同樣需要在組裝和比對前進行切除或過濾操作。
3.4 接頭序列及無關序列的剔除
高通量測序過程一般會使用測序接頭序列,接頭序列的存在可能會導致基因組組裝和轉錄本組裝出現問題,因此需要在分析數據之前予以去除。此外,其他的測序標簽以及引物片段也需要去除。去除接頭及標簽序列是一項比較困難的任務,首先,這些序列可能存在測序錯誤,需要考慮應對錯配、插入缺失片段(indels)以及不確定堿基(N字符)的情況;其次,如果測序的目標序列較短, reads可能會延伸到3’端的接頭序列。而這種“讀穿”的情況會導致reads中含有部分3’端的接頭序列無法被識別。此外,某些公共來源的測序數據可能根本無法知道接頭序列信息。目前較為常用的接頭序列切除軟件包括Trimmomatic[17]、TagCleaner[18]和Cutadapt等。這些軟件均可以應對錯配,并允許用戶指定測序和標簽序列的最小重疊,TagCleaner還可以應對indels以及不確定堿基。假如接頭序列未知,可以先用TagCleaner軟件預測,再進行后續的切除。另外,值得注意的是,在測序文庫的制備過程中,聚合酶鏈式反應(PCR)過度擴增可能導致重復序列的出現,在后續分析過程中,這些重復序列應當剔除。此外,某些低復雜度的序列由于缺乏信息量,很難可靠地比對到參考序列上,因此也應當予以剔除。
3.5 宿主及污染序列的過濾
宏基因組測序是對樣本中所有DNA分子進行測序,因此獲得的數據中可能含有不屬于微生物的序列,例如與人類健康相關的宏基因組研究多使用與人體相關的組織或樣本(如口腔菌斑、唾液、皮膚及糞便樣本等),這些樣本中可能存在人類基因組序列污染。此外,研究樣本也可能存在其他生物體或載體的序列污染,從而對后續分析造成影響,因此在質量控制過程中需要剔除宿主序列以及可能的污染序列。最直接的方法就是把序列比對至宿主基因組及可能的污染源序列上,然后剔除這些序列。FastQ Screen、BWA [19]、Bowtie[20]、SOAP等工具可以把序列比對至用戶懷疑的污染源序列上,如果存在一致序列則予以剔除。
3.6 混合樣本的數據分割
測序時,為了區別不同樣本來源的序列,需要在待測序列中加入一段具有特定序列的編碼序列(barcode)。在質量控制過程中,為了獲得不同樣本的完整數據,需要根據碼序列對混合樣本進行分割,將一個FastQ文件中的序列分別存儲到多個樣本文件中。
3.7 樣本菌群的組成分析
在獲得測序數據之后,首要工作是對相關樣本進行菌群組成分析。在早期宏基因組研究中,通常需要對測序數據進行拼接,獲得contig序列,之后通過一些常用的序列比對算法(如BLAST算法、BL AT算法等),將拼接后的序列比對至微生物參考基因組序列,從而獲得與序列相關的物種分類信息。然而,不同于其他高等生物基因組的拼接,由于微生物的多樣性,宏基因組研究中測序數據的拼接往往存在一定的難度,導致序列準確度不高。此外,傳統的BLAST算法在對海量的拼接后數據進行比對時往往耗時較長,BLAST算法速率為目前二代測序常用的比對軟件(如BWA、bowtie和SOAP等)速率的數百分之一至數十分之一,通常某些樣本完成所有序列比對可能花費數天甚至更久的時間。因此筆者建議在實際分析過程中,使用二代測序的比對軟件,把測序片段(不經過拼接)直接比對到參考物種的標識基因,從而快速獲取物種分類信息及豐度信息,為后續的樣本主坐標分析提供足夠的信息。例如,目前國際人類微生物組計劃項目中采用Metaphlan軟件進行數據處理,該軟件可以直接將測序序列比對至微生物參考數據庫中(涵蓋了美國生物技術信息中心基因組數據庫中的2 887個微生物基因組數據),從而獲得測序樣本的菌群組成信息[21]。
3.8 不同分組樣本的主坐標分析
主 坐標分析是一種微生物組學數據分析中常用的降維及可視化方法,主要用于研究數據相似性或差異性,在微生物群落相關研究中,不同樣本之間及不同環境之間微生物組成差異往往較大,所獲得的物種豐度表通常由稀疏矩陣構成,因而不太適合使用其他組學數據通常采用的主成分分析方法。在主坐標分析中,首先對物種豐度組成的距離矩陣進行分解,獲得一系列的特征值和特征向量,然后對特征向量進行排序,選擇前幾位的特征向量作為主要坐標,并將樣品投影到這些向量的坐標軸上進行可視化展示。在對基于不同分類水平的物種豐度信息進行PCoA時,樣本的物種組成越相似,它們在PCoA圖上的距離越小。通過不同分組樣本的主坐標分析,可以檢測樣本的測序質量以及深度是否提供了足夠的信息來區別不同的分組樣本,因而不同分組樣本的主坐標分析是宏基因組數據分析質量控制流程中非常重要的步驟。
4 ?宏基因組數據質量控制應用實例
本文以一套已公開發表的腸道微生物宏基因組數據為例進行質量控制流程結果展示,該數據為正常人群與肝硬化人群腸道微生物隊列研究數據,相應宏基因組測序數據下載自歐洲生物信息研究中心核酸數據庫(ID:ERP005860)。本文選取部分有代表性的樣本,對元數據和測序數據進行包括元數據整理、元數據和測序數據一致性檢查、測序質量評估、低質量序列過濾、測序接頭片段去除、宿主基因剔除、樣本菌群組成分析、樣本主坐標分析在內的質量控制檢測。其原始數據測序片段的質量評估結果如圖3所示,個別樣本總體測序質量偏低,后續分析需加以控制或予以剔除。
圖3 測序片段不同位置堿基質量分布
質量控制前后樣本原始數據及干凈數據質量統計見表1(括號內為質量控制后的數值)。質量控制前后各樣本重復序列百分比、序列平均長度及讀段總數等均有明顯變化,這表明了對原始測序數據進行相關質量控制的必要性。隨后,筆者對各樣本的菌群組成及微生物豐度進行評估,并在此基礎上開展了樣本的主坐標分析,結果如圖4所示,正常樣本與疾病樣本可觀察到一定的分布差異,表明了質量控制流程的有效性。
表1? 質量控制前后序列質量統計
圖4 主坐標分析結果
5 宏基因組數據質量控制應用效果
上述宏基因組數據質量控制實例表明,本文提出的質量控制流程可以對宏基因組研究中的元數據和測序數據質量進行有效評估,從而為后續分析提供干凈的數據。具體而言主要有以下幾個方面。
● 元數據和測序數據的一致性檢查保證了取樣樣本和測序樣本的對應關系,并賦予測序樣本表型信息,從而為測序樣本的基因型和表型關聯分析、不同分組樣本的差異分析、樣本菌群組成的機理研究分析提供支持。
● 宏基因組數據質量控制流程中的質量檢測、低質量測序序列的過濾及切除、接頭序列及無關序列的剔除等步驟可以為后續的功能分析提供干凈的分析數據,保證結果的可靠性。
● 宿主及污染序列的過濾,可以去除宿主基因片段對后續菌群組成分析的影響,保證分析的有效性。
● 不同分組樣本的菌群組成和主坐標分析,可以在一定程度上評估樣本的測序深度是否足夠,即在當前的測序深度和質量條件下是否提供了足夠的信息來滿足分組樣本差異分析的需求。
6? 結束語
近年來,隨著各種微生物組項目的開展,已有大量的宏基因組數據發布。如何充分利用和挖掘這些數據,對其進行更為深入的二次分析,從而獲得新的發現,是一個極為重要的問題。宏基因組數據多分散在不同的數據庫中或者不同的研究者手中,其數據收集和分析標準存在較大的差異,從而給數據的整合帶來較大的障礙。如果能從生態類型(biotype)、數據類型(datatype)等角度系統整合這些數據,并提供統一的質量控制評價標準,將為宏基因組研究提供更大的便利。因此制定規范合理的數據質量控制標準,從而有效整合這些不同來源和類型的宏基因組數據,是未來的發展方向和趨勢。本文對宏基因組數據分析過程中的質量控制流程進行了探討,這將加速宏基因組學的相關研究。在此基礎上,整合微生物的分類、進化、生態以及相關組學的數據,構建統一的微生物組數據倉庫,并輔以微生物云服務平臺,將解決微生物組研究各種數據分散在不同地方的局面,為微生物組大數據提供科學的管理機制和運行范式,從而為我國微生物組學研究提供技術支撐及基礎大數據平臺。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
鄭廣勇(1977-),男,博士,中國科學院上海生命科學研究院生物醫學大數據中心副研究員,主要研究方向為計算生物學、系統生物學以及生物醫學大數據的深度挖掘。
?
楊楨(1981-),男,博士,中國科學院上海生命科學研究院生物醫學大數據中心副研究員,主要研究方向為生物醫學大數據的深度挖掘。
?
曹瑞芳(1989-),女,中國科學院上海生命科學研究院生物醫學大數據中心工程師,主要研究方向為生物醫學數據庫和知識庫的構建。
?
劉婉(1987-),女,博士,上海生物信息技術研究中心助理研究員,主要研究方向為微生物相關數據庫與數據倉庫、生物醫學數據審編。
?
李亦學(1955-),男,博士,中國科學院上海生命科學研究院生物醫學大數據中心研究員,主要研究方向為計算生物學、生物醫學大數據的系統研究。
?
張國慶(1978-),男,博士,中國科學院上海生命科學研究院生物醫學大數據中心研究員,主要研究方向為生物醫學數據庫和知識庫的構建。
?
《大數據》期刊
《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的宏基因组大数据分析的质量控制流程规范的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 汇编-寄存器
- 下一篇: 2017第二届中国信息通信大数据大会将于