【重磅综述】长序列数据分析相关资源哪里找?一文读懂长序列测序数据分析的机遇与挑战!...
? ? ? ? ? ? ? ? 簡(jiǎn)介? ? ? ? ? ? ? ? ?
標(biāo)題:長(zhǎng)序列測(cè)序數(shù)據(jù)分析的機(jī)遇與挑戰(zhàn)
雜志:GenomeBiology
影響因子:10.806
發(fā)表時(shí)間:2020年05月08日
解讀:章小魚(yú)zxy
編輯:很跩的土豆
導(dǎo)讀:長(zhǎng)序列測(cè)序(即三代測(cè)序)技術(shù)正克服精確性和通量方面的限制,逐漸應(yīng)用于基因組學(xué)的各個(gè)研究領(lǐng)域,因此專(zhuān)門(mén)的分析工具也應(yīng)運(yùn)而生。但目前層出不窮的此類(lèi)工具使研究者難以抉擇,為了更好地指導(dǎo)長(zhǎng)序列測(cè)序數(shù)據(jù)的設(shè)計(jì)和分析,墨爾本大學(xué)Gouil團(tuán)隊(duì)綜述了長(zhǎng)序列測(cè)序數(shù)據(jù)分析工具的當(dāng)前狀況,并提出一個(gè)在線交互式數(shù)據(jù)庫(kù)https://long-read-tools.org/。今天,我們將跟隨Gouil一起了解當(dāng)前長(zhǎng)序列測(cè)序數(shù)據(jù)分析的機(jī)遇和挑戰(zhàn)。
文獻(xiàn)獲取:關(guān)注“三代測(cè)序”,回復(fù)“20201115”,獲取本研究原文。
? ? ? ? ? ? ? ? 正文? ? ? ? ? ? ? ? ?
1.?長(zhǎng)序列測(cè)序和數(shù)據(jù)分析的現(xiàn)狀(The state of long-readsequencing and data analysis)
Nanopore和SMRT長(zhǎng)序列測(cè)序技術(shù)依賴(lài)不同的原理。當(dāng)單鏈核苷酸序列通過(guò)nanopore時(shí),Nanopore測(cè)序儀(MinION、GridION和PromethION)測(cè)量的是離子電流波動(dòng),不同的核苷酸對(duì)孔內(nèi)不同核酸延伸的抗性不同,因此可從特定的電流變換推斷堿基序列。SMRT測(cè)序儀(RSII、Sequel和Sequel II)檢測(cè)的是特定核苷酸的熒光事件,SMRT測(cè)序的序列長(zhǎng)度受聚合酶的壽命限制。盡管Nanopore和SMRT是真正的長(zhǎng)序列測(cè)序技術(shù),并且是本文的重點(diǎn);但也有合成的長(zhǎng)序列測(cè)序方法,包括連接序列、鄰位連接策略和光學(xué)測(cè)繪,可與真正長(zhǎng)序列分析方法協(xié)同使用。
針對(duì)組裝基因組、甲基化、變異、異構(gòu)體、單倍型以及物種分析等不同的分析目的,從2011年后逐漸開(kāi)發(fā)了基于長(zhǎng)序列數(shù)據(jù)分析的各種軟件(如圖1a)。
通過(guò)檢索文獻(xiàn)、網(wǎng)絡(luò)資源和社交媒體,我們找到了354種長(zhǎng)序列分析工具,其中大多數(shù)(262)中為Nanopore序列分析工具,170個(gè)為SMRT分析工具。我們進(jìn)一步根據(jù)功能將上述工具分為31個(gè)組。這確定了研究興趣發(fā)展的趨勢(shì):由于長(zhǎng)序列測(cè)序技術(shù)初始的通量問(wèn)題,大多數(shù)工具都是經(jīng)非人類(lèi)數(shù)據(jù)進(jìn)行測(cè)試;從頭組裝、錯(cuò)誤校正和修飾分類(lèi)的工具受到了最多關(guān)注,而轉(zhuǎn)錄組分析仍處于早期開(kāi)發(fā)階段(如圖1b)。
如圖1c,我們對(duì)Nanopre和SMRT數(shù)據(jù)的分析流程進(jìn)行了概述,重點(diǎn)介紹了通用工具;同時(shí)介紹了長(zhǎng)序列分析的原理和潛在陷阱,集中于一些主要類(lèi)型的下游分析,如結(jié)構(gòu)變異信息獲取,錯(cuò)誤糾正,堿基修飾的檢測(cè)和轉(zhuǎn)錄組。
圖1. 長(zhǎng)序列分析工具和流程概述。a,已發(fā)布的工具;b,功能類(lèi)別;c,用于SMRT和Nanopore數(shù)據(jù)的典型長(zhǎng)序列分析流程。
Fig. 1 Overview of long-read analysis tools and pipelines. a,Release of tools identified from various sources and milestones of long-read sequencing. b,Functional categories. c, Typicallong-read analysis pipelines for SMRT and nanopore data. Six main stages are identified through the presented workflow (i.e. basecalling, quality control, read error correction, assembly/alignment, assembly refinement, and down stream analyses). The green-coloured boxes represent processes common to both short-read and long-read analyses. The orange-coloured boxes represent the processes unique to long-read analyses. Unfilled boxes represent optional steps. Commonly used tools for each step in long-read analysis are within brackets. Italicssignify tools developed by either PacBio or ONT companies, and non-italics signify tools developed by external parties. Arrows represent the direction of the workflow.
2. 堿基判讀(Basecalling)
任何長(zhǎng)序列分析的第一步都是堿基判讀,或是將原始序列轉(zhuǎn)換到核酸序列。長(zhǎng)序列分析中的此步驟比在短序列分析中更受到重視,而短序列分析中堿基檢測(cè)依賴(lài)專(zhuān)門(mén)軟件,更標(biāo)準(zhǔn)化。Nanopore堿基檢測(cè)比SMRT堿基檢測(cè)更復(fù)雜,也更具有選擇性:我們發(fā)現(xiàn)26個(gè)堿基判讀工具中有23個(gè)與Nanopore測(cè)序相關(guān)的。
在SMRT測(cè)序中,連續(xù)的熒光被記錄為一個(gè)movie。由于模版是環(huán)形的,聚合酶可能會(huì)多次越過(guò)DNA片段的兩條鏈。SMRT堿基檢測(cè)從將熒光信號(hào)轉(zhuǎn)換為脈沖信號(hào),再將脈沖信號(hào)轉(zhuǎn)換為堿基開(kāi)始,形成連續(xù)的長(zhǎng)序列。然后將這種長(zhǎng)序列拆分為多個(gè)子序列,其中每個(gè)子序列對(duì)應(yīng)一次被測(cè)的文庫(kù),而沒(méi)有連接序列。子序列存儲(chǔ)為未比對(duì)的BAM文件。將這些子序列比對(duì),可以得出插入序列的一致性環(huán)狀序列(CCS)。SMRT堿基判讀程序主要在于內(nèi)部開(kāi)發(fā),并需要特殊訓(xùn)練。當(dāng)前SMRT的堿基檢測(cè)流程就是CCS。
Nanopore原始數(shù)據(jù)是在HDF5的基礎(chǔ)上以fast5格式保存的4kHz下測(cè)量的電流強(qiáng)度值。Nanopore測(cè)序的堿基檢測(cè)是一個(gè)活躍的研究領(lǐng)域,對(duì)其進(jìn)行訓(xùn)練的化學(xué)方法的算法正在迅速發(fā)展。ONT提供了堿基判讀的多種軟件,如Guppy和其他進(jìn)階版軟件(Flappie,Scrappie,Taiyaki,Runnie和Bonito)。總的來(lái)說(shuō),堿基判讀軟件具有最佳準(zhǔn)確性和最穩(wěn)定的性能,并且適合大多數(shù)用戶。進(jìn)階版的堿基判讀軟件可以用來(lái)測(cè)試堿基特征,例如均聚物準(zhǔn)確性、變異體檢測(cè)或堿基修飾檢測(cè),但不一定針對(duì)速度和整體準(zhǔn)確性進(jìn)行優(yōu)化。
也可以使用具有不同網(wǎng)絡(luò)結(jié)構(gòu)的獨(dú)立堿基判讀軟件,最著名的是Chiron。當(dāng)然,作為使用者,我們應(yīng)該知道堿基判讀軟件的準(zhǔn)確度實(shí)際低于宣傳值。比如目前對(duì)ONT的堿基檢測(cè)進(jìn)行了人、酵母和細(xì)菌DNA混合物的訓(xùn)練,但它們?cè)诟缓荂G甲基化的植物DNA上的性能可能較低。
?
3.?錯(cuò)誤、糾錯(cuò)和拋光(Errors, correction, and polishing)
SMRT和Nanopore技術(shù)的單序列精度均比短序列測(cè)序更低。就SMRT而言,一致性環(huán)形序列的質(zhì)量很大程度上取決于序列讀取的次數(shù)——單個(gè)SMRT-bell分子的測(cè)序深度。若錯(cuò)誤不是隨機(jī)的,增加測(cè)序深度將不能消除它們。但是子序列由插入/缺失帶來(lái)的隨機(jī)錯(cuò)誤比錯(cuò)配更多,因此建議使用通用方法來(lái)避免系統(tǒng)誤差。盡管如此,CCS序列仍有錯(cuò)誤并對(duì)均聚物表現(xiàn)出偏好性。就Nanopore而言,序列質(zhì)量與DNA序列的長(zhǎng)度無(wú)關(guān)。序列質(zhì)量取決于實(shí)現(xiàn)核酸通過(guò)孔的最佳轉(zhuǎn)運(yùn)速度,通常在測(cè)序運(yùn)行的后期降低,從而影響測(cè)序質(zhì)量。較為常見(jiàn)的是插入和替換,隨機(jī)但不均勻分布。
盡管目前長(zhǎng)序列測(cè)序的準(zhǔn)確性已足以確定基因組來(lái)源,但某些仍需要很高的堿基水平的準(zhǔn)確性,包括從頭組裝、變異檢測(cè)或定義內(nèi)含子-外顯子邊界。可以采用單獨(dú)的長(zhǎng)序列分析方法(非混合)和利用其他短序列的方法(混合)。如圖2所示。在非混合方法中,首先將所有序列比對(duì),然后使用一致性序列來(lái)糾錯(cuò)單個(gè)序列;此時(shí)就可以將這些糾錯(cuò)過(guò)的片段用于組裝或其他應(yīng)用。此外,還可以根據(jù)短序列的使用方法將混合糾錯(cuò)方法進(jìn)一步分類(lèi)。
組裝完成后,從contigs中清除剩余錯(cuò)誤的過(guò)程稱(chēng)為“拋光(polishing)”。其中一種方法是通過(guò)使用Arrow(用于SMRT子序列)或Nanopolish(用于Nanopore電流軌跡)來(lái)提高一致性序列的準(zhǔn)確性。對(duì)于Nanopore數(shù)據(jù),polishing還考慮了堿基修飾來(lái)提高裝配的準(zhǔn)確性。
盡管長(zhǎng)序列測(cè)序的準(zhǔn)確性不斷提高,但在許多應(yīng)用中糾錯(cuò)仍然是必不可少的。我們確定了62個(gè)能夠進(jìn)行糾錯(cuò)的工具。校正裝配需要綜合使用多種工具(如Racon、Pilon和Nanopolish)進(jìn)行耐心細(xì)致的工作。但由于缺乏權(quán)威的糾錯(cuò)流程,使得很多糾錯(cuò)工具無(wú)法很好地應(yīng)用于深度測(cè)序或大型基因組中。此外大多數(shù)工具在設(shè)計(jì)時(shí)都考慮了單倍體組件,但等位基因變異、重復(fù)和基因家族可能無(wú)法正確處理。
圖2. 糾錯(cuò)(a)和拋光(b)的范例。長(zhǎng)序列和組裝中的錯(cuò)誤用紅叉表示,非混合方法僅需長(zhǎng)序列,混合方法還需準(zhǔn)確的短序列(紫色)。
Fig. 2 Paradigms of error correction(a) and polishing (b). Errors in long reads and assembly are denoted by red crosses. Non-hybrid methods only require long reads, while hybrid methods additionally require accurate short reads (purple).
4.檢測(cè)結(jié)構(gòu)變異
盡管短序列能夠準(zhǔn)確檢測(cè)單核苷酸變異和小片段插入或刪除,但不適用于檢測(cè)長(zhǎng)序列改變。大于50bp的結(jié)構(gòu)變異(SV),如插入、刪除、重復(fù)、染色體倒位或易位更適合用長(zhǎng)序列測(cè)序。長(zhǎng)序列測(cè)序跨越重復(fù)元件或重復(fù)區(qū)域的能力具有獨(dú)特的錨點(diǎn),從而有利于從頭組裝和SV檢測(cè)。即使是相對(duì)較短的SMRT片段(5kb),也可以鑒定出人類(lèi)基因組中先前被短序列技術(shù)遺漏的結(jié)構(gòu)變異。
5.?檢測(cè)堿基修飾
除了規(guī)范的A、T、C和G堿基外,DNA還包括修飾堿基,這些堿基的性質(zhì)和頻率在生物體和組織間會(huì)發(fā)生改變,6mA、4mC、5mC在細(xì)菌中很常見(jiàn),5mC是真核生物中最常見(jiàn)的堿基修飾,而5hmC、5fC和5caC已經(jīng)在某些哺乳動(dòng)物細(xì)胞中檢測(cè)到,但尚未得到深入表征;此外由DNA損傷引起的更多堿基修飾仍在低頻發(fā)生。SMRT測(cè)序可以檢測(cè)到6mA、4mC、5mC和5hmC的DNA修飾。Nanopore測(cè)序中,經(jīng)修飾的RNA或DNA堿基對(duì)電流通過(guò)孔的影響與未修飾堿基的影響不同,從而導(dǎo)致信號(hào)移位(如表1)。如圖3,可以通過(guò)三種不同的方法在堿基判讀后和比對(duì)后識(shí)別這些變化:(a)通過(guò)與計(jì)算機(jī)參考庫(kù)、對(duì)照或未修飾樣本比對(duì);(b)使用預(yù)訓(xùn)練模型;(c)直接使用堿基判讀軟件。
?表1 檢測(cè)Nanopore數(shù)據(jù)堿基修飾的工具和測(cè)量
圖3 長(zhǎng)序列測(cè)序中檢測(cè)堿基修飾的方法。
Fig.3 Methods to detect base modifications in long-read sequencing.?Base modifications can be inferred from their effect on the current intensity (nanopore)and inter-pulse duration (IPD, SMRT). Strategies to call base modifications in nanopore sequencing and the corresponding tools are further depicted.
?
6.?分析長(zhǎng)序列轉(zhuǎn)錄組(Analysing long-read transcriptomes)
可變剪切是增加真核生物基因表達(dá)復(fù)雜度的主要機(jī)制,然而短序列不能完全組裝也不能準(zhǔn)確定量所表達(dá)的異構(gòu)體,尤其是在復(fù)雜的位點(diǎn)中。長(zhǎng)序列測(cè)序可能會(huì)通過(guò)測(cè)序全長(zhǎng)轉(zhuǎn)錄本來(lái)解決這個(gè)問(wèn)題,我們統(tǒng)計(jì)了36種與長(zhǎng)序列轉(zhuǎn)錄組分析相關(guān)的工具。大多數(shù)長(zhǎng)序列異構(gòu)體檢測(cè)工具是通過(guò)將比對(duì)和糾錯(cuò)的序列聚類(lèi)并拼接為異構(gòu)體,但是不同工具之間的具體實(shí)現(xiàn)有所不同。PacBio公司的ISO-SEQ3是最成熟的長(zhǎng)序列轉(zhuǎn)錄組分析流程,能夠裝配全長(zhǎng)的轉(zhuǎn)錄本;它為SMRT序列執(zhí)行預(yù)處理,通過(guò)層次聚類(lèi)和迭代合并從頭發(fā)現(xiàn)轉(zhuǎn)錄本,并進(jìn)行修飾。Cupcake用于下游分析,提供了豐度信息并進(jìn)行junction分析。但是Iso-Seq的文庫(kù)準(zhǔn)備通常需要大小分級(jí),這使得絕對(duì)定量和相對(duì)定量變得困難;同時(shí)昂貴的成本也是需要考慮的問(wèn)題之一。因此,IsoCon、SQANTI、TALON等異構(gòu)體檢測(cè)流程,以及FLAIR、Tama、IDP、TAPIS、Mandalorion Episode II等異構(gòu)體注釋流程應(yīng)運(yùn)而生,從不同方面改善了Iso-Seq的上述問(wèn)題。但此項(xiàng)功能仍需要進(jìn)一步的研發(fā)和調(diào)整。如圖4,展示了轉(zhuǎn)錄組分析的類(lèi)型及步驟。
圖4 轉(zhuǎn)錄組分析的類(lèi)型及步驟
Fig.4 Types of transcriptomic analyses and their steps.The choice of sequencing protocol amongst the six available workflows affects the type, characteristics, and quantity of data generated. Only direct RNA sequencing allows epitranscriptomic studies, but SMRT direct RNA sequencing is a custom technique that is not fully supported. The remaining non-exclusive applications are isoform detection, quantification, and differential analysis. The dashed lines in arrows represent upstream processes to transcriptomics
??
7.?組合長(zhǎng)序列、合成長(zhǎng)序列和短序列(Combining long reads, synthetic long reads, and short reads)
僅基于長(zhǎng)序列的組裝通常會(huì)產(chǎn)生高度完整和連續(xù)的基因組,但是多數(shù)情況下,短序列或合成長(zhǎng)序列技術(shù)產(chǎn)生的序列可進(jìn)一步改善結(jié)果。不同的技術(shù)可以以不同的規(guī)模進(jìn)行干預(yù):短序列可確保基本水平的準(zhǔn)確性,高質(zhì)量5-15kb SMRT序列可產(chǎn)生良好的contigs,而超長(zhǎng)(100kb+)Nanopore序列、光學(xué)映射或Hi-C提升了contigs拼裝后轉(zhuǎn)變?yōu)槿旧w的能力。將這些技術(shù)應(yīng)用到一個(gè)基因組計(jì)劃中將是非常昂貴的。然而,應(yīng)用在一些基因子集中是比較常見(jiàn)的,尤其N(xiāo)anopore/SMRT的短序列測(cè)序。
對(duì)于結(jié)構(gòu)變化或堿基修飾的檢測(cè),從SMRT和Nanopore數(shù)據(jù)獲取的正交支持可用于確認(rèn)發(fā)現(xiàn)和限制假陽(yáng)性。諸如Unicycler之類(lèi)的工具整合了長(zhǎng)序列和短序列數(shù)據(jù)以生成混合組裝,而Canu、Pilon、racon等工具也具有為實(shí)現(xiàn)此目的的流程。然而工具和數(shù)據(jù)類(lèi)型的組成仍然是一個(gè)挑戰(zhàn),通常需要大量的人工整合。
?
8.?長(zhǎng)序列測(cè)序數(shù)據(jù)分析工具目錄:long-read-tools.org (long-read-tools.org: acatalogue of long-read sequencing data analysis tools)
在過(guò)去十年中,工具的迅猛發(fā)展反映了生物學(xué)領(lǐng)域?qū)﹂L(zhǎng)序列測(cè)序日益增長(zhǎng)的興趣。有開(kāi)源靜態(tài)目錄(github.com/B-UMMI/long-read-catalog)、各個(gè)實(shí)驗(yàn)室為特定目的開(kāi)發(fā)的自定義流程(Search results from GitHub)以及其他將其歸納為一個(gè)更廣泛的研究社區(qū)的嘗試。能夠輕松識(shí)別存在或不存在的工具對(duì)于計(jì)劃和執(zhí)行最佳實(shí)踐分析,建立全面的基準(zhǔn)并指導(dǎo)新軟件的開(kāi)發(fā)至關(guān)重要。因此我們引入了https://long-read-tools.org/,這是一個(gè)整合了長(zhǎng)序列數(shù)據(jù)分析工具的實(shí)時(shí)數(shù)據(jù)庫(kù)。用戶可以按照技術(shù)和預(yù)期分析類(lèi)型交互式搜索相應(yīng)工具。除了真正的長(zhǎng)序列測(cè)序技術(shù)之外,我們還整合了合成長(zhǎng)序列方法。https://long-read-tools.org/是MIT許可下的一個(gè)開(kāi)源項(xiàng)目,代碼可通過(guò)GitHub獲得。我們鼓勵(lì)研究人員直接通過(guò)GitHub或通過(guò)網(wǎng)頁(yè)為相關(guān)工具和數(shù)據(jù)庫(kù)的改進(jìn)提供意見(jiàn)。
總結(jié): 長(zhǎng)序列測(cè)序技術(shù)為基因組學(xué)研究開(kāi)辟了新的途徑,但目前仍面臨諸如獲取準(zhǔn)確而完整的基因組和轉(zhuǎn)錄組的挑戰(zhàn),因此需要進(jìn)一步的努力來(lái)研發(fā)和基準(zhǔn)化相關(guān)工具。
? ? ? ? ?? ? ? ?參考? ? ? ? ? ? ? ? ?
[1]?Amarasinghe et al.Opportunities and challenges in long-read sequencing data analysis,Genome Biology (2020) 21:30
? ? ? ? ? ?? ? ?后記? ? ? ? ? ? ?? ??
隨著測(cè)序技術(shù)的不斷發(fā)展,科學(xué)研究進(jìn)入了數(shù)據(jù)井噴的時(shí)代。然而,測(cè)序樣本的處理流程、測(cè)序數(shù)據(jù)的分析流程甚至是數(shù)據(jù)分析過(guò)程中的數(shù)據(jù)庫(kù)搭建問(wèn)題,都給測(cè)序技術(shù)的普及化設(shè)置了壁壘,嚴(yán)重阻礙了該項(xiàng)技術(shù)向廣大科研工作者中推廣。此外,基于長(zhǎng)讀長(zhǎng)的三代測(cè)序技術(shù)的發(fā)展更是引入了一套完全有別于二代測(cè)序數(shù)據(jù)處理的分析流程,為了讓更多學(xué)者認(rèn)識(shí)三代測(cè)序、在科學(xué)研究中用好三代測(cè)序,本公眾號(hào)應(yīng)運(yùn)而生。期待與您一起學(xué)習(xí)、成長(zhǎng)。
^_^ 邊學(xué)習(xí),邊分享,每天進(jìn)步一點(diǎn)點(diǎn)?^_^
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
?
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的【重磅综述】长序列数据分析相关资源哪里找?一文读懂长序列测序数据分析的机遇与挑战!...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: “嘿,我们又见面了!”
- 下一篇: 哈佛大学单细胞课程|笔记汇总 (七)