當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【重磅综述】长序列数据分析相关资源哪里找？一文读懂长序列测序数据分析的机遇与挑战！...

發布時間：2025/3/15 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了【重磅综述】长序列数据分析相关资源哪里找？一文读懂长序列测序数据分析的机遇与挑战！... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ? ? ? ? ? ? ? 簡介? ? ? ? ? ? ? ? ?

標題：長序列測序數據分析的機遇與挑戰

雜志：GenomeBiology

影響因子：10.806

發表時間：2020年05月08日

解讀：章小魚zxy

編輯：很跩的土豆

導讀：長序列測序（即三代測序）技術正克服精確性和通量方面的限制，逐漸應用于基因組學的各個研究領域，因此專門的分析工具也應運而生。但目前層出不窮的此類工具使研究者難以抉擇，為了更好地指導長序列測序數據的設計和分析，墨爾本大學Gouil團隊綜述了長序列測序數據分析工具的當前狀況，并提出一個在線交互式數據庫https://long-read-tools.org/。今天，我們將跟隨Gouil一起了解當前長序列測序數據分析的機遇和挑戰。

文獻獲取：關注“三代測序”，回復“20201115”，獲取本研究原文。

? ? ? ? ? ? ? ? 正文? ? ? ? ? ? ? ? ?

1.?長序列測序和數據分析的現狀（The state of long-readsequencing and data analysis）

Nanopore和SMRT長序列測序技術依賴不同的原理。當單鏈核苷酸序列通過nanopore時，Nanopore測序儀（MinION、GridION和PromethION）測量的是離子電流波動，不同的核苷酸對孔內不同核酸延伸的抗性不同，因此可從特定的電流變換推斷堿基序列。SMRT測序儀（RSII、Sequel和Sequel II）檢測的是特定核苷酸的熒光事件，SMRT測序的序列長度受聚合酶的壽命限制。盡管Nanopore和SMRT是真正的長序列測序技術，并且是本文的重點；但也有合成的長序列測序方法，包括連接序列、鄰位連接策略和光學測繪，可與真正長序列分析方法協同使用。

針對組裝基因組、甲基化、變異、異構體、單倍型以及物種分析等不同的分析目的，從2011年后逐漸開發了基于長序列數據分析的各種軟件（如圖1a）。

通過檢索文獻、網絡資源和社交媒體，我們找到了354種長序列分析工具，其中大多數（262）中為Nanopore序列分析工具，170個為SMRT分析工具。我們進一步根據功能將上述工具分為31個組。這確定了研究興趣發展的趨勢：由于長序列測序技術初始的通量問題，大多數工具都是經非人類數據進行測試；從頭組裝、錯誤校正和修飾分類的工具受到了最多關注，而轉錄組分析仍處于早期開發階段（如圖1b）。

如圖1c,我們對Nanopre和SMRT數據的分析流程進行了概述，重點介紹了通用工具；同時介紹了長序列分析的原理和潛在陷阱，集中于一些主要類型的下游分析，如結構變異信息獲取，錯誤糾正，堿基修飾的檢測和轉錄組。

圖1. 長序列分析工具和流程概述。a，已發布的工具；b，功能類別；c，用于SMRT和Nanopore數據的典型長序列分析流程。

Fig. 1 Overview of long-read analysis tools and pipelines. a，Release of tools identified from various sources and milestones of long-read sequencing. b,Functional categories. c, Typicallong-read analysis pipelines for SMRT and nanopore data. Six main stages are identified through the presented workflow (i.e. basecalling, quality control, read error correction, assembly/alignment, assembly refinement, and down stream analyses). The green-coloured boxes represent processes common to both short-read and long-read analyses. The orange-coloured boxes represent the processes unique to long-read analyses. Unfilled boxes represent optional steps. Commonly used tools for each step in long-read analysis are within brackets. Italicssignify tools developed by either PacBio or ONT companies, and non-italics signify tools developed by external parties. Arrows represent the direction of the workflow.

2. 堿基判讀（Basecalling）

任何長序列分析的第一步都是堿基判讀，或是將原始序列轉換到核酸序列。長序列分析中的此步驟比在短序列分析中更受到重視，而短序列分析中堿基檢測依賴專門軟件，更標準化。Nanopore堿基檢測比SMRT堿基檢測更復雜，也更具有選擇性：我們發現26個堿基判讀工具中有23個與Nanopore測序相關的。

在SMRT測序中，連續的熒光被記錄為一個movie。由于模版是環形的，聚合酶可能會多次越過DNA片段的兩條鏈。SMRT堿基檢測從將熒光信號轉換為脈沖信號，再將脈沖信號轉換為堿基開始，形成連續的長序列。然后將這種長序列拆分為多個子序列，其中每個子序列對應一次被測的文庫，而沒有連接序列。子序列存儲為未比對的BAM文件。將這些子序列比對，可以得出插入序列的一致性環狀序列（CCS）。SMRT堿基判讀程序主要在于內部開發，并需要特殊訓練。當前SMRT的堿基檢測流程就是CCS。

Nanopore原始數據是在HDF5的基礎上以fast5格式保存的4kHz下測量的電流強度值。Nanopore測序的堿基檢測是一個活躍的研究領域，對其進行訓練的化學方法的算法正在迅速發展。ONT提供了堿基判讀的多種軟件，如Guppy和其他進階版軟件（Flappie，Scrappie，Taiyaki，Runnie和Bonito）。總的來說，堿基判讀軟件具有最佳準確性和最穩定的性能，并且適合大多數用戶。進階版的堿基判讀軟件可以用來測試堿基特征，例如均聚物準確性、變異體檢測或堿基修飾檢測，但不一定針對速度和整體準確性進行優化。

也可以使用具有不同網絡結構的獨立堿基判讀軟件，最著名的是Chiron。當然，作為使用者，我們應該知道堿基判讀軟件的準確度實際低于宣傳值。比如目前對ONT的堿基檢測進行了人、酵母和細菌DNA混合物的訓練，但它們在富含非CG甲基化的植物DNA上的性能可能較低。

3.?錯誤、糾錯和拋光（Errors, correction, and polishing）

SMRT和Nanopore技術的單序列精度均比短序列測序更低。就SMRT而言，一致性環形序列的質量很大程度上取決于序列讀取的次數——單個SMRT-bell分子的測序深度。若錯誤不是隨機的，增加測序深度將不能消除它們。但是子序列由插入/缺失帶來的隨機錯誤比錯配更多，因此建議使用通用方法來避免系統誤差。盡管如此，CCS序列仍有錯誤并對均聚物表現出偏好性。就Nanopore而言，序列質量與DNA序列的長度無關。序列質量取決于實現核酸通過孔的最佳轉運速度，通常在測序運行的后期降低，從而影響測序質量。較為常見的是插入和替換，隨機但不均勻分布。

盡管目前長序列測序的準確性已足以確定基因組來源，但某些仍需要很高的堿基水平的準確性，包括從頭組裝、變異檢測或定義內含子-外顯子邊界。可以采用單獨的長序列分析方法（非混合）和利用其他短序列的方法（混合）。如圖2所示。在非混合方法中，首先將所有序列比對，然后使用一致性序列來糾錯單個序列；此時就可以將這些糾錯過的片段用于組裝或其他應用。此外，還可以根據短序列的使用方法將混合糾錯方法進一步分類。

組裝完成后，從contigs中清除剩余錯誤的過程稱為“拋光（polishing）”。其中一種方法是通過使用Arrow（用于SMRT子序列）或Nanopolish（用于Nanopore電流軌跡）來提高一致性序列的準確性。對于Nanopore數據，polishing還考慮了堿基修飾來提高裝配的準確性。

盡管長序列測序的準確性不斷提高，但在許多應用中糾錯仍然是必不可少的。我們確定了62個能夠進行糾錯的工具。校正裝配需要綜合使用多種工具（如Racon、Pilon和Nanopolish）進行耐心細致的工作。但由于缺乏權威的糾錯流程，使得很多糾錯工具無法很好地應用于深度測序或大型基因組中。此外大多數工具在設計時都考慮了單倍體組件，但等位基因變異、重復和基因家族可能無法正確處理。

圖2. 糾錯（a）和拋光（b）的范例。長序列和組裝中的錯誤用紅叉表示，非混合方法僅需長序列，混合方法還需準確的短序列（紫色）。

Fig. 2 Paradigms of error correction(a) and polishing (b). Errors in long reads and assembly are denoted by red crosses. Non-hybrid methods only require long reads, while hybrid methods additionally require accurate short reads (purple).

4.檢測結構變異

盡管短序列能夠準確檢測單核苷酸變異和小片段插入或刪除，但不適用于檢測長序列改變。大于50bp的結構變異（SV），如插入、刪除、重復、染色體倒位或易位更適合用長序列測序。長序列測序跨越重復元件或重復區域的能力具有獨特的錨點，從而有利于從頭組裝和SV檢測。即使是相對較短的SMRT片段（5kb），也可以鑒定出人類基因組中先前被短序列技術遺漏的結構變異。

5.?檢測堿基修飾

除了規范的A、T、C和G堿基外，DNA還包括修飾堿基，這些堿基的性質和頻率在生物體和組織間會發生改變，6mA、4mC、5mC在細菌中很常見，5mC是真核生物中最常見的堿基修飾，而5hmC、5fC和5caC已經在某些哺乳動物細胞中檢測到，但尚未得到深入表征；此外由DNA損傷引起的更多堿基修飾仍在低頻發生。SMRT測序可以檢測到6mA、4mC、5mC和5hmC的DNA修飾。Nanopore測序中，經修飾的RNA或DNA堿基對電流通過孔的影響與未修飾堿基的影響不同，從而導致信號移位（如表1）。如圖3，可以通過三種不同的方法在堿基判讀后和比對后識別這些變化：（a）通過與計算機參考庫、對照或未修飾樣本比對；（b）使用預訓練模型；（c）直接使用堿基判讀軟件。

?表1 檢測Nanopore數據堿基修飾的工具和測量

圖3 長序列測序中檢測堿基修飾的方法。

Fig.3 Methods to detect base modifications in long-read sequencing.?Base modifications can be inferred from their effect on the current intensity (nanopore)and inter-pulse duration (IPD, SMRT). Strategies to call base modifications in nanopore sequencing and the corresponding tools are further depicted.

6.?分析長序列轉錄組（Analysing long-read transcriptomes）

可變剪切是增加真核生物基因表達復雜度的主要機制，然而短序列不能完全組裝也不能準確定量所表達的異構體，尤其是在復雜的位點中。長序列測序可能會通過測序全長轉錄本來解決這個問題，我們統計了36種與長序列轉錄組分析相關的工具。大多數長序列異構體檢測工具是通過將比對和糾錯的序列聚類并拼接為異構體，但是不同工具之間的具體實現有所不同。PacBio公司的ISO-SEQ3是最成熟的長序列轉錄組分析流程，能夠裝配全長的轉錄本；它為SMRT序列執行預處理，通過層次聚類和迭代合并從頭發現轉錄本，并進行修飾。Cupcake用于下游分析，提供了豐度信息并進行junction分析。但是Iso-Seq的文庫準備通常需要大小分級，這使得絕對定量和相對定量變得困難；同時昂貴的成本也是需要考慮的問題之一。因此，IsoCon、SQANTI、TALON等異構體檢測流程，以及FLAIR、Tama、IDP、TAPIS、Mandalorion Episode II等異構體注釋流程應運而生，從不同方面改善了Iso-Seq的上述問題。但此項功能仍需要進一步的研發和調整。如圖4，展示了轉錄組分析的類型及步驟。

圖4 轉錄組分析的類型及步驟

Fig.4 Types of transcriptomic analyses and their steps.The choice of sequencing protocol amongst the six available workflows affects the type, characteristics, and quantity of data generated. Only direct RNA sequencing allows epitranscriptomic studies, but SMRT direct RNA sequencing is a custom technique that is not fully supported. The remaining non-exclusive applications are isoform detection, quantification, and differential analysis. The dashed lines in arrows represent upstream processes to transcriptomics

7.?組合長序列、合成長序列和短序列（Combining long reads, synthetic long reads, and short reads）

僅基于長序列的組裝通常會產生高度完整和連續的基因組，但是多數情況下，短序列或合成長序列技術產生的序列可進一步改善結果。不同的技術可以以不同的規模進行干預：短序列可確保基本水平的準確性，高質量5-15kb SMRT序列可產生良好的contigs，而超長（100kb+）Nanopore序列、光學映射或Hi-C提升了contigs拼裝后轉變為染色體的能力。將這些技術應用到一個基因組計劃中將是非常昂貴的。然而，應用在一些基因子集中是比較常見的，尤其Nanopore/SMRT的短序列測序。

對于結構變化或堿基修飾的檢測，從SMRT和Nanopore數據獲取的正交支持可用于確認發現和限制假陽性。諸如Unicycler之類的工具整合了長序列和短序列數據以生成混合組裝，而Canu、Pilon、racon等工具也具有為實現此目的的流程。然而工具和數據類型的組成仍然是一個挑戰，通常需要大量的人工整合。

8.?長序列測序數據分析工具目錄：long-read-tools.org （long-read-tools.org: acatalogue of long-read sequencing data analysis tools）

在過去十年中，工具的迅猛發展反映了生物學領域對長序列測序日益增長的興趣。有開源靜態目錄（github.com/B-UMMI/long-read-catalog）、各個實驗室為特定目的開發的自定義流程（Search results from GitHub）以及其他將其歸納為一個更廣泛的研究社區的嘗試。能夠輕松識別存在或不存在的工具對于計劃和執行最佳實踐分析，建立全面的基準并指導新軟件的開發至關重要。因此我們引入了https://long-read-tools.org/，這是一個整合了長序列數據分析工具的實時數據庫。用戶可以按照技術和預期分析類型交互式搜索相應工具。除了真正的長序列測序技術之外，我們還整合了合成長序列方法。https://long-read-tools.org/是MIT許可下的一個開源項目，代碼可通過GitHub獲得。我們鼓勵研究人員直接通過GitHub或通過網頁為相關工具和數據庫的改進提供意見。

總結： 長序列測序技術為基因組學研究開辟了新的途徑，但目前仍面臨諸如獲取準確而完整的基因組和轉錄組的挑戰，因此需要進一步的努力來研發和基準化相關工具。

? ? ? ? ?? ? ? ?參考? ? ? ? ? ? ? ? ?

[1]?Amarasinghe et al.Opportunities and challenges in long-read sequencing data analysis，Genome Biology (2020) 21:30

? ? ? ? ? ?? ? ?后記? ? ? ? ? ? ?? ??

隨著測序技術的不斷發展，科學研究進入了數據井噴的時代。然而，測序樣本的處理流程、測序數據的分析流程甚至是數據分析過程中的數據庫搭建問題，都給測序技術的普及化設置了壁壘，嚴重阻礙了該項技術向廣大科研工作者中推廣。此外，基于長讀長的三代測序技術的發展更是引入了一套完全有別于二代測序數據處理的分析流程，為了讓更多學者認識三代測序、在科學研究中用好三代測序，本公眾號應運而生。期待與您一起學習、成長。

^_^ 邊學習，邊分享，每天進步一點點?^_^

往期精品(點擊圖片直達文字對應教程)

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的【重磅综述】长序列数据分析相关资源哪里找？一文读懂长序列测序数据分析的机遇与挑战！...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： “嘿，我们又见面了！”
下一篇：哈佛大学单细胞课程|笔记汇总（七）