16款测序平台性能大PK,华大表现不俗!基于人类和细菌基因组DNA水平的多平台测序数据研究成果发布...
生物信息學(xué)習(xí)的正確姿勢
NGS系列文章包括NGS基礎(chǔ)、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測序分析?(重磅綜述:三萬字長文讀懂單細(xì)胞RNA測序分析的最佳實(shí)踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內(nèi)容。
DNA是生命遺傳信息的載體,獲取DNA序列信息對于基礎(chǔ)科研和臨床診斷都至關(guān)重要。自1977年第一代測序技術(shù)問世以來,經(jīng)過四十余年的探索,DNA測序技術(shù)取得了重大進(jìn)展。隨著對測序成本降低的需求,以高通量為特點(diǎn)的第二代測序技術(shù)(NGS)應(yīng)運(yùn)而生并逐步成熟,以單分子測序?yàn)樘攸c(diǎn)的第三代測序技術(shù)也已經(jīng)誕生。DNA大規(guī)模平行測序已然成為基因組學(xué)研究和臨床診斷的重要工具
目前,能夠完成DNA大規(guī)模平行測序的平臺,除了基于邊合成邊測序原理的Illumina平臺和基于半導(dǎo)體測序法的Thermo Fisher平臺外,作為新興測序平臺代表的華大智造DNBSEQ平臺異軍突起,長讀長平臺Oxford Nanopore也呈飛躍式發(fā)展。
各家測序儀的“霸主之爭”由來已久,在人類和細(xì)菌基因組DNA層面的測序性能到底如何,不同的檢測需求又該如何進(jìn)行平臺選擇?到底應(yīng)該如何看待各個(gè)平臺的錯(cuò)誤模式?
近日,由生物分子資源設(shè)施協(xié)會(huì)(Association of Biomolecular Resource Facilities ,ARBF)支持的ABRF NGS II期研究成果發(fā)布于預(yù)印本平臺BioRxiv。此研究分析了在文庫制備和生物信息可控下,?各大測序平臺的數(shù)據(jù),將平臺的性能和測序錯(cuò)誤模式一一揭示,為各大平臺的“霸主之爭”提供真實(shí)全面的參考依據(jù)。
1
ABRF?NGS II?期研究,規(guī)模宏大
ABRF于1989年正式組建,成員包括來自41個(gè)國家/地區(qū)、340個(gè)不同核心實(shí)驗(yàn)室的1000多位科學(xué)家,成員來自工業(yè)界、政府、學(xué)術(shù)界以及研究機(jī)構(gòu)。ABRF致力于通過研究、交流和教育推進(jìn)生物技術(shù)實(shí)驗(yàn)室的核心競爭力和研究。
在ABRF NGS II期研究中,研究者在多個(gè)實(shí)驗(yàn)室內(nèi),基于16款測序平臺,對一個(gè)人類基因組家族、三個(gè)單獨(dú)的菌株和十種細(xì)菌的宏基因組混合物測序,并將各平臺數(shù)據(jù)進(jìn)行多角度比較。
這些平臺包括6款I(lǐng)llumina平臺、3款ThermoFisher Ion Torrent平臺, 2款DNBSEQ平臺(BGISEQ-500和MGISEQ-2000)以及Oxford Nanopore平臺和Genapsys平臺等。數(shù)據(jù)分析包括各平臺的reads mapping能力,不同平臺的測序覆蓋度、復(fù)雜區(qū)域的測序錯(cuò)誤率、不同突變類型的檢出影響因素等。
圖1. 試驗(yàn)設(shè)計(jì)圖:各大平臺數(shù)據(jù)質(zhì)量都較高,和參考基因組的比對率平均為96.1% (93.0–97.7%)
2
DNA水平測序數(shù)據(jù)分析
各大平臺各有千秋
基因覆蓋度分析
以25X均一化測序深度后,長讀長和短讀長平臺的基因組覆蓋度均較好。
按照UCSC的 RepeatMask分類,DNA重復(fù)序列分為Alu、L1、L2、LTR、微衛(wèi)星、簡單重復(fù)和端粒區(qū)域。測序數(shù)據(jù)顯示,對于DNA重復(fù)序列的檢測,平臺各有所長:BGISEQ-500、HiSeq4000?、NovaSeq 2x150bp在捕獲Alu區(qū)域時(shí)具有優(yōu)勢,HiSeq 2500、HiSeq X10和NovaSeq 2x150bp在捕獲L1、L2和低復(fù)雜度區(qū)域表現(xiàn)最佳,PacBio CCS和NovaSeq在微衛(wèi)星區(qū)域和簡單重復(fù)區(qū)域的測序中表現(xiàn)最好, PromethION平臺的特長則在端粒區(qū)域的捕獲。?
圖2. 各測序平臺數(shù)據(jù)基因覆蓋情況分布:a.25X平均測序深度下,UCSC RepeatMask的覆蓋情況;b.基因組平均覆蓋度與所有其他平臺平均覆蓋度
測序錯(cuò)誤率
分析結(jié)果顯示,測序錯(cuò)誤率與基因組GC含量具有直接相關(guān)性。在GC含量比較高的區(qū)域(75%-100%),各平臺的錯(cuò)誤率均比較高。就錯(cuò)誤模式而言,華大智造的DNBSEQ平臺和Illumina平臺更傾向于核苷酸替代,而且這兩個(gè)平臺比較,靈敏度相當(dāng),但華大智造的精度略好;Genapsys平臺和長讀長平臺最主要錯(cuò)誤來源是插入/缺失。
圖3. 按UCSC-RepeatMask區(qū)域的各平臺的測序錯(cuò)誤率:(a)跨GC-windows的錯(cuò)誤檢出類型;(b)條形圖顯示各區(qū)域類型的總平均錯(cuò)誤率;(c)均聚物(n=72,687)和短串聯(lián)重復(fù)序列(n=928,143)區(qū)域的錯(cuò)誤率
SNV和INDEL突變檢測
SNV(單核苷酸變異)和INDEL(插入/缺失突變)是生物DNA常見的突變類型。
在SNV的檢出中,?華大智造的DNBSEQ平臺最為靈敏,其次是NovaSeq 2x250bp、NovaSeq 2x150bp、HiSeq 2500、HiSeq X10和HiSeq4000平臺。對INDEL的檢出中,所有平臺靈敏度均達(dá)到99.5%,華大智造的DNBSEQ平臺和NovaSeq的檢出相似,優(yōu)于其他平臺。PacBio、Nanopore平臺對于SNV和INDEL的捕獲能力均較弱。
圖4. 各平臺SNPs和 INDEL的檢出情況:(a)每個(gè)UCSC RepeatMask的SNP和INDEL檢出數(shù)量;(b)各平臺對SNP和INDEL突變檢出的靈敏性和特異性;(c)各平臺捕獲INDEL突變的片段大小分布
SV檢測
數(shù)據(jù)表明, SV(結(jié)構(gòu)變異)的檢出與多因素相關(guān),如SV類型、測序平臺、實(shí)驗(yàn)室間的操作等。
在各平臺數(shù)據(jù)中,HiSeqX10檢測到SVs數(shù)量最多,其次是HiSeq4000和HiSeq2500。檢出假陽性最多的平臺依次是HiSeq2500, HiSeqX10和HiSeq4000。
圖5. 基于不同平臺的SV檢出:a.測序反應(yīng)中,不同SV類型的檢出分布;b-d.關(guān)于SV突變檢出的多角度分析;b.測序平臺;c.實(shí)驗(yàn)室;d.多重突變;e.每100kbwindows的SV檢出。
細(xì)菌基因組的捕獲
此研究對于GC不平衡的原核細(xì)菌基因組進(jìn)行了測序分析,包括三種單一菌種和十種細(xì)菌的混合物,各樣本分別于MiSeq、Ion PGM和 Ion S5平臺測序。
細(xì)菌基因組捕獲的影響因素主要為菌種差異和測序平臺差異。在各個(gè)平臺中,ThermoFisher的Ion PM和 S5平臺在錯(cuò)誤率角度略勝一籌。對于復(fù)雜的宏基因組樣本,所有平臺都能夠識別混合物中的所有菌株,但對基因突變的捕獲水平差異較大。
圖6. 細(xì)菌基因組測序數(shù)據(jù):a.基于各個(gè)平臺細(xì)菌基因組混合物的檢測結(jié)果,各菌種的類型和分布;b.宏基因組中各菌種占比;c.各個(gè)測序平臺,單一菌種和宏基因組混合物的測序錯(cuò)誤率
3
成熟平臺風(fēng)采依舊,新興平臺前景可期
ABRF NGS II期研究是迄今為止最全面的DNA測序分析研究之一,此研究跨越不同基因組大小和核苷酸組成,多角度分析揭示了測序平臺之間的特征差異,以及同一平臺的可變性和可重復(fù)性。
綜合各項(xiàng)數(shù)據(jù),樣本的GC含量是影響測序錯(cuò)誤率的主要因素。對單一樣本的DNA測序而言,成熟的平臺如Illumina的表現(xiàn)依舊名列前茅,新興平臺的多項(xiàng)性能已經(jīng)和成熟平臺不相上下。但就特定區(qū)域如Alu的捕獲能力,對SNV、INDEL的檢出和錯(cuò)誤模式的評估,來自華大智造的DNBSEQ平臺,受益于其獨(dú)特的測序文庫方法學(xué),已經(jīng)獨(dú)具優(yōu)勢。
不可忽略的是,“對于宏基因組樣本,各平臺對樣本變異的捕獲能力差異較大,這表明在復(fù)雜背景下對于特定突變的捕獲,仍存在挑戰(zhàn)”, 論文作者、威爾康奈爾醫(yī)學(xué)院Jonathan Foox教授如是說。
多年來,DNA大規(guī)模平行測序的市場一直由Illumina和ThermoFisher等寡頭壟斷。通過此研究,我們欣喜的發(fā)現(xiàn),越來越多的新興測序平臺依托精益求精的性能指標(biāo),在“霸主之爭”中不可小覷。
參考資料:
Jonathan Foox .et al,Multi-Platform Assessment of DNA Sequencing Performance using Human and Bacterial Reference Genomes in the ABRF Next-Generation Sequencing Study , bioRxiv ,2020,doi:https://doi.org/10.1101/2020.07.23.218602
NBT|45種單細(xì)胞軌跡推斷方法比較,110個(gè)實(shí)際數(shù)據(jù)集和229個(gè)合成數(shù)據(jù)集
單細(xì)胞RNA-seq預(yù)處理工具比較分析(bioRxiv)
39個(gè)工具,120種組合深度評估 (轉(zhuǎn)錄組分析工具哪家強(qiáng))
往期精品(點(diǎn)擊圖片直達(dá)文字對應(yīng)教程)
后臺回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的16款测序平台性能大PK,华大表现不俗!基于人类和细菌基因组DNA水平的多平台测序数据研究成果发布...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 那个一年发4篇cell的研究生后来怎样了
- 下一篇: 中医科学院院士团队解析丹参纯合基因组和新