日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Oxford Nanopore MinION Sequencing and Genome Assembly

發(fā)布時(shí)間:2023/12/20 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Oxford Nanopore MinION Sequencing and Genome Assembly 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Oxford Nanopore MinION Sequencing and Genome Assembly??

Oxford Nanopore MinION測(cè)序和基因組組裝

摘要

? ? ? ?在成功的第二代測(cè)序(secondgeneration sequencing, SGS)技術(shù)之后,基因組測(cè)序的革命仍在繼續(xù)。由太平洋生物科學(xué)公司(PacBio)領(lǐng)導(dǎo)的第三代測(cè)序(TGS)技術(shù)正在迅速發(fā)展,從以前只能提供數(shù)據(jù)進(jìn)行小型基因組分析或進(jìn)行靶向篩選,發(fā)展到可以為人類大小基因組提供高質(zhì)量的從頭組裝和結(jié)構(gòu)變異檢測(cè)。

2014年,MinION,第一個(gè)使用納米孔技術(shù)的商業(yè)化測(cè)序器,由牛津納米孔技術(shù)(ONT)發(fā)布。MinION通過測(cè)量DNA鏈通過生物孔時(shí)產(chǎn)生的電導(dǎo)率變化來識(shí)別DNA堿基。它的可移植性、可負(fù)擔(dān)性和數(shù)據(jù)產(chǎn)生的速度使它適合實(shí)時(shí)應(yīng)用,長(zhǎng)讀排序器MinION的發(fā)布因此在基因組學(xué)界引起了極大的興奮和興趣。雖然新生基因組裝配可以從SGS數(shù)據(jù)廉價(jià)生產(chǎn),但裝配連續(xù)性通常較差,因?yàn)槎套x處理長(zhǎng)重復(fù)的能力有限。通過使用TGS長(zhǎng)讀,可以極大地提高裝配質(zhì)量,因?yàn)橹貜?fù)區(qū)域可以很容易地?cái)U(kuò)展為使用更長(zhǎng)的測(cè)序長(zhǎng)度,盡管在基本級(jí)別有更高的錯(cuò)誤率。在需要快速和可靠的測(cè)序但資源有限的地方進(jìn)行基因組監(jiān)測(cè)的各種研究已經(jīng)證明了納米孔測(cè)序的潛力。

Introduction

? ? ? ?在過去的20年里,隨著第一代和第二代測(cè)序技術(shù)的發(fā)展,基因組學(xué)發(fā)生了革命性的變化,使許多其他著名的項(xiàng)目得以完成,其中包括人類基因組計(jì)劃[1,2]和1000個(gè)基因組計(jì)劃[3]。第一種DNA測(cè)序方法是Sanger在1975年提出的[4,5],另一種方法是Maxam和Gilbert在1977年提出的[6],分別稱為鏈終止法和化學(xué)測(cè)序法。與化學(xué)測(cè)序方法相比,鏈終止法更簡(jiǎn)單、更可擴(kuò)展,最終被廣泛應(yīng)用于第一代測(cè)序。不同插入大小的DNA文庫可以很容易地生成,這是很有用的,因?yàn)檎麄€(gè)基因組裝配受益于混合插入大小的讀取。然而,第一代測(cè)序的低通量高成本導(dǎo)致了方法上的根本性轉(zhuǎn)變,使我們轉(zhuǎn)向SGS。大規(guī)模并行測(cè)序的革命始于2005年羅氏454 's焦磷酸測(cè)序系統(tǒng)的引入。隨后,Illumina/Solexa公司于2007年推出了基于合成測(cè)序的基因組分析儀平臺(tái),ABI公司的固體系統(tǒng)采用了測(cè)序-連接[7]技術(shù)。SGS技術(shù)在過去十年中一直主導(dǎo)著測(cè)序市場(chǎng),因?yàn)樗軌?strong>以低廉的成本產(chǎn)生大量的數(shù)據(jù)。然而,由于很難解決基因組[7]中的重復(fù)序列,SGS產(chǎn)生的短讀導(dǎo)致較大基因組的從頭組裝高度碎片化。與化學(xué)測(cè)序方法相比,鏈終止法更簡(jiǎn)單、更可擴(kuò)展,最終被廣泛應(yīng)用于第一代測(cè)序。不同插入大小的DNA文庫可以很容易地生成,這是很有用的,因?yàn)檎麄€(gè)基因組裝配受益于混合插入大小的讀取。然而,第一代測(cè)序的低通量高成本導(dǎo)致了方法上的根本性轉(zhuǎn)變,使我們轉(zhuǎn)向SGS。大規(guī)模并行測(cè)序的革命始于2005年Roche 454's焦磷酸測(cè)序系統(tǒng)的引入。隨后,Illumina/Solexa公司于2007年推出了基于合成測(cè)序的基因組分析儀平臺(tái),ABI公司的固體系統(tǒng)采用了測(cè)序-連接[7]技術(shù)。SGS技術(shù)在過去十年中一直主導(dǎo)著測(cè)序市場(chǎng),因?yàn)樗軌蛞缘土某杀井a(chǎn)生大量的數(shù)據(jù)。然而,由于很難解決基因組[7]中的重復(fù)序列,SGS產(chǎn)生的短讀導(dǎo)致較大基因組的從頭組裝高度碎片化。

? ? 對(duì)操作速度更快、讀取時(shí)間更長(zhǎng)技術(shù)的需求導(dǎo)致了新測(cè)序方法的出現(xiàn),即所謂的第三代測(cè)序(TGS)。主要的SGS平臺(tái)通過合成(SBS)技術(shù)來調(diào)整測(cè)序,這些技術(shù)依賴于PCR來擴(kuò)大給定DNA模板的簇。相比之下,TGS技術(shù)直接針對(duì)單個(gè)DNA分子,實(shí)現(xiàn)了實(shí)時(shí)測(cè)序,讀取數(shù)據(jù)一旦通過測(cè)序器,就可以進(jìn)行分析。TGS平臺(tái)有三個(gè)重要的改進(jìn):(1)每次讀取的讀長(zhǎng)從幾十個(gè)堿基增加到幾萬個(gè)堿基;(2)將測(cè)序時(shí)間從天減少到小時(shí)(實(shí)時(shí)應(yīng)用為分鐘);(3)通過PCR擴(kuò)增[8]減少或消除測(cè)序偏差。除了Helicos熒光測(cè)序(http://seqll.com/),第一個(gè)成功的單分子實(shí)時(shí)(SMRT)技術(shù)是由Pacific Biosciences (PacBio, http://www.pacb.com/)引進(jìn)的。使用現(xiàn)代試劑和測(cè)序試劑盒,PacBio RS II系統(tǒng)的典型通量為每個(gè)SMRT細(xì)胞0.5-1 GB,平均讀長(zhǎng)約為10 kb。Nonetheless, PacBio reads 有 更高 的 錯(cuò)誤率 (10%-15%) than SGS 讀取 (<2%) [9].幸運(yùn)的是,這些測(cè)序錯(cuò)誤是隨機(jī)分布的,因此可以通過使用循環(huán)一致測(cè)序(CCS)[10]大大降低測(cè)序率,其中一個(gè)分子模板及其補(bǔ)體鏈被測(cè)序多次,以產(chǎn)生一個(gè)獨(dú)特的一致。

2014年,牛津納米孔技術(shù)公司(ONT)通過一個(gè)早期訪問項(xiàng)目(MinION access program, MAP)發(fā)布了一個(gè)新的TGS平臺(tái)——MinION設(shè)備。ONT數(shù)據(jù)的讀長(zhǎng)剖面與PacBio非常相似,最大讀長(zhǎng)可達(dá)幾十萬堿基對(duì)[11,12]。然而,ONT reads的錯(cuò)誤率高于PacBio reads,準(zhǔn)確率在65%- 88%之間[11-13]。此外,此時(shí),每MinION flowcell運(yùn)行的通量不是很穩(wěn)定,從低于0.1 GB到1 GB的原始序列數(shù)據(jù)[13]不等。由于其體積小,設(shè)備成本低,MinION測(cè)序儀吸引了基因組學(xué)界相當(dāng)大的興趣,特別是在病原體監(jiān)測(cè)和臨床診斷應(yīng)用,因?yàn)檫@些領(lǐng)域?qū)⑹芤嬗谠摐y(cè)序平臺(tái)的實(shí)時(shí)性質(zhì)。Rhoads和Au[14]對(duì)PacBio測(cè)序及其應(yīng)用進(jìn)行了全面的綜述,并對(duì)PacBio測(cè)序與SGS平臺(tái)的性能進(jìn)行了比較。在這篇綜述中,我們重點(diǎn)介紹了MinION測(cè)序、數(shù)據(jù)特征、基因組組裝算法以及PacBio和ONT平臺(tái)的區(qū)別。

?

?

重新組裝基因組TGS數(shù)據(jù)的技術(shù)優(yōu)勢(shì)之一是讀取長(zhǎng)度,這為基因組裝配提供了廣闊的前景。一般來說,組裝器是基于幾種不同類型的算法,如貪心、重疊布圖一致性(OLC)、德布魯因圖(DBG)字符串圖(Henson et al.[34]綜述)。早期的裝配者通常使用OLC范式來裝配Sanger測(cè)序讀,而現(xiàn)代的裝配者使用DBG范式來裝配SGS短讀。盡管DBG方法速度更快,但是基于olc的算法對(duì)于長(zhǎng)時(shí)間讀取具有更高基本錯(cuò)誤率的[35]有更好的性能。因此,針對(duì)長(zhǎng)PacBio和ONT讀設(shè)計(jì)的組裝器主要是基于OLC方法的流水線。

為了制造一個(gè)全新的olc為基礎(chǔ)的組裝,通常有三個(gè)基本階段的過程:預(yù)組裝,共識(shí)建設(shè),共識(shí)拋光(preassembly, consensus build up, and consensus polishing.)。裝配前數(shù)據(jù)處理的目標(biāo)是通過修正基誤差來生成長(zhǎng)而精確的序列。根據(jù)讀取長(zhǎng)度分布選擇種子讀取(排序讀取的子集)。然后將每個(gè)讀操作映射到種子讀操作,從而為映射讀操作生成一致序列,從而生成目標(biāo)基因組的長(zhǎng)而準(zhǔn)確的片段。這一步的計(jì)算非常密集,因?yàn)樗婕八衯s-all原始讀映射和基本錯(cuò)誤校正。下一步是從重疊的read中建立共識(shí)。在選擇組裝算法時(shí)有一些可用的選項(xiàng),但是OLC匯編器為使用多kb長(zhǎng)讀的從頭匯編提供了明顯的優(yōu)勢(shì)。對(duì)于任何長(zhǎng)度重復(fù)的基因組,一次較長(zhǎng)的錯(cuò)誤糾正讀可以簡(jiǎn)單地填補(bǔ)唯一序列的缺口,并確保一致構(gòu)建過程不間斷地繼續(xù)進(jìn)行。當(dāng)設(shè)計(jì)一個(gè)從頭開始的基因組測(cè)序項(xiàng)目時(shí),需要合理的讀覆蓋(50 - 60)來產(chǎn)生足夠的讀覆蓋,從而唯一地錨定基因組裝配中最長(zhǎng)的重復(fù)區(qū)域。對(duì)于預(yù)組裝讀取,在重復(fù)區(qū)域可能存在基本錯(cuò)誤,其中原始基本錯(cuò)誤與重復(fù)相耦合。在預(yù)先組裝的解讀中,諸如indels和替換之類的錯(cuò)誤也可以很容易地傳遞到共識(shí)。因此,需要對(duì)從TGS數(shù)據(jù)生成的程序集進(jìn)行一致的拋光。為了顯著減少草案中剩余的錯(cuò)誤數(shù)量,可以使用PacBio bas中嵌入的豐富的質(zhì)量分?jǐn)?shù)來實(shí)現(xiàn)一種質(zhì)量意識(shí)一致的算法。h5文件或事件的原始離子電流在ONT MinION FAST5文件。Quiver[36]算法處理PacBio bas中可用的四種不同的每基質(zhì)量值(QV分?jǐn)?shù))。h5文件,它表示在單次讀取中插入、刪除、替換合并堿基調(diào)用的內(nèi)在計(jì)算的錯(cuò)誤概率。對(duì)于MinION平臺(tái),裝配的最后拋光可以使用Loman等人開發(fā)的Nanopolish進(jìn)行,該技術(shù)通過根據(jù)事件的原始離子電流重新評(píng)估和最大化每個(gè)基的概率來改進(jìn)裝配的基礎(chǔ)質(zhì)量,FAST5文件中可以訪問這些基。

PacBio糾正讀取匯編和Canu

PacBio Corrected Reads assembler and Canu

PacBio Corrected Reads(PBcR)組裝程序(http://wgsassembler.sourceforge.net/wiki/index.php/PBcR)是第一個(gè)使用分層裝配方法(正確、重疊、裝配)的流水線,這表明在基本錯(cuò)誤糾正之后,可以使用有噪聲的長(zhǎng)讀來進(jìn)行裝配。針對(duì)PacBio特異性h5文件[41]的輸入,建立了PacBio長(zhǎng)讀的層次化基因組裝配過程(HGAP)[40]。然而,當(dāng)原始測(cè)序數(shù)據(jù)轉(zhuǎn)化成FASTQ / FASTA文件,對(duì)齊工具等基本的局部比對(duì)連續(xù)細(xì)化(BLASR) [42], DALIGNER (https://github.com/thegenemyers/ DALIGNER)或Celera Assembler可以用來計(jì)算多個(gè)比對(duì)基礎(chǔ)誤差校正和重疊檢測(cè)共識(shí)布局緊隨其后。易出錯(cuò)長(zhǎng)序列讀取的快速、敏感映射是關(guān)鍵,對(duì)多比對(duì)的計(jì)算要求很高。在過去幾年里,PBcR在組裝細(xì)菌基因組[43,44]、中型果蠅和擬南芥基因組[45],以及最近的人類基因組[46,47]方面取得了顯著的性能改進(jìn),這要?dú)w功于一種新的、更快的算法,稱為MinHash比對(duì)過程(MHAP)[45]。MHAP采用概率方法對(duì)長(zhǎng)讀進(jìn)行基于重疊的匯編(overlap-based assembly of long reads)。為了加速千兆字節(jié)大小的基因組的裝配,MinHash將長(zhǎng)而稀疏的文本表示為種子序列,或者將一串信息表示為一組指紋,這樣裝配過程就可以使用更少的計(jì)算資源,以更緊湊的數(shù)據(jù)進(jìn)行。最新的努力已經(jīng)導(dǎo)致了一種新的組裝器Canu (https://github.com/marbl/canu)的開發(fā),它采用了與PBcR相同的策略和方法,但提供更高的速度和更好的可用性。Canu的第一個(gè)版本于2015年底發(fā)布。

Falcon組裝器

由PacBio的Jason Chin開發(fā)的Falcon[48]組裝器是另一種采用HGAP策略的流水線。它與PBcR具有許多相同的特性,如使用DALIGNER進(jìn)行基本錯(cuò)誤校正的原始讀重疊和重疊濾波。主要的區(qū)別在于其重疊共識(shí)的產(chǎn)生。給定重疊數(shù)據(jù),從數(shù)據(jù)集構(gòu)造一個(gè)string graph來表示具有重疊的讀操作的連接,其中路徑是讀操作之間的連接,邊是連接讀操作。由于基因組多態(tài)性和測(cè)序錯(cuò)誤,我們進(jìn)行了圖邊緣約簡(jiǎn)來去除復(fù)雜性。創(chuàng)建draft contigs的共識(shí)步驟是找到每個(gè)contig圖對(duì)應(yīng)的一條路徑,然后生成相應(yīng)的序列。人們一直在努力使Falcon成為一種能夠識(shí)別多倍體的組裝器,并設(shè)計(jì)了新的算法來重建完整的單倍型。對(duì)于輸入邊和輸出邊唯一的簡(jiǎn)單圖,以一種簡(jiǎn)單的方式生成疊架。在疊架圖不是簡(jiǎn)單路徑的情況下,首先生成主疊架圖,主疊架圖的底重疊最多的端到端路徑。此外,在一個(gè)多路徑圖中,如果可能有一條與主路徑不同的可選路徑,就會(huì)構(gòu)造另一條contig,稱為關(guān)聯(lián)的contig。主群和副群(primary and associated contigs)的同源性比較可以揭示基因組多態(tài)性。當(dāng)相關(guān)的contig被測(cè)序錯(cuò)誤誘導(dǎo)時(shí),備用的contig和主的contig會(huì)有很高的一致性(大部分時(shí)間為>99%)。在存在真正的結(jié)構(gòu)多態(tài)性的情況下,主群和相關(guān)群被分離,每一個(gè)從基因組中代表一個(gè)不同的單倍型。

總結(jié)

以上是生活随笔為你收集整理的Oxford Nanopore MinION Sequencing and Genome Assembly的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。