基因组装配新前沿:长片段完成完整的基因组
基因組裝配新前沿:長(zhǎng)片段完成完整的基因組
PacBio?長(zhǎng)讀序?yàn)榛蚪M完成帶來(lái)了新變革。資深基因組裝配專(zhuān)家開(kāi)發(fā)的錯(cuò)誤校正軟件使科學(xué)家能在其短讀取數(shù)據(jù)中添加長(zhǎng)讀序數(shù)據(jù),最終將那些未完成的基因組補(bǔ)全。
? ? ? ??PacBio?長(zhǎng)讀序?yàn)榛蚪M完成帶來(lái)了新變革。資深基因組裝配專(zhuān)家開(kāi)發(fā)的錯(cuò)誤校正軟件使科學(xué)家能在其短讀取數(shù)據(jù)中添加長(zhǎng)讀序數(shù)據(jù),最終將那些未完成的基因組補(bǔ)全。!--?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /--
????????在過(guò)去的十年,基因組裝配讓一些科學(xué)家渴望轉(zhuǎn)向新的挑戰(zhàn),但Michael Schatz卻不同,他認(rèn)為近來(lái)創(chuàng)新測(cè)序技術(shù)的長(zhǎng)讀序?yàn)檫@一領(lǐng)域帶來(lái)了新的生命力。“基因組裝配的前沿發(fā)展迅速,”他說(shuō)。“這正是基因組測(cè)序激動(dòng)人心的時(shí)刻。”
????????Schatz是冷泉港實(shí)驗(yàn)室的助理教授,在國(guó)家生物防衛(wèi)分析和對(duì)策中心的Adam Phillippy?和?Sergey Koren領(lǐng)導(dǎo)的基因組裝配項(xiàng)目中做出了卓越貢獻(xiàn)。他們的目標(biāo)是應(yīng)用PacBio?RS測(cè)序儀生成的長(zhǎng)讀序顯著提高基因組裝配的質(zhì)量,甚至直接將讀序裝配成高質(zhì)量的完成基因組。他們的研究成果發(fā)表在!--?xml:namespace prefix = st1 ns = "urn:schemas-microsoft-com:office:smarttags" /--2012年7月1日的Nature Biotechnology雜志上。
?
???Phillippy和Schatz從事了十余年基因組裝配,Schatz回憶起他們?cè)诨蚪M研究所進(jìn)行細(xì)菌基因組裝配項(xiàng)目時(shí)的情形,“那時(shí)要完成基因組裝配的最后一步,補(bǔ)全每一個(gè)缺口,極其昂貴。”
?
?????? ?那還是Sanger測(cè)序的時(shí)代,Sanger測(cè)序被認(rèn)為是高質(zhì)量基因組裝配的基礎(chǔ)金標(biāo)方法。幾年后短讀序測(cè)序技術(shù)開(kāi)始流行,Schatz及其同事發(fā)現(xiàn)隨著contigs重疊群數(shù)量、重復(fù)、片段倍增的顯著增加,要準(zhǔn)確裝配基因組反而變得更加困難。從那時(shí)起,Phillippy、Koren and Schatz就開(kāi)始致力于需求昂貴的Sanger測(cè)序以外的方法,來(lái)獲得高質(zhì)量的基因組裝配。
?
????“我們非常興奮,這一技術(shù)能解決我們數(shù)年來(lái)面臨的許多困難”
?
????????當(dāng)他們聽(tīng)說(shuō)Pacific Biosciences公司將推出長(zhǎng)讀序的測(cè)序平臺(tái),“我們非常興奮,這一技術(shù)能解決我們數(shù)年來(lái)面臨的許多困難,”Schatz說(shuō)。
?
?????? ?和其他新測(cè)序技術(shù)一樣,PacBio SMRT?測(cè)序方法意味著科學(xué)家們需要學(xué)習(xí)如何對(duì)數(shù)據(jù)進(jìn)行評(píng)估和應(yīng)用。該測(cè)序技術(shù)的單分子特性所得初始讀取的錯(cuò)誤率較高。
?
?????? ?短讀序測(cè)序儀將許多序列重合在一起只報(bào)告檢出一致的堿基,從而提高單次讀序的準(zhǔn)確性,Phillippy、Koren和Schatz相信也能以同樣的方式優(yōu)化PacBio的讀取。他們決定對(duì)Celera?裝配程序進(jìn)行升級(jí)來(lái)適應(yīng)新型數(shù)據(jù),并在這一過(guò)程中意識(shí)到長(zhǎng)讀序數(shù)據(jù)的確是獲得更清晰的高質(zhì)量基因組裝配的良機(jī)。
?
研究團(tuán)隊(duì)的主要突破是開(kāi)發(fā)出了一種錯(cuò)誤校正方法,該方法利用PacBio?RS測(cè)序儀的長(zhǎng)讀序優(yōu)勢(shì),混入精確度高的短讀取數(shù)據(jù),然后通過(guò)Celera Assembler軟件進(jìn)行處理,生成高質(zhì)量的基因組裝配。“我們開(kāi)發(fā)的軟件結(jié)合了多方優(yōu)勢(shì),處理數(shù)據(jù)非常完美。”Schatz說(shuō)。“幾乎完全補(bǔ)償了明顯較高的初始錯(cuò)誤率。”這篇發(fā)表在Nature Biotech雜志的文章顯示,通過(guò)這一方法,讀取精確性達(dá)到了99.9%以上,并且contig的平均長(zhǎng)度是短讀序技術(shù)的兩倍。
?
?“研究團(tuán)隊(duì)在多種生物的基因組測(cè)序中證明了該方法的有效性,從簡(jiǎn)單的微生物到高等真核生物,‘這一方法十分有效’”
?
長(zhǎng)讀序的優(yōu)勢(shì)
?
???????Phillippy、Koren和Schatz堅(jiān)信長(zhǎng)讀序技術(shù)是高質(zhì)量基因組裝配的關(guān)鍵,這在某種程度上與科學(xué)界的趨勢(shì)背道而馳。使用短讀序測(cè)序儀的大多數(shù)科學(xué)家只是簡(jiǎn)單的通過(guò)他們的平臺(tái)獲取更高的覆蓋度,以期改善其感興趣的生物基因組的裝配。
?
????????那為何Phillippy、Koren和Schatz不采取同樣的措施呢?他們深厚的基因組裝配背景告訴大家,這樣不可行。“我們知道短讀取的信息不夠,”Schatz說(shuō)。“如果我們能從長(zhǎng)讀序中提取信息,我們就能確定能夠做出好的裝配。”
?
????????這些科學(xué)家知道長(zhǎng)讀序?qū)τ诨蚪M裝配是關(guān)鍵的,而短讀序測(cè)序儀永遠(yuǎn)無(wú)法將讀長(zhǎng)提高到數(shù)千堿基。“我對(duì)合成測(cè)序技術(shù)感興趣的原因就在于它的反應(yīng)能達(dá)到10,000個(gè)堿基長(zhǎng),而化學(xué)過(guò)程是無(wú)法維持這么多循環(huán)的,”Schatz說(shuō)。“要得到長(zhǎng)讀序,就只能使用單分子測(cè)序。”
?
????????而單分子測(cè)序存在的問(wèn)題就是該技術(shù)固有特性會(huì)使初始數(shù)據(jù)錯(cuò)誤率高,Schatz補(bǔ)充道。“由于我們一次檢測(cè)一個(gè)單分子,這一過(guò)程中就會(huì)遇到各種各樣的錯(cuò)誤,”相比之下,短讀序測(cè)序系統(tǒng)采用多個(gè)序列的一致序列,掩蓋了單個(gè)錯(cuò)誤,這些系統(tǒng)不會(huì)報(bào)告單分子錯(cuò)誤率。
?
????????單分子測(cè)序技術(shù)特別有利的一點(diǎn)在于,一些短讀序測(cè)序平臺(tái)生成的數(shù)據(jù)帶有系統(tǒng)誤差,而PacBio數(shù)據(jù)的誤差是隨機(jī)性的。而對(duì)于信息學(xué)專(zhuān)家來(lái)說(shuō),隨機(jī)誤差可以通過(guò)算法來(lái)識(shí)別并校正,而系統(tǒng)誤差則不能。
?
????????Schatz還強(qiáng)調(diào),單分子測(cè)序還具有基因組裝配以外的優(yōu)勢(shì)。在他們的文章中,Phillippy和Koren對(duì)其合作者聯(lián)合基因組研究所的Zhong Wang生成的玉米轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行了初步分析。Schatz說(shuō),“在這項(xiàng)工作中,我們并不是嘗試推斷選擇性剪切,而是直接讀取了選擇性剪切的位點(diǎn)。而沒(méi)有單分子測(cè)序技術(shù)這就無(wú)法實(shí)現(xiàn)。”錯(cuò)誤修正軟件,使此前無(wú)法實(shí)現(xiàn)的應(yīng)用成為可能。
?
軟件的開(kāi)發(fā)
?
???????這一項(xiàng)目的研究團(tuán)隊(duì)成立于多年以前:Phillippy、Koren和Schatz都是馬里蘭大學(xué)Steven Salzberg和Mihai Pop的學(xué)生,同時(shí)也是TIGR和JCVI研究所的同事。研究團(tuán)隊(duì)還包括,以鸚鵡作為語(yǔ)言發(fā)育研究模型的共同作者Erich Jarvis,以及JCVI的Brian Walenz。
?
????????在為PacBio數(shù)據(jù)開(kāi)發(fā)糾錯(cuò)工具的過(guò)程中,科學(xué)家對(duì)幾種長(zhǎng)讀序校正方法進(jìn)行了評(píng)估。研究人員評(píng)估其中的一個(gè)變量是時(shí)間點(diǎn),即何時(shí)進(jìn)行錯(cuò)誤校正。“一個(gè)常用策略是先只對(duì)Illumina只是短片段的數(shù)據(jù)進(jìn)行裝配,然后比對(duì)PacBio讀序,我們稱(chēng)之為混合搭建技術(shù),”Schatz說(shuō)。“將PacBio長(zhǎng)讀序與Illumina的重疊群進(jìn)行比對(duì)能有效對(duì)長(zhǎng)讀序的錯(cuò)誤進(jìn)行校正。”
?
????????但這種方法并沒(méi)有達(dá)到Phillippy和Schatz的預(yù)期效果。“我們發(fā)現(xiàn)如果在短讀序?裝配中存在任何問(wèn)題——例如重復(fù)序列重疊collapsed、存在嵌合contigs或者裝配出許多分散的片段——就很難有效應(yīng)用那些長(zhǎng)讀序,”Schatz說(shuō)。“這使我們轉(zhuǎn)而致力于提前進(jìn)行錯(cuò)誤校正。”
?
????????的確,最終的方法需要先將短讀序定位到PacBio長(zhǎng)讀序上,然后用校正過(guò)的讀序進(jìn)行裝配。事實(shí)證明要有效將短讀序定位到長(zhǎng)讀序上也是一個(gè)挑戰(zhàn),“我們最終使用了一種較為強(qiáng)力的方法,采用非常短而精確的配對(duì),”Schatz說(shuō)。“我們通過(guò)改進(jìn)Celera Assembler做到了這一點(diǎn)。”
?
?????另一個(gè)復(fù)雜的問(wèn)題是,當(dāng)長(zhǎng)讀序主要由重復(fù)序列構(gòu)成時(shí),如何精確比對(duì)短讀序。“尤其是當(dāng)這一重復(fù)具有高于99%的一致性時(shí),要正確識(shí)別相應(yīng)短讀序并將其定位到長(zhǎng)讀序上,就相當(dāng)麻煩。”為了解決這一難題,研究人員對(duì)每條短讀序最可能的比對(duì)序列進(jìn)行了評(píng)估,然后仔細(xì)評(píng)價(jià)比對(duì)覆蓋度,最終確定最佳配對(duì)。?“我們花了很多時(shí)間來(lái)優(yōu)化能區(qū)分這些重復(fù)的最佳算法,”Schatz說(shuō)。
?
????????這一項(xiàng)目的所有代碼都是公共資源,能通過(guò)SourceForge網(wǎng)站上的Celera Assembler軟件取得相關(guān)文檔。http://wgs-assembler.sourceforge.net.
?
短讀序數(shù)據(jù)集結(jié)號(hào)
?
“這一領(lǐng)域潛伏著PacBio應(yīng)用的巨大需求”
?
研究團(tuán)隊(duì)評(píng)估的另一個(gè)變量是哪種短讀序用來(lái)校正PacBio數(shù)據(jù)最好,但他們并沒(méi)有發(fā)現(xiàn)強(qiáng)偏向性,Schatz說(shuō)。“PacBio CCS、Illumina?或者454?生成的讀序都能適用。”任何測(cè)序平臺(tái)都適用,不過(guò)他推薦用戶(hù)采用25x到50x的短讀序覆蓋度,然后加入PacBio長(zhǎng)讀序的“even moderate?覆蓋度”。
?
????????這種錯(cuò)誤校正方法不僅能為準(zhǔn)備進(jìn)行基因組測(cè)序的研究者帶來(lái)幫助,同樣也為長(zhǎng)期使用Illumina??或454?系統(tǒng)進(jìn)行測(cè)序但還未得到高質(zhì)量基因組裝配的研究者帶來(lái)了福音。結(jié)合PacBio長(zhǎng)讀序數(shù)據(jù),能使舊日蒙塵的測(cè)序數(shù)據(jù)產(chǎn)生新的價(jià)值。“這一領(lǐng)域潛伏著PacBio應(yīng)用的巨大需求,”?Schatz說(shuō)。
?
????????對(duì)于那些有短讀序數(shù)據(jù)并且在對(duì)同一生物進(jìn)行測(cè)序的科學(xué)家來(lái)說(shuō),“錯(cuò)誤校正方法是一個(gè)即用型實(shí)用工具,”Schatz說(shuō)。研究團(tuán)隊(duì)在多種生物的基因組測(cè)序中證明了該方法的有效性,從簡(jiǎn)單的細(xì)菌到高等真核生物,“都相當(dāng)有效”?Schatz補(bǔ)充道。
?
“就是這么簡(jiǎn)單,運(yùn)行一個(gè)命令,軟件就能將15%錯(cuò)誤率的讀取變成完美的數(shù)據(jù),”他說(shuō)。“看到運(yùn)行前后的差別,效果相當(dāng)驚人。”
?
?“將細(xì)菌染色體組裝為單個(gè)重疊群,這絕對(duì)是你能期望得到的最好結(jié)果。”
?
???????對(duì)于選擇性剪切或者宏基因組學(xué)研究等更復(fù)雜的項(xiàng)目,Schatz建議研究人員與文章作者直接聯(lián)系,聽(tīng)取能有效調(diào)試這一程序的建議。該軟件也能用于轉(zhuǎn)錄組或宏基因組研究,他說(shuō),但SourceForge網(wǎng)站上的這個(gè)軟件?“實(shí)際上是設(shè)計(jì)并調(diào)試用于單個(gè)基因組的。”更多信息參見(jiàn)研究團(tuán)隊(duì)發(fā)表在Nature Biotechnology雜志上的文章,文中包括1.2Gb鸚鵡基因組的de novo重頭組裝。Schatz強(qiáng)調(diào)說(shuō),文章中分析的數(shù)據(jù)是約一年前的,此后PacBio技術(shù)的新進(jìn)展已經(jīng)改善了基因組的裝配。“現(xiàn)在又有了激動(dòng)人心的新進(jìn)展,”他說(shuō),尤其是Sergey Koren“將細(xì)菌染色體組裝為單個(gè)重疊群,這絕對(duì)是你能期望得到的最好結(jié)果。”
?
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/wangprince2017/p/10858816.html
總結(jié)
以上是生活随笔為你收集整理的基因组装配新前沿:长片段完成完整的基因组的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: .net core编写转发服务(三) 接
- 下一篇: css display属性理解