Nanopore牛津纳米孔测16S学习笔记
身處這樣一個(gè)互聯(lián)網(wǎng)時(shí)代,應(yīng)當(dāng)感恩技術(shù)帶來的便利,從在一個(gè)地方不遠(yuǎn)游就只能是井底之蛙,到今天互聯(lián)網(wǎng)讓我們不出門知天下事,當(dāng)然,假消息也有。雖然現(xiàn)在許多事和技能仍然需要項(xiàng)目實(shí)踐,但是不得不說,知識(shí)已經(jīng)不再是一種稀缺的資源,需要時(shí)間訓(xùn)練的技能才是。我們應(yīng)該充分利用好這個(gè)時(shí)代提供給我們的便利,努力學(xué)習(xí)和思考。
雖然川普四處設(shè)限,但是地球村依然變得越來越“小”,就拿我們生命科學(xué)領(lǐng)域來說,ncbi數(shù)據(jù)庫,讓我們每個(gè)人都有機(jī)會(huì)接觸到測(cè)序原始數(shù)據(jù),可以進(jìn)行分析再現(xiàn)和學(xué)習(xí)。手上雖然沒有“便宜”的納米孔測(cè)序儀,但是借助科學(xué)研究者的數(shù)據(jù),依然可以對(duì)其一探究竟。這里,我在牛津納米孔公司官網(wǎng)看到了幾篇最新發(fā)表的采用其技術(shù)濃度測(cè)序16S的文獻(xiàn),下載了原始數(shù)據(jù),學(xué)習(xí)一下測(cè)16S的可行性和數(shù)據(jù)分析方法。
令我大跌眼鏡的原始數(shù)據(jù)
隨便拿了幾個(gè)數(shù)據(jù),fastqc來看一下,好家伙,質(zhì)量確實(shí)有點(diǎn)低,當(dāng)然,這應(yīng)該是R9.4,9.5或者更早版本的試劑,相信以后會(huì)更好??磥碇苯訙y(cè)了分析高可變區(qū)的16S是不怎么可行的,當(dāng)然,如果有特殊方法來解決是可以的,比如Pacbio的循環(huán)測(cè)序和把一個(gè)拷貝多份連在一條上,也實(shí)現(xiàn)測(cè)多次的效果,當(dāng)然,依然無法消除那種系統(tǒng)錯(cuò)誤,比如技術(shù)本身缺陷,插入或缺失(后面的NanoApli-seq就是后面一種方法)。還不得不吐槽一下這家公司,只對(duì)有測(cè)序儀的用戶開放社區(qū)論壇,這樣就讓技術(shù)只局限在了一個(gè)小圈子,封閉并不利于該公司的發(fā)展。
?
幾篇文章的略讀
- 1.Cusco? A, Catozzi C, Vin?es J et al. Microbiota profiling with long amplicons using Nanopore sequencing: full-length 16S rRNA gene and whole rrn operon 這篇文章采用了比較測(cè)16S和rrn序列(16S rRNA–ITS–23S rRNA; 4,500 bp),結(jié)果使用EPI2ME的話16S序列中只有68%的序列能夠匹配到正確的分類。我學(xué)得這個(gè)方法基本上沒有可用性呢。?
- 2.E. Curren, T. Yoshida, V.S. Kuwahara et al. Rapid profiling of tropical marine cyanobacterial communities
- 這篇文章采用9.4版本的試劑,1D的建庫方式,得到的平均Q值為11.7,算了下準(zhǔn)確度為91.17%,大概也就這么高了。這篇文章是采用qiime流程進(jìn)行后續(xù)處理的。這篇文章是測(cè)熱帶海洋藍(lán)藻的,對(duì)于細(xì)菌菌落可能不大能說明問題。
- 3.Rapid bacterial identification by direct PCR amplification of 16S rRNA genes using the MinION nanopore sequencer
- 這篇文章的流程如下圖所示:??是使用 GSTK software suite進(jìn)行數(shù)據(jù)分析的(比對(duì)和注釋序列)。
- 4.NanoAmpli-Seq: a work ow for amplicon sequencing for mixed microbial communities on the nanopore sequencing platform
- 這篇是我前面提到的采用串聯(lián)線性片段進(jìn)行測(cè)序的文章,看它的文庫制備有些復(fù)雜,原理圖放在這:?
最后一篇文章分析過程學(xué)習(xí)
上面這張圖是關(guān)于數(shù)據(jù)分析的過程圖解,主要包括INC-Seq,ChaoSeq, nanoClust三個(gè)過程,后兩個(gè)分別對(duì)應(yīng)了兩個(gè)腳本文件chopSEQ.py和nanoCLUST.py。第一個(gè)應(yīng)該是整個(gè)過程的預(yù)覽。作者公開了兩個(gè)數(shù)據(jù),能下載的只有一個(gè),ERR2241540.sra,大小是10M,fasq-dump解壓完只有4.6M,我感到很意外,壓縮壓大了?查了下,還真有這種情況出現(xiàn)。
看到討論里的幾句話,瞬間覺得納米孔不適合做這種16S群落分析,特別是物種組成復(fù)雜時(shí)。
1.由于序列質(zhì)量不夠,沒辦法使用vsearch等軟件進(jìn)行聚類,只能通過分區(qū)序列聚類來基本滿足物種分類要求; 2.150X, 也就是50個(gè)長(zhǎng)reads(3X),可以實(shí)現(xiàn)共識(shí)序列精度達(dá)到99%+。但是精度仍然低于illumina或者Pacbio的測(cè)序準(zhǔn)確度(Pacbio不是系統(tǒng)錯(cuò)誤,是隨機(jī)錯(cuò)誤)。而且,即使增加測(cè)序深度,精度也不會(huì)提高,這說明至少在現(xiàn)階段,這的確是個(gè)系統(tǒng)錯(cuò)誤; 3.產(chǎn)量低,能basecalling的僅僅是原始數(shù)據(jù)的一小部分,如7%–9%的1D方數(shù)據(jù)。如果使用1D的建庫方式或許能解決這個(gè)問題,但是精度只有94%,就不適合進(jìn)行上述的聚類了; 4.一個(gè)聚類會(huì)產(chǎn)生多個(gè)共識(shí)序列,可能會(huì)導(dǎo)致物種分類錯(cuò)誤。如果有可能的話,后面學(xué)習(xí)一下它的分析過程命令行,現(xiàn)在卡在了軟件安裝上,晚會(huì)續(xù)上。
總結(jié)
以上是生活随笔為你收集整理的Nanopore牛津纳米孔测16S学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用高级语言编写计算机程序步骤,计算机执
- 下一篇: 如何把新加的分区挂载到/根目录