短序列组装Sequence Assembly(转载)
轉(zhuǎn)載:http://blog.sina.com.cn/s/blog_4af3f0d20100fq5i.html
短序列組裝(Sequence assembly)幾乎是近年來next-generation sequencing最熱門的話題。簡(jiǎn)單來說,就是把基因組長(zhǎng)長(zhǎng)的序列打斷(shotgun sequencing),因?yàn)槲覀儾恢阑蚪M整條序列是如何排列(成一條鏈,最后成為一條染色體)組合(如何區(qū)分不同染色體)的,而我們又無法實(shí)現(xiàn)一次 把整條長(zhǎng)序列完整測(cè)序(現(xiàn)在有單子測(cè)序可能是一個(gè)新的sunlight)。然后,我們通過算法,計(jì)算機(jī)的幫助,把這些短的序列組裝起來成為一條完整有序的序列。
就好比我們有這樣一句話:
????it is just a hypothesis, so don't be seriously!
????假設(shè),我們現(xiàn)在不知道這句話到底是什么,就像我們有一個(gè)box,我們抽到一張紙,但沒打開,我們把這張紙撕成pieces,當(dāng)然可能還發(fā)生了變化,所有的空格和標(biāo)點(diǎn)都消失了(魔術(shù)!)我們得到:
??? itis ypo stah the sodo eriou siss ju ntbes sly……
????因?yàn)槲覀儨y(cè)了幾次,為了增加覆蓋度,這樣我們能通過高覆蓋度而提高置信度:
??? itis ypo stah the sodo eriou siss ju ntbes sly tis yopth sodon beser beser ssod iti sju……
????另外,我們又發(fā)明了一種稱作為paired-ends的序列測(cè)序方法,即兩頭定長(zhǎng),中間插入片段一定的序列,像這樣:
????iti*****ahyp sju*****pot the*****don sod*****ser bes*****sly ……
????這樣我們根據(jù)如下圖的方法,我們可以把這句話拼回來:
???? itisjustahypothesissodontbeseriously
但它不是最終結(jié)果,我們根據(jù)我們的現(xiàn)有的語法習(xí)慣,我們給它們加上空格(gap)和標(biāo)點(diǎn)(遺漏的關(guān)鍵東西),我們能夠還原原話!
第一:介紹一下組裝的方法:
方法一:對(duì)序列進(jìn)行組裝,如果是重測(cè)序,可以用MAQ進(jìn)行組裝:Map to reference genome
方法二:如果是對(duì)新物種進(jìn)行(de novo)測(cè)序,用velvet進(jìn)行組裝:De novo assembly
第二:組裝的原理和流程圖:
?
????
方法一和方法二的區(qū)別是有無參考基因組(reference genome):下面是有參考基因組的一個(gè)結(jié)果顯示
???????????????????????
?
Mapping short reads to a reference
Eland
aligner for Illumina data
alignment policies:
??allows up to 2 mismatches/alignment
??non-unique alignments are discarded
Maq
??quality aware - takes seq quality into
? account
??allows non-unique alignments
Index methods
??reference genome is loaded into active
?memory as k-mers
??very fast alignments
??SOAP
??Bowtie
SNP detection, paired-end mapping, RNA-seq, ChIP-seq, etc.
?????? ????????????????????
Analysis depends on application
Mapping to reference genome
??useful for interrogating the “known” genome
??RNA sequencing
??ChIP sequencing
??SNP detection (targeted and whole-genome)
??methyl-seq
??CNV detection (sometimes)
De novo assembly
??no genome sequence
??unbiased ascertainment of variation in
? known genome by whole-genome reseq
第三:short reads alignment by MAQ
?
???
第四:velvet示意圖:
???
????通過上述兩種方法可以完成高通量短序列數(shù)據(jù)的組裝,但事實(shí)它并不簡(jiǎn)單,因?yàn)榛蚪M中含有大量的重復(fù)序列(Repeats),多態(tài)性變異(Polymorphism),測(cè)序錯(cuò)誤(Sequencing error),這三個(gè)方面就是組裝過程中出現(xiàn)組裝錯(cuò)誤的主要來源.
參考資料:http://blog.sina.com.cn/s/blog_4860086b0100dnos.html
http://seqanswers.com/forums/showthread.php?t=1024
?
轉(zhuǎn)載于:https://www.cnblogs.com/steamed-bread/p/5611058.html
總結(jié)
以上是生活随笔為你收集整理的短序列组装Sequence Assembly(转载)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: iOS 开发各种传值
- 下一篇: jQuery的三种$()