序列比对概念及相应工具的对比
序列比對(duì)概念及相應(yīng)工具的對(duì)比
0x01 概念和意義
在生物信息學(xué)研究中,最基本的部分是序列比對(duì),而最基本的操作是比對(duì),主要可分為雙系列比對(duì)和多序列比對(duì),辨別序列之間的差異,同時(shí)發(fā)現(xiàn)生物序列中的機(jī)構(gòu)和功能信息,進(jìn)而發(fā)現(xiàn)它們的相似性和同源性,比較多個(gè)生物序列相似性是由序列比對(duì)來(lái)完成的。總的來(lái)說(shuō),序列比對(duì)的意義是對(duì)序列的相似性在核酸、氨基酸的層次上進(jìn)行分析,從而推測(cè)比對(duì)中的各個(gè)序列間結(jié)構(gòu)功能以及進(jìn)化上的聯(lián)系,它也通過(guò)對(duì)各種不同類型的生物序列進(jìn)行比對(duì),以尋找與確定比對(duì)序列的穩(wěn)定區(qū)域與變化規(guī)則,發(fā)現(xiàn)它們的功能特征和區(qū)別。通過(guò)序列比對(duì),也可以檢測(cè)新序列與數(shù)據(jù)庫(kù)中已知序列的相似性關(guān)系(結(jié)構(gòu)和功能),從而為確定新序列的結(jié)構(gòu)和功能信息提供事實(shí)根據(jù),由上可說(shuō)明序列比對(duì)是基因識(shí)別、分子進(jìn)化、生命起源等研究的基礎(chǔ),而對(duì)序列比對(duì)的研究于基因結(jié)構(gòu)和功能的研究具有較大的實(shí)際意義。
研究序列相似性的目的之一是通過(guò)相似的序列得到相似的結(jié)構(gòu)或相似的功能,另一個(gè)目的是通過(guò)序列的相似性,判別序列之間的同源性,推測(cè)序列之間的進(jìn)化關(guān)系。
?
相應(yīng)地在惡意代碼api序列檢測(cè)上也可以適用。
序列比對(duì)又稱序列重排或?qū)?zhǔn),根據(jù)進(jìn)行比對(duì)的生物序列數(shù)目序列比對(duì)可分為雙序列比對(duì)和多序列比對(duì)。
雙序列比對(duì)算法點(diǎn)陣圖方法和動(dòng)態(tài)規(guī)劃算法,而多序列比對(duì)算法主要 有漸進(jìn)比對(duì)和迭代比對(duì)
雙序列比對(duì)主要有:FASTA 和 BALST算法
?
?
FASTA算法(使用候選區(qū)域)
首先,需找待查序列與已知序列長(zhǎng)度為 k 的公共子串,命名為熱點(diǎn)區(qū)域;
第二,延長(zhǎng)熱點(diǎn)區(qū)域,形成更長(zhǎng)的部分比對(duì)區(qū)域;
第三,綜合第二步的比對(duì)區(qū)域,獲得一個(gè)得分更高的比對(duì);
最后,基于上述的比對(duì)片段,尋找另一個(gè)備選的比對(duì)。
近似尋優(yōu),其缺陷是結(jié)果的最優(yōu)比對(duì)無(wú)法保證。
?
BLAST 算法(搜索算法和搜索結(jié)果的統(tǒng)計(jì)學(xué)評(píng)估)
第一步,尋找查詢序列與靶序列之間長(zhǎng)度為 k 的匹配片段;
第二步, 篩選相距較遠(yuǎn)的匹配片段;
第三步, 向兩端延長(zhǎng)匹配片段,形成更長(zhǎng)的比對(duì)區(qū)域,在延長(zhǎng)過(guò)程中,若得分超過(guò)某個(gè)閾值,則稱這些區(qū)域?yàn)楦叩梅謪^(qū)域,所得的高得分區(qū)域按降序排列后作為算法的輸出。
?
在生物序列分析中,有時(shí)需要識(shí)別多條序列的公共特征,這就要進(jìn)行多序列的最佳比對(duì)分析。
0x02 序列比對(duì)及相似性?
本節(jié)轉(zhuǎn)載自https://blog.csdn.net/weixin_43202635/article/details/82962032
考慮使用蛋白質(zhì)序列
?
2.序列的相似性
數(shù)據(jù)庫(kù)中的序列相似性搜索——相似的序列可以推測(cè)出相似的結(jié)構(gòu),相似的結(jié)構(gòu)可以推測(cè)出相似的功能。
用兩個(gè)指標(biāo)來(lái)描述序列的相似性——一致度和相似度。
?
引出問(wèn)題:殘基的相似如何量化?
殘基兩兩相似的量化關(guān)系由替換記分矩陣所定義。
?
注:密碼子——密碼子(codon)是指信使RNA分子中每相鄰的三個(gè)核苷酸編成一組,在蛋白質(zhì)合成時(shí),代表某一種氨基酸的規(guī)律。信使RNA在細(xì)胞中能決定蛋白質(zhì)分子中的氨基酸種類和排列次序。信使RNA分子中的四種核苷酸(堿基)的序列能決定蛋白質(zhì)分子中的20種氨基酸的序列。而在信使RNA分子上的三個(gè)堿基能決定一個(gè)氨基酸。
?
3.比對(duì)兩個(gè)序列的方法
(1)打點(diǎn)法
?
(2)序列比對(duì)法
B)雙序列局部對(duì)比算法(用于比較一長(zhǎng)一短兩條序列或者是非同源序列)
**
*序列比對(duì)算法總結(jié):
*在線序列比對(duì)工具: EMBL、PIR 等
?
三.多序列比對(duì)
多序列比對(duì)——對(duì)兩條以上的生物序列進(jìn)行全局比對(duì)
注:蛋白質(zhì)家族(英語(yǔ):Protein family)是一組與進(jìn)化相關(guān)的蛋白質(zhì)。家族中的蛋白質(zhì)來(lái)自共同的祖先(見(jiàn)同源),通常具有相似的三維結(jié)構(gòu),功能和顯著的序列相似性。
1.多序列比對(duì)的主要用途及算法
多序列比對(duì)的算法:
目前所有的多序列比對(duì)工具都不是完美的,它們都是使用一種近似的算法。
2.多序列比對(duì)工具
注:1.保守序列在生物學(xué)中是指在核酸序列(如RNA及DNA序列)、蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)或多聚糖序列內(nèi)相似或相同的序列,這種情況可以發(fā)生在各物種間(種間同源序列)或由相同生物產(chǎn)生的不同分子(種內(nèi)同源序列)間。
2. 系統(tǒng)發(fā)生樹(shù)又稱演化樹(shù)或進(jìn)化樹(shù)(evolutionary tree),是表明被認(rèn)為具有共同祖先的各物種間演化關(guān)系的樹(shù)狀圖。是一種親緣分支分類方法(cladogram)。在圖中,每個(gè)節(jié)點(diǎn)代表其各分支的最近共同祖先,而節(jié)點(diǎn)間的線段長(zhǎng)度對(duì)應(yīng)演化距離(如估計(jì)的演化時(shí)間)。
3.尋找保守區(qū)域
(1)序列標(biāo)識(shí)圖Weblogo
(2)序列基序MEME
嘗試找一找基序??
(3)蛋白質(zhì)指紋PRINTS
家族的指紋圖譜
四.補(bǔ)充
1.分子進(jìn)化理論(未被證實(shí)正確)
2.同源
同源序列——來(lái)源于共同祖先的相似的序列,分為直系同源、旁系同源、異同源
注意:相似序列不一定是同源序列。
相似度可以量化,同源性不可量化,它只是對(duì)性質(zhì)的一種判定。
3.系統(tǒng)發(fā)生樹(shù)
系統(tǒng)發(fā)生樹(shù)又稱演化樹(shù)或進(jìn)化樹(shù)(evolutionary tree),是表明被認(rèn)為具有共同祖先的各物種間演化關(guān)系的樹(shù)狀圖。是一種親緣分支分類方法(cladogram)。在圖中,每個(gè)節(jié)點(diǎn)代表其各分支的最近共同祖先,而節(jié)點(diǎn)間的線段長(zhǎng)度對(duì)應(yīng)演化距離(如估計(jì)的演化時(shí)間)。
構(gòu)建系統(tǒng)發(fā)生樹(shù)的意義:
對(duì)于一個(gè)位置的基因或蛋白質(zhì)序列,確定其親緣關(guān)系最近的物種;
預(yù)測(cè)一個(gè)新發(fā)現(xiàn)的基因或蛋白質(zhì)的功能;
有助于預(yù)測(cè)一個(gè)分子功能的走勢(shì)。
注意:根、內(nèi)節(jié)點(diǎn)都理論上曾經(jīng)存在過(guò)的共同祖先,現(xiàn)在已經(jīng)沒(méi)有了
參考資料
?
慕課課程:https://es.coursera.org/lecture/sheng-wu-xin-xi-xue/cong-quan-ju-bi-dui-dao-ju-bu-bi-dui-2QeSA
序列比對(duì)
完成本模塊的課程后你將可以: 掌握基于動(dòng)態(tài)規(guī)劃編程思想的序列比對(duì)算法; 區(qū)分Needleman-Wunsch全局比對(duì)算法和Smith-Waterman局部比對(duì)算法; 了解空位罰分背后的原理和計(jì)算算法的復(fù)雜度將幫助你在你自己的研究中應(yīng)用現(xiàn)有的生物信息學(xué)工具; 你還可以一睹Smith-Waterman算法的發(fā)明人Michael Waterman博士的風(fēng)采。
利用動(dòng)態(tài)規(guī)劃進(jìn)行全局比對(duì)15:20
從全局比對(duì)到局部比對(duì)6:15
可以跟著做的實(shí)驗(yàn):
生物信息之多序列比對(duì),進(jìn)化樹(shù)分析,保守位點(diǎn)分析
https://blog.csdn.net/u011262253/article/details/78506951
黃佳琪. 生物信息學(xué)序列比對(duì)算法分析[J]. 生物技術(shù)世界, 2015(11):279-279.
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的序列比对概念及相应工具的对比的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: hdu 6638 Snowy Smile
- 下一篇: 【杂文】宇宙思辨