序列比对概念及相应工具的对比
序列比對概念及相應工具的對比
0x01 概念和意義
在生物信息學研究中,最基本的部分是序列比對,而最基本的操作是比對,主要可分為雙系列比對和多序列比對,辨別序列之間的差異,同時發現生物序列中的機構和功能信息,進而發現它們的相似性和同源性,比較多個生物序列相似性是由序列比對來完成的。總的來說,序列比對的意義是對序列的相似性在核酸、氨基酸的層次上進行分析,從而推測比對中的各個序列間結構功能以及進化上的聯系,它也通過對各種不同類型的生物序列進行比對,以尋找與確定比對序列的穩定區域與變化規則,發現它們的功能特征和區別。通過序列比對,也可以檢測新序列與數據庫中已知序列的相似性關系(結構和功能),從而為確定新序列的結構和功能信息提供事實根據,由上可說明序列比對是基因識別、分子進化、生命起源等研究的基礎,而對序列比對的研究于基因結構和功能的研究具有較大的實際意義。
研究序列相似性的目的之一是通過相似的序列得到相似的結構或相似的功能,另一個目的是通過序列的相似性,判別序列之間的同源性,推測序列之間的進化關系。
?
相應地在惡意代碼api序列檢測上也可以適用。
序列比對又稱序列重排或對準,根據進行比對的生物序列數目序列比對可分為雙序列比對和多序列比對。
雙序列比對算法點陣圖方法和動態規劃算法,而多序列比對算法主要 有漸進比對和迭代比對
雙序列比對主要有:FASTA 和 BALST算法
?
?
FASTA算法(使用候選區域)
首先,需找待查序列與已知序列長度為 k 的公共子串,命名為熱點區域;
第二,延長熱點區域,形成更長的部分比對區域;
第三,綜合第二步的比對區域,獲得一個得分更高的比對;
最后,基于上述的比對片段,尋找另一個備選的比對。
近似尋優,其缺陷是結果的最優比對無法保證。
?
BLAST 算法(搜索算法和搜索結果的統計學評估)
第一步,尋找查詢序列與靶序列之間長度為 k 的匹配片段;
第二步, 篩選相距較遠的匹配片段;
第三步, 向兩端延長匹配片段,形成更長的比對區域,在延長過程中,若得分超過某個閾值,則稱這些區域為高得分區域,所得的高得分區域按降序排列后作為算法的輸出。
?
在生物序列分析中,有時需要識別多條序列的公共特征,這就要進行多序列的最佳比對分析。
0x02 序列比對及相似性?
本節轉載自https://blog.csdn.net/weixin_43202635/article/details/82962032
考慮使用蛋白質序列
?
2.序列的相似性
數據庫中的序列相似性搜索——相似的序列可以推測出相似的結構,相似的結構可以推測出相似的功能。
用兩個指標來描述序列的相似性——一致度和相似度。
?
引出問題:殘基的相似如何量化?
殘基兩兩相似的量化關系由替換記分矩陣所定義。
?
注:密碼子——密碼子(codon)是指信使RNA分子中每相鄰的三個核苷酸編成一組,在蛋白質合成時,代表某一種氨基酸的規律。信使RNA在細胞中能決定蛋白質分子中的氨基酸種類和排列次序。信使RNA分子中的四種核苷酸(堿基)的序列能決定蛋白質分子中的20種氨基酸的序列。而在信使RNA分子上的三個堿基能決定一個氨基酸。
?
3.比對兩個序列的方法
(1)打點法
?
(2)序列比對法
B)雙序列局部對比算法(用于比較一長一短兩條序列或者是非同源序列)
**
*序列比對算法總結:
*在線序列比對工具: EMBL、PIR 等
?
三.多序列比對
多序列比對——對兩條以上的生物序列進行全局比對
注:蛋白質家族(英語:Protein family)是一組與進化相關的蛋白質。家族中的蛋白質來自共同的祖先(見同源),通常具有相似的三維結構,功能和顯著的序列相似性。
1.多序列比對的主要用途及算法
多序列比對的算法:
目前所有的多序列比對工具都不是完美的,它們都是使用一種近似的算法。
2.多序列比對工具
注:1.保守序列在生物學中是指在核酸序列(如RNA及DNA序列)、蛋白質序列、蛋白質結構或多聚糖序列內相似或相同的序列,這種情況可以發生在各物種間(種間同源序列)或由相同生物產生的不同分子(種內同源序列)間。
2. 系統發生樹又稱演化樹或進化樹(evolutionary tree),是表明被認為具有共同祖先的各物種間演化關系的樹狀圖。是一種親緣分支分類方法(cladogram)。在圖中,每個節點代表其各分支的最近共同祖先,而節點間的線段長度對應演化距離(如估計的演化時間)。
3.尋找保守區域
(1)序列標識圖Weblogo
(2)序列基序MEME
嘗試找一找基序??
(3)蛋白質指紋PRINTS
家族的指紋圖譜
四.補充
1.分子進化理論(未被證實正確)
2.同源
同源序列——來源于共同祖先的相似的序列,分為直系同源、旁系同源、異同源
注意:相似序列不一定是同源序列。
相似度可以量化,同源性不可量化,它只是對性質的一種判定。
3.系統發生樹
系統發生樹又稱演化樹或進化樹(evolutionary tree),是表明被認為具有共同祖先的各物種間演化關系的樹狀圖。是一種親緣分支分類方法(cladogram)。在圖中,每個節點代表其各分支的最近共同祖先,而節點間的線段長度對應演化距離(如估計的演化時間)。
構建系統發生樹的意義:
對于一個位置的基因或蛋白質序列,確定其親緣關系最近的物種;
預測一個新發現的基因或蛋白質的功能;
有助于預測一個分子功能的走勢。
注意:根、內節點都理論上曾經存在過的共同祖先,現在已經沒有了
參考資料
?
慕課課程:https://es.coursera.org/lecture/sheng-wu-xin-xi-xue/cong-quan-ju-bi-dui-dao-ju-bu-bi-dui-2QeSA
序列比對
完成本模塊的課程后你將可以: 掌握基于動態規劃編程思想的序列比對算法; 區分Needleman-Wunsch全局比對算法和Smith-Waterman局部比對算法; 了解空位罰分背后的原理和計算算法的復雜度將幫助你在你自己的研究中應用現有的生物信息學工具; 你還可以一睹Smith-Waterman算法的發明人Michael Waterman博士的風采。
利用動態規劃進行全局比對15:20
從全局比對到局部比對6:15
可以跟著做的實驗:
生物信息之多序列比對,進化樹分析,保守位點分析
https://blog.csdn.net/u011262253/article/details/78506951
黃佳琪. 生物信息學序列比對算法分析[J]. 生物技術世界, 2015(11):279-279.
?
?
?
?
總結
以上是生活随笔為你收集整理的序列比对概念及相应工具的对比的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hdu 6638 Snowy Smile
- 下一篇: 【杂文】宇宙思辨