第二章 氨基酸序列的进化演变
1、導(dǎo)讀
分子進(jìn)化的重要原理如基因進(jìn)化的重復(fù)進(jìn)化(gene duplication)、分子鐘等(moleculer clock)都是通過(guò)研究氨基酸序列發(fā)現(xiàn)的。
這里之所以先介紹氨基酸進(jìn)化的原因:
1)比DNA序列更加保守
2)蛋白質(zhì)編碼基因的DNA序列的對(duì)位排列分析上,需要氨基酸序列矯正
3)氨基酸的進(jìn)化演變模型比DNA序列簡(jiǎn)單的多
本章的重要目的:介紹兩個(gè)氨基酸序列間進(jìn)化距離(evolutionary distance)的統(tǒng)計(jì)方法。
研究進(jìn)化距離的意義:
1)對(duì)研究蛋白質(zhì)進(jìn)化非常重要
2)可用來(lái)構(gòu)建系統(tǒng)樹(shù)并估計(jì)分歧時(shí)間
在氨基酸序列方面,通常以氨基酸替代數(shù)來(lái)測(cè)定距離,但不同假設(shè)下存在不同的測(cè)度。
2、氨基酸的差異和不同氨基酸的比例
2.1)最簡(jiǎn)單的測(cè)度
兩個(gè)序列間氨基酸個(gè)數(shù)差異(nd)。如果所有的氨基酸的個(gè)數(shù)相同(n),上述差異數(shù)就可以用來(lái)比較不同序列間的分歧程度。當(dāng)多重序列比對(duì)時(shí)候,經(jīng)常會(huì)含有插入缺失,這種情況下計(jì)算nd需要去掉插入缺失(間隔,indels),否則不同序列對(duì)間相比較時(shí)候計(jì)算出來(lái)的nd沒(méi)有意義。nd:number of amino acid differences
2.2)p距離
兩個(gè)序列間差異氨基酸所占的比例.即使n隨著不同序列而變化,但比例值(p)依舊可以用于比較分歧程度,該距離為p距離(p為proportion的縮寫(xiě))。公式為:
假設(shè)所有的氨基酸位點(diǎn)都是以相同的概率替代(即每個(gè)位點(diǎn)差異的概率都是p,相當(dāng)于伯努利實(shí)驗(yàn)),則nd需遵循二項(xiàng)式分布,,因此其方差為:
n=140,nd位于對(duì)角線上,p值位于對(duì)角線下。可以看出,物種關(guān)系遠(yuǎn)時(shí),p值大;物種關(guān)系近時(shí),p值小。說(shuō)明:隨著物種分歧時(shí)間增大,氨基酸替代數(shù)目也增加。但是p并不嚴(yán)格與分歧時(shí)間(t)成比列。 下面將給出解釋。
3、 泊松校正和τ距離
p與t成非線性關(guān)系的原因:同一個(gè)位點(diǎn)氨基酸的多重替代(multiple amino acid substitution), 這導(dǎo)致nd偏離實(shí)際氨基酸替代數(shù)逐漸增加。更精確的估計(jì)替代數(shù)方法是是用泊松分布。
3.1、假設(shè)氨基酸替代率在每一個(gè)位點(diǎn)都相同
r:特定位點(diǎn)的氨基酸替代率,這里假設(shè)每一個(gè)位點(diǎn)替代率相同(不是真實(shí)情況,但次假設(shè)誤差很小,除非p非常大)。t年之后,每個(gè)位點(diǎn)氨基酸替代數(shù)為rt.在一個(gè)給定位點(diǎn)氨基酸替代數(shù)k(k=0,1,2,3,4,5,6) 發(fā)生的頻率遵循泊松分布。即:
因此某一位點(diǎn)氨基酸不變的概率為:
如果多肽鏈長(zhǎng)度為n,不變氨基酸的期望為ne-rt
但在實(shí)際應(yīng)用中,并不知道祖先物種的氨基酸序列,這樣上述公式就不能用。因此只能對(duì)已有t年分化的兩個(gè)同源序列進(jìn)行比較來(lái)估計(jì)氨基酸的替代數(shù)。
由于一個(gè)氨基酸位點(diǎn)無(wú)替代的概率是e-rt,因而兩個(gè)序列同源位點(diǎn)均無(wú)替代的概率是:q=(e-rt)2=e-2rt. 而q=1-p.
兩個(gè)序列間每個(gè)位點(diǎn)氨基酸替代總數(shù)為d(d=2rt)為:d=-ln(1-p)
以代替p,可以獲得d的估計(jì)值,即泊松校正距離,同時(shí)的方差為:
分子進(jìn)化研究中通常需要知道氨基酸的替代率(r),如果從其他生信手段已經(jīng)知道兩個(gè)序列的分化時(shí)間t, 此速率的估計(jì)值為:
注意:是2t,而不是t.因?yàn)樵撍俾适且粋€(gè)進(jìn)化系速率。
的方差為
另一方面如果我們得知速率r,但不清楚進(jìn)化時(shí)間t,可以用下式表示:
其 方差為:
3.2 實(shí)際情況中每一個(gè)氨基酸位點(diǎn)的替代率并不都相同
以上所有的公式都假設(shè)的是氨基酸每個(gè)位點(diǎn)的替代率是相同的。然而事實(shí)并非如此,因?yàn)楣δ苌洗我奈稽c(diǎn)比功能上重要的位點(diǎn)常常含有更高的替代率。每個(gè)位點(diǎn)氨基酸替代率(k)分布的方差大于泊松方差,且次此方差近視值遵循負(fù)二項(xiàng)分布。若已知每個(gè)位點(diǎn)的氨基酸替代率(r)按照τ分布的話,每個(gè)位點(diǎn)氨基酸替代的觀察值將按照負(fù)二項(xiàng)分布。因此建議不同位點(diǎn)的替代率都按照τ分布估計(jì)。即:
3.3 突變率和替代率
只有當(dāng)突變擴(kuò)展到群體中,才能使得突變參與到基因組中。這一事件稱(chēng)為突變?cè)偃后w中的固定。一旦突變固定,群體中每一個(gè)個(gè)體都攜帶同樣突變。再比較不同物種的氨基酸序列時(shí)候,我們主要研究已經(jīng)固定到這些物種的基因組中的突變的氨基酸的演變。
即,每個(gè)基因座的基因替代率等于突變率。
在氨基酸序列數(shù)據(jù)方面,通常考慮每個(gè)氨基酸位點(diǎn)的替代率。如果以每年每個(gè)氨基酸位點(diǎn)突變率(u)來(lái)定義突變率,則每年每個(gè)位點(diǎn)的氨基酸替代率等于突變率。
在某些情況下:
總結(jié)
以上是生活随笔為你收集整理的第二章 氨基酸序列的进化演变的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: API集成管理平台YAPI的搭建和使用
- 下一篇: 安装VMware 置灰正确解决办法