p-value
p-value
p-value翻譯為假定值,假設(shè)幾率。我們?cè)谏镄畔⒅型ǔJ褂胮值方法(P-Value,?Probability, Pr)來(lái)做檢驗(yàn)。那么p-value是什么呢?其實(shí)P-value就是一種概率,表示在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率。
什么叫“更極端”情況呢,在此我們借用(https://blog.csdn.net/rongbaohan/article/details/53521147)舉的拋硬幣的例子,我們要檢驗(yàn)一枚硬幣是否質(zhì)地均勻,現(xiàn)在我們假設(shè)這枚硬幣質(zhì)地是均勻的。那如何檢驗(yàn)我們的假設(shè)呢?我們知道拋一枚質(zhì)地均勻的硬幣,正面和反面出現(xiàn)的概率均為0.5。那么我們就開(kāi)始做實(shí)驗(yàn):拋這枚硬幣100次,假如我們觀察到的結(jié)果是正面出現(xiàn)90次,反面出現(xiàn)10次,這個(gè)結(jié)果已經(jīng)很不可能發(fā)生了,也就是極端情況了(質(zhì)地均勻的硬幣觀察的應(yīng)該是正反面出現(xiàn)次數(shù)均為50左右),那么所謂“更極端”的情況就是出現(xiàn)正面91次,反面9次,以此類(lèi)推。為什么要去找“更極端”的情況呢?因?yàn)橐粋€(gè)事件很極端,那么比它“更極端”的事件就非常少。
我們觀察的結(jié)果(正面90次,反面10次)是在一次實(shí)驗(yàn)中得出的。我們重復(fù)做這個(gè)實(shí)驗(yàn)100次,每次拋100回硬幣,現(xiàn)在要來(lái)考察“更極端”事件出現(xiàn)的概率。P-value=P(出現(xiàn)“更極端”情況的次數(shù)),如果這個(gè)p-value < 顯著性水平α,則說(shuō)明在原假設(shè)為真的情況下出現(xiàn)事件(正面90次,反面10次)是極端的,以至于我們不再相信原假設(shè),因?yàn)閜-value很小就說(shuō)明在原假設(shè)為真的情況下出現(xiàn)觀察到的極端情況的概率很低,但是根據(jù)小概率事件原理,概率很低的情況在一次實(shí)驗(yàn)中不可能出現(xiàn),而極端情況卻出現(xiàn)了,所以我們拒絕原假設(shè)。
?
p-value有什么意義呢?
我們?nèi)绻?jì)算出的p-value很小,說(shuō)明原假設(shè)情況發(fā)生的概率很小,而如果出現(xiàn)了,根據(jù)小概率原理,我們就有理由拒絕原假設(shè),p-value越小,我們拒絕原假設(shè)的理由越充分。
另外,p-value越小,表明結(jié)果越顯著。但是檢驗(yàn)的結(jié)果究竟第“顯著的”、“中度顯著的”還是“高度顯著的”,需要我們自己根據(jù)p-value的大小和實(shí)際問(wèn)題來(lái)解決。
?
我們?cè)倥e一個(gè)生物信息上的例子,現(xiàn)在要在人類(lèi)21號(hào)染色體上找圖a這樣的模式序列,我們將這種模式序列稱(chēng)為motif。(來(lái)源Noble W S. How does multiple testing correction work?[J]. Nature Biotechnology, 2009, 27(12):1135-7.)
?
該motif一共由20個(gè)堿基組成,堿基有四種(A, T, G, C),其中每一列上字母的大小表示出現(xiàn)的可能性大小,比如說(shuō)第6個(gè)堿基,明顯“C”最大,那么該位置是“C”的可能性就越高。
我們?cè)谌祟?lèi)21號(hào)染色體上找到6800萬(wàn)個(gè)長(zhǎng)度為20個(gè)堿基的序列,我們給每個(gè)序列一個(gè)score,表示該序列與motif的相似性,score值越大表明該序列越可能是我們要找的motif序列。我們打完分?jǐn)?shù),列出score值最大的20個(gè)序列(我們將這20個(gè)序列集合設(shè)為A)。現(xiàn)在要表明我們的方法計(jì)算出的這前20個(gè)序列是有意義的,就要評(píng)估這種情況偶然發(fā)生的可能性。
下圖為前20個(gè)得分最高的序列,我們只關(guān)注score。其中最高的分?jǐn)?shù)為26.30.
?
?
我們提出零假設(shè):前20個(gè)序列是隨機(jī)出現(xiàn)的。相應(yīng)地,備擇假設(shè):前20個(gè)序列不是隨機(jī)出現(xiàn)的,而是與我們的方法有關(guān)(備擇假設(shè)的意義為:我們的方法是可行的,通過(guò)我們給出的方法找出前20個(gè)序列是有意義的)。
現(xiàn)在我們將21號(hào)染色體上的堿基順序打亂,根據(jù)零假設(shè),高分?jǐn)?shù)是隨機(jī)的,所以我們的方法對(duì)于順序打亂的序列依然會(huì)得到很高的分?jǐn)?shù)。我們記打亂順序后找到的分?jǐn)?shù)最高的20個(gè)序列的集合為B。通過(guò)相同的方法計(jì)算出的結(jié)果顯示:在B集合中只有1個(gè)得分≥26.30,即分?jǐn)?shù)為26.30的序列的p-value = 1/(6800萬(wàn))=1.5*10-8(找比26.30這個(gè)分?jǐn)?shù)更極端的分?jǐn)?shù)),如果設(shè)顯著性水平為0.05,那么p-value << 0.05,即在原假設(shè)成立的情況下,出現(xiàn)26.30這樣的高分?jǐn)?shù)的概率非常非常小,也就是說(shuō)我們得到的結(jié)果對(duì)原假設(shè)的支持程度非常非常小,所以我們拒絕原假設(shè)。
我們需要注意的是,p-value不是給定樣本結(jié)果時(shí)原假設(shè)為真的概率,而是給定原假設(shè)為真時(shí)樣本結(jié)果出現(xiàn)的概率。
所以我們的結(jié)果并不是在隨機(jī)情況下出現(xiàn)的,說(shuō)明我們的方法是有意義的,可以發(fā)現(xiàn)那些與motif相似性很高的序列。如果在堿基順序打亂后,我們依然可以得到很多分?jǐn)?shù)很高的序列,那么就表明我們的方法沒(méi)有什么用,進(jìn)而說(shuō)明我們發(fā)現(xiàn)的那些分?jǐn)?shù)很高的序列沒(méi)有什么意義,那么我們做的這種研究就沒(méi)有用了。
從假設(shè)檢驗(yàn)上說(shuō),我們做研究時(shí),并不希望得到的結(jié)果否定自己的假設(shè),但是又無(wú)法完全證明得到的結(jié)果正確,所以我們通過(guò)建立一個(gè)與研究假設(shè)相反的假設(shè)H0,利用假設(shè)檢驗(yàn)來(lái)證明否定H0,那么我們研究的假設(shè)相對(duì)來(lái)說(shuō)就得到了接受。
轉(zhuǎn)載于:https://www.cnblogs.com/datamining-bio/p/8681545.html
總結(jié)
- 上一篇: 2.1 linux C 进程与多线程入门
- 下一篇: 解决C语言程序报错:return typ