當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

p-value

發(fā)布時(shí)間：2025/3/15 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 p-value 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

p-value

　　p-value翻譯為假定值，假設(shè)幾率。我們?cè)谏镄畔⒅型ǔＪ褂胮值方法（P-Value,?Probability, Pr）來(lái)做檢驗(yàn)。那么p-value是什么呢？其實(shí)P-value就是一種概率，表示在原假設(shè)為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率。

　　什么叫“更極端”情況呢，在此我們借用（https://blog.csdn.net/rongbaohan/article/details/53521147）舉的拋硬幣的例子，我們要檢驗(yàn)一枚硬幣是否質(zhì)地均勻，現(xiàn)在我們假設(shè)這枚硬幣質(zhì)地是均勻的。那如何檢驗(yàn)我們的假設(shè)呢？我們知道拋一枚質(zhì)地均勻的硬幣，正面和反面出現(xiàn)的概率均為0.5。那么我們就開(kāi)始做實(shí)驗(yàn)：拋這枚硬幣100次，假如我們觀察到的結(jié)果是正面出現(xiàn)90次，反面出現(xiàn)10次，這個(gè)結(jié)果已經(jīng)很不可能發(fā)生了，也就是極端情況了（質(zhì)地均勻的硬幣觀察的應(yīng)該是正反面出現(xiàn)次數(shù)均為50左右），那么所謂“更極端”的情況就是出現(xiàn)正面91次，反面9次，以此類(lèi)推。為什么要去找“更極端”的情況呢？因?yàn)橐粋€(gè)事件很極端，那么比它“更極端”的事件就非常少。

　　我們觀察的結(jié)果（正面90次，反面10次）是在一次實(shí)驗(yàn)中得出的。我們重復(fù)做這個(gè)實(shí)驗(yàn)100次，每次拋100回硬幣，現(xiàn)在要來(lái)考察“更極端”事件出現(xiàn)的概率。P-value=P(出現(xiàn)“更極端”情況的次數(shù))，如果這個(gè)p-value < 顯著性水平α，則說(shuō)明在原假設(shè)為真的情況下出現(xiàn)事件（正面90次，反面10次）是極端的，以至于我們不再相信原假設(shè)，因?yàn)閜-value很小就說(shuō)明在原假設(shè)為真的情況下出現(xiàn)觀察到的極端情況的概率很低，但是根據(jù)小概率事件原理，概率很低的情況在一次實(shí)驗(yàn)中不可能出現(xiàn)，而極端情況卻出現(xiàn)了，所以我們拒絕原假設(shè)。

p-value有什么意義呢？

　　我們?nèi)绻?jì)算出的p-value很小，說(shuō)明原假設(shè)情況發(fā)生的概率很小，而如果出現(xiàn)了，根據(jù)小概率原理，我們就有理由拒絕原假設(shè)，p-value越小，我們拒絕原假設(shè)的理由越充分。

　　另外，p-value越小，表明結(jié)果越顯著。但是檢驗(yàn)的結(jié)果究竟第“顯著的”、“中度顯著的”還是“高度顯著的”，需要我們自己根據(jù)p-value的大小和實(shí)際問(wèn)題來(lái)解決。

　　我們?cè)倥e一個(gè)生物信息上的例子，現(xiàn)在要在人類(lèi)21號(hào)染色體上找圖a這樣的模式序列，我們將這種模式序列稱(chēng)為motif。（來(lái)源Noble W S. How does multiple testing correction work?[J]. Nature Biotechnology, 2009, 27(12):1135-7.）

　　該motif一共由20個(gè)堿基組成，堿基有四種（A, T, G, C），其中每一列上字母的大小表示出現(xiàn)的可能性大小，比如說(shuō)第6個(gè)堿基，明顯“C”最大，那么該位置是“C”的可能性就越高。

　　我們?cè)谌祟?lèi)21號(hào)染色體上找到6800萬(wàn)個(gè)長(zhǎng)度為20個(gè)堿基的序列，我們給每個(gè)序列一個(gè)score，表示該序列與motif的相似性，score值越大表明該序列越可能是我們要找的motif序列。我們打完分?jǐn)?shù)，列出score值最大的20個(gè)序列（我們將這20個(gè)序列集合設(shè)為A）。現(xiàn)在要表明我們的方法計(jì)算出的這前20個(gè)序列是有意義的，就要評(píng)估這種情況偶然發(fā)生的可能性。

　　下圖為前20個(gè)得分最高的序列，我們只關(guān)注score。其中最高的分?jǐn)?shù)為26.30.

　　我們提出零假設(shè)：前20個(gè)序列是隨機(jī)出現(xiàn)的。相應(yīng)地，備擇假設(shè)：前20個(gè)序列不是隨機(jī)出現(xiàn)的，而是與我們的方法有關(guān)（備擇假設(shè)的意義為：我們的方法是可行的，通過(guò)我們給出的方法找出前20個(gè)序列是有意義的）。

　　現(xiàn)在我們將21號(hào)染色體上的堿基順序打亂，根據(jù)零假設(shè)，高分?jǐn)?shù)是隨機(jī)的，所以我們的方法對(duì)于順序打亂的序列依然會(huì)得到很高的分?jǐn)?shù)。我們記打亂順序后找到的分?jǐn)?shù)最高的20個(gè)序列的集合為B。通過(guò)相同的方法計(jì)算出的結(jié)果顯示：在B集合中只有1個(gè)得分≥26.30，即分?jǐn)?shù)為26.30的序列的p-value = 1/(6800萬(wàn))=1.5*10^-8（找比26.30這個(gè)分?jǐn)?shù)更極端的分?jǐn)?shù)），如果設(shè)顯著性水平為0.05，那么p-value << 0.05，即在原假設(shè)成立的情況下，出現(xiàn)26.30這樣的高分?jǐn)?shù)的概率非常非常小，也就是說(shuō)我們得到的結(jié)果對(duì)原假設(shè)的支持程度非常非常小，所以我們拒絕原假設(shè)。

　　我們需要注意的是，p-value不是給定樣本結(jié)果時(shí)原假設(shè)為真的概率，而是給定原假設(shè)為真時(shí)樣本結(jié)果出現(xiàn)的概率。

　　所以我們的結(jié)果并不是在隨機(jī)情況下出現(xiàn)的，說(shuō)明我們的方法是有意義的，可以發(fā)現(xiàn)那些與motif相似性很高的序列。如果在堿基順序打亂后，我們依然可以得到很多分?jǐn)?shù)很高的序列，那么就表明我們的方法沒(méi)有什么用，進(jìn)而說(shuō)明我們發(fā)現(xiàn)的那些分?jǐn)?shù)很高的序列沒(méi)有什么意義，那么我們做的這種研究就沒(méi)有用了。

　　從假設(shè)檢驗(yàn)上說(shuō)，我們做研究時(shí)，并不希望得到的結(jié)果否定自己的假設(shè)，但是又無(wú)法完全證明得到的結(jié)果正確，所以我們通過(guò)建立一個(gè)與研究假設(shè)相反的假設(shè)H₀，利用假設(shè)檢驗(yàn)來(lái)證明否定H₀，那么我們研究的假設(shè)相對(duì)來(lái)說(shuō)就得到了接受。

轉(zhuǎn)載于:https://www.cnblogs.com/datamining-bio/p/8681545.html

總結(jié)

以上是生活随笔為你收集整理的p-value的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： 2.1 linux C 进程与多线程入门
下一篇：解决C语言程序报错：return typ

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

p-value

總結(jié)