日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

p-value

發(fā)布時間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 p-value 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

p-value

  p-value翻譯為假定值,假設幾率。我們在生物信息中通常使用p值方法(P-Value,?Probability, Pr)來做檢驗。那么p-value是什么呢?其實P-value就是一種概率,表示在原假設為真的前提下出現(xiàn)觀察樣本以及更極端情況的概率。

  什么叫“更極端”情況呢,在此我們借用(https://blog.csdn.net/rongbaohan/article/details/53521147)舉的拋硬幣的例子,我們要檢驗一枚硬幣是否質地均勻,現(xiàn)在我們假設這枚硬幣質地是均勻的。那如何檢驗我們的假設呢?我們知道拋一枚質地均勻的硬幣,正面和反面出現(xiàn)的概率均為0.5。那么我們就開始做實驗:拋這枚硬幣100次,假如我們觀察到的結果是正面出現(xiàn)90次,反面出現(xiàn)10次,這個結果已經很不可能發(fā)生了,也就是極端情況了(質地均勻的硬幣觀察的應該是正反面出現(xiàn)次數(shù)均為50左右),那么所謂“更極端”的情況就是出現(xiàn)正面91次,反面9次,以此類推。為什么要去找“更極端”的情況呢?因為一個事件很極端,那么比它“更極端”的事件就非常少。

  我們觀察的結果(正面90次,反面10次)是在一次實驗中得出的。我們重復做這個實驗100次,每次拋100回硬幣,現(xiàn)在要來考察“更極端”事件出現(xiàn)的概率。P-value=P(出現(xiàn)“更極端”情況的次數(shù)),如果這個p-value < 顯著性水平α,則說明在原假設為真的情況下出現(xiàn)事件(正面90次,反面10次)是極端的,以至于我們不再相信原假設,因為p-value很小就說明在原假設為真的情況下出現(xiàn)觀察到的極端情況的概率很低,但是根據(jù)小概率事件原理,概率很低的情況在一次實驗中不可能出現(xiàn),而極端情況卻出現(xiàn)了,所以我們拒絕原假設。

?

p-value有什么意義呢?

  我們如果計算出的p-value很小,說明原假設情況發(fā)生的概率很小,而如果出現(xiàn)了,根據(jù)小概率原理,我們就有理由拒絕原假設,p-value越小,我們拒絕原假設的理由越充分。

  另外,p-value越小,表明結果越顯著。但是檢驗的結果究竟第“顯著的”、“中度顯著的”還是“高度顯著的”,需要我們自己根據(jù)p-value的大小和實際問題來解決。

?

  我們再舉一個生物信息上的例子,現(xiàn)在要在人類21號染色體上找圖a這樣的模式序列,我們將這種模式序列稱為motif。(來源Noble W S. How does multiple testing correction work?[J]. Nature Biotechnology, 2009, 27(12):1135-7.)

?

  該motif一共由20個堿基組成,堿基有四種(A, T, G, C),其中每一列上字母的大小表示出現(xiàn)的可能性大小,比如說第6個堿基,明顯“C”最大,那么該位置是“C”的可能性就越高。

  我們在人類21號染色體上找到6800萬個長度為20個堿基的序列,我們給每個序列一個score,表示該序列與motif的相似性,score值越大表明該序列越可能是我們要找的motif序列。我們打完分數(shù),列出score值最大的20個序列(我們將這20個序列集合設為A)。現(xiàn)在要表明我們的方法計算出的這前20個序列是有意義的,就要評估這種情況偶然發(fā)生的可能性。

  下圖為前20個得分最高的序列,我們只關注score。其中最高的分數(shù)為26.30.

?

?

  我們提出零假設:前20個序列是隨機出現(xiàn)的。相應地,備擇假設:前20個序列不是隨機出現(xiàn)的,而是與我們的方法有關(備擇假設的意義為:我們的方法是可行的,通過我們給出的方法找出前20個序列是有意義的)。

  現(xiàn)在我們將21號染色體上的堿基順序打亂,根據(jù)零假設,高分數(shù)是隨機的,所以我們的方法對于順序打亂的序列依然會得到很高的分數(shù)。我們記打亂順序后找到的分數(shù)最高的20個序列的集合為B。通過相同的方法計算出的結果顯示:在B集合中只有1個得分≥26.30,即分數(shù)為26.30的序列的p-value = 1/(6800萬)=1.5*10-8(找比26.30這個分數(shù)更極端的分數(shù)),如果設顯著性水平為0.05,那么p-value << 0.05,原假設成立的情況下,出現(xiàn)26.30這樣的高分數(shù)的概率非常非常小,也就是我們得到的結果對原假設的支持程度非常非常小,所以我們拒絕原假設

  我們需要注意的是,p-value不是給定樣本結果時原假設為真的概率,而是給定原假設為真時樣本結果出現(xiàn)的概率。

  所以我們的結果并不是在隨機情況下出現(xiàn)的,說明我們的方法是有意義的,可以發(fā)現(xiàn)那些與motif相似性很高的序列。如果在堿基順序打亂后,我們依然可以得到很多分數(shù)很高的序列,那么就表明我們的方法沒有什么用,進而說明我們發(fā)現(xiàn)的那些分數(shù)很高的序列沒有什么意義,那么我們做的這種研究就沒有用了。

  從假設檢驗上說,我們做研究時,并不希望得到的結果否定自己的假設,但是又無法完全證明得到的結果正確,所以我們通過建立一個與研究假設相反的假設H0,利用假設檢驗來證明否定H0,那么我們研究的假設相對來說就得到了接受。

轉載于:https://www.cnblogs.com/datamining-bio/p/8681545.html

總結

以上是生活随笔為你收集整理的p-value的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。