日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH566 统计理论7: Multiple Test

發布時間:2025/4/14 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UA MATH566 统计理论7: Multiple Test 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH566 統計理論7: Multiple Test

  • Bonferroni調整
    • Benjamini-Hochberg方法
  • Fisher方法
  • False Discovery Rate

Multiple test就是同時做多個假設檢驗,回歸和試驗設計都有涉及到,那兩個系列用的是Bonferroni方法和WHS方法。這里也介紹一下Bonferroni方法,另外再介紹一個Fisher方法。

Bonferroni調整

假設要同時做mmm個假設檢驗,第iii個的p值為pi,i=1,?,mp_i,i=1,\cdots,mpi?,i=1,?,m,第iii個檢驗出現type I error的事件為AiA_iAi?。定義Family-wise error rate (FWER)表示至少有一個檢驗出現type I error的概率,αB\alpha_BαB?表示單個檢驗的顯著性水平。假設α\alphaα為這mmm個聯合檢驗的顯著性水平,根據Bonferroni不等式
α=P(?i=1mAi)≤∑i=1mP(Ai)=mαB\alpha = P(\bigcup_{i=1}^m A_i) \le \sum_{i=1}^m P(A_i) = m\alpha_Bα=P(i=1?m?Ai?)i=1m?P(Ai?)=mαB?
因此拒絕第iii個檢驗的原假設的條件可以寫為
pi≤αm≤αBp_i \le \frac{\alpha}{m} \le \alpha_Bpi?mα?αB?
這說明要同時做mmm個假設檢驗的話,如果要求的顯著性水平為α\alphaα,那么對單個檢驗做判斷時顯著性水平應該用α/m\alpha/mα/m

注意到Bonferroni不等式在所有的AiA_iAi?都獨立時取等,此時
α=P(?i=1mAi)=1?P(?i=1mAiC)=1?∏i=1mP(AiC)=1?(1?αB)m\alpha= P(\bigcup_{i=1}^m A_i) = 1 - P(\bigcap_{i=1}^m A_i^C) \\ = 1 - \prod_{i=1}^mP( A_i^C) = 1 - (1-\alpha_B)^mα=P(i=1?m?Ai?)=1?P(i=1?m?AiC?)=1?i=1m?P(AiC?)=1?(1?αB?)m

Benjamini-Hochberg方法

mmm比較大之后,要拒絕原假設的條件會變得非常苛刻,甚至到幾乎不可能的程度。為了得到更合理的推斷,Benjamini-Hochberg方法用了比Bonferroni調整更寬松的條件:
假設p(i)p_{(i)}p(i)?是這mmm個p值的次序統計量,search
k=arg?max?i=1,2,?,m,p(i)≤kαmik = \argmax_{i=1,2,\cdots,m,p_{(i)} \le k\frac{\alpha}{m}} ik=i=1,2,?,m,p(i)?kmα?argmax?i
拒絕這kkkp(1),?,p(k)p_{(1)},\cdots,p_{(k)}p(1)?,?,p(k)?對應的原假設。

Fisher方法

Fisher方法比較有意思,第五講提到了原假設下p值服從均勻分布U[0,1]U[0,1]U[0,1]
p1,?,pm~iidU[0,1]p_1,\cdots,p_m \sim_{iid} U[0,1]p1?,?,pm?iid?U[0,1]
根據概率論推導過的結論,它等價于
?2ln?p1,?,?2ln?pm~iidexp(1/2)-2\ln p_1,\cdots,-2 \ln p_m \sim_{iid} exp(1/2)?2lnp1?,?,?2lnpm?iid?exp(1/2)
因為mmm個指數分布exp(1/2)exp(1/2)exp(1/2)的和是gamma分布Γ(12,m)\Gamma(\frac{1}{2},m)Γ(21?,m),它其實就是卡方分布χ2(2m)\chi^2(2m)χ2(2m)。因此上面的結果可以寫成
?2ln?p1???2ln?pm~χ2(2m)-2\ln p_1 - \cdots -2 \ln p_m \sim \chi^2(2m)?2lnp1????2lnpm?χ2(2m)
因此mmm個聯合檢驗的原假設下,可以用?2ln?p1???2ln?pm-2\ln p_1 - \cdots -2 \ln p_m?2lnp1????2lnpm?作為檢驗的統計量構造一個卡方檢驗。

False Discovery Rate

這里引入false discovery rate的概念,它是p值的一個替代品之一。這里就直接用我老師的ppt截圖了

簡單解釋一下這張表,首先一共要同時做mmm個檢驗,其中有mπ0m\pi_0mπ0?個檢驗的原假設是真命題,m(1?π0)m(1-\pi_0)m(1?π0?)個檢驗的備擇假設是真命題。我們拒絕了RRR個原假設,接受了m?Rm-Rm?R個原假設。每個檢驗有四種可能的結果:原假設為真、拒絕原假設;原假設為假,拒絕原假設;原假設為真,接受原假設;原假設為假,接受原假設,符合這四個結果的檢驗數目分別為V,S,U,TV,S,U,TV,S,U,T。其中V,TV,TV,T分別是type I error的數目和type II error的數目。

先討論一下false discovery rate (FDR),ppt里面那個定義的意思就是FDR就是在拒絕原假設的條件下,原假設為真的概率。根據Hierarchical Model,p值服從混合分布
Fpvalue(x)=π0x+(1?π0)ROC(x)F_{pvalue}(x) = \pi_0 x + (1-\pi_0)ROC(x)Fpvalue?(x)=π0?x+(1?π0?)ROC(x)
如果選擇α\alphaα作為p值的上限,則
FDR=P[H0istrue∣rejectH0]=P[rejectH0∣H0true]P[H0true]P[rejectH0]=απ0Fpvalue(α)FDR=P[H_0\ is\ true|reject\ H_0] \\= \frac{P[reject\ H_0|H_0\ true]P[H_0\ true]}{P[reject\ H_0]} = \frac{ \alpha \pi_0}{F_{pvalue}(\alpha)}FDR=P[H0??is?truereject?H0?]=P[reject?H0?]P[reject?H0?H0??true]P[H0??true]?=Fpvalue?(α)απ0??
也就是說
FDR=π0απ0α+(1?π0)(1?β)FDR = \frac{\pi_0 \alpha}{\pi_0 \alpha + (1-\pi_0)(1-\beta)}FDR=π0?α+(1?π0?)(1?β)π0?α?

總結

以上是生活随笔為你收集整理的UA MATH566 统计理论7: Multiple Test的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。