當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH566 统计理论7: Multiple Test

發布時間：2025/4/14 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 UA MATH566 统计理论7: Multiple Test 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH566 統計理論7: Multiple Test

Bonferroni調整
- Benjamini-Hochberg方法
Fisher方法
False Discovery Rate

Multiple test就是同時做多個假設檢驗，回歸和試驗設計都有涉及到，那兩個系列用的是Bonferroni方法和WHS方法。這里也介紹一下Bonferroni方法，另外再介紹一個Fisher方法。

Bonferroni調整

假設要同時做 $m$ 個假設檢驗，第 $i$ 個的p值為 $pi,i=1,?,mp_i,i=1,\cdots,m$ ，第 $i$ 個檢驗出現type I error的事件為 $A_i$ 。定義Family-wise error rate (FWER)表示至少有一個檢驗出現type I error的概率， $αB\alpha_B$ 表示單個檢驗的顯著性水平。假設 $α\alpha$ 為這 $m$ 個聯合檢驗的顯著性水平，根據Bonferroni不等式
$α=P(?i=1mAi)≤∑i=1mP(Ai)=mαB\alpha = P(\bigcup_{i=1}^m A_i) \le \sum_{i=1}^m P(A_i) = m\alpha_B$
因此拒絕第 $i$ 個檢驗的原假設的條件可以寫為
$pi≤αm≤αBp_i \le \frac{\alpha}{m} \le \alpha_B$
這說明要同時做 $m$ 個假設檢驗的話，如果要求的顯著性水平為 $α\alpha$ ，那么對單個檢驗做判斷時顯著性水平應該用 $α/m\alpha/m$ 。

注意到Bonferroni不等式在所有的 $A_i$ 都獨立時取等，此時
$α=P(?i=1mAi)=1?P(?i=1mAiC)=1?∏i=1mP(AiC)=1?(1?αB)m\alpha= P(\bigcup_{i=1}^m A_i) = 1 - P(\bigcap_{i=1}^m A_i^C) \\ = 1 - \prod_{i=1}^mP( A_i^C) = 1 - (1-\alpha_B)^m$

Benjamini-Hochberg方法

當 $m$ 比較大之后，要拒絕原假設的條件會變得非常苛刻，甚至到幾乎不可能的程度。為了得到更合理的推斷，Benjamini-Hochberg方法用了比Bonferroni調整更寬松的條件：
假設 $p_{(i)}$ 是這 $m$ 個p值的次序統計量，search
$\argmax_{i=1,2,\cdots,m,p_{(i)} \le k\frac{\alpha}{m}} i$
拒絕這 $k$ 個 $p(1),?,p(k)p_{(1)},\cdots,p_{(k)}$ 對應的原假設。

Fisher方法

Fisher方法比較有意思，第五講提到了原假設下p值服從均勻分布 $U [0, 1]$ ：
$p1,?,pm～iidU[0,1]p_1,\cdots,p_m \sim_{iid} U[0,1]$
根據概率論推導過的結論，它等價于
$?2ln?p1,?,?2ln?pm～iidexp(1/2)-2\ln p_1,\cdots,-2 \ln p_m \sim_{iid} exp(1/2)$
因為 $m$ 個指數分布 $e x p (1 / 2)$ 的和是gamma分布 $Γ(12,m)\Gamma(\frac{1}{2},m)$ ，它其實就是卡方分布 $χ2(2m)\chi^2(2m)$ 。因此上面的結果可以寫成
$?2ln?p1???2ln?pm～χ2(2m)-2\ln p_1 - \cdots -2 \ln p_m \sim \chi^2(2m)$
因此 $m$ 個聯合檢驗的原假設下，可以用 $?2ln?p1???2ln?pm-2\ln p_1 - \cdots -2 \ln p_m$ 作為檢驗的統計量構造一個卡方檢驗。

False Discovery Rate

這里引入false discovery rate的概念，它是p值的一個替代品之一。這里就直接用我老師的ppt截圖了

簡單解釋一下這張表，首先一共要同時做 $m$ 個檢驗，其中有 $mπ0m\pi_0$ 個檢驗的原假設是真命題， $m(1?π0)m(1-\pi_0)$ 個檢驗的備擇假設是真命題。我們拒絕了 $R$ 個原假設，接受了 $m ? R$ 個原假設。每個檢驗有四種可能的結果：原假設為真、拒絕原假設；原假設為假，拒絕原假設；原假設為真，接受原假設；原假設為假，接受原假設，符合這四個結果的檢驗數目分別為 $V, S, U, T$ 。其中 $V, T$ 分別是type I error的數目和type II error的數目。

先討論一下false discovery rate (FDR)，ppt里面那個定義的意思就是FDR就是在拒絕原假設的條件下，原假設為真的概率。根據Hierarchical Model，p值服從混合分布
$Fpvalue(x)=π0x+(1?π0)ROC(x)F_{pvalue}(x) = \pi_0 x + (1-\pi_0)ROC(x)$
如果選擇 $α\alpha$ 作為p值的上限，則
$FDR=P[H0istrue∣rejectH0]=P[rejectH0∣H0true]P[H0true]P[rejectH0]=απ0Fpvalue(α)FDR=P[H_0\ is\ true|reject\ H_0] \\= \frac{P[reject\ H_0|H_0\ true]P[H_0\ true]}{P[reject\ H_0]} = \frac{ \alpha \pi_0}{F_{pvalue}(\alpha)}$
也就是說
$\frac{\pi_0 \alpha}{\pi_0 \alpha + (1-\pi_0)(1-\beta)}$

總結

以上是生活随笔為你收集整理的UA MATH566 统计理论7: Multiple Test的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： UA MATH636 信息论7 并行高斯
下一篇： UA MATH571B 试验设计V 析因