當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH566 统计理论2 点估计基础

發布時間：2025/4/14 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 UA MATH566 统计理论2 点估计基础小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH566 統計理論2 點估計基礎

Rao-Blackwell定理
UMVUE
矩估計
最大似然估計
- 不變性與截面似然

Rao-Blackwell定理

統計推斷的問題一般用統計決策理論的術語來定義。假設 $X$ 是概率空間 $(X,B(X),PX)(\mathcal{X},\mathcal{B}(\mathcal{X}),P_X)$ 上的隨機變量，其分布族記為 ${f(x,θ),θ∈Θ}\{f(x,\theta),\theta\in\Theta\}$ 。假設某類統計決策問題的決策空間是 $D\mathcal{D}$ ，則定義決策函數為 $δ:X→D\delta:\mathcal{X}\to \mathcal{D}$ ，點估計的決策空間就是參數空間 $θ\theta$ 。定義決策的損失函數為 $L:Θ×D→RL:\Theta\times \mathcal{D}\to \mathbb{R}$ ，常見的損失函數有0-1損失函數、平方損失函數和絕對損失函數，損失函數的選擇取決于實際問題，但以下均要求損失函數是決策空間上的凸函數。由于損失函數是隨機的，因此通常用其期望作為比較標準，一般將期望稱為風險函數： $R(θ,δ)=Eθ[L(θ,δ)]=∫XL(θ,δ)dPXR(\theta,\delta)=E_{\theta}[L(\theta,\delta)]=\int_{\mathcal{X}}L(\theta,\delta)dP_{X}$
關于統計決策理論的更多討論可以參考統計學習第一篇博文。
Rao-Blackwell定理討論的其實是所有統計決策問題，而不僅僅是參數估計的問題。假設 $T (X)$ 是充分統計量，則以下決策函數具有最小的風險函數
$δ?(x)=Eθ[δ(X)∣T=T(x)]\delta^{*}(x) = E_{\theta}[\delta(X)|T=T(x)]$
其中 $δ(X)\delta(X)$ 是任一決策函數，它等同于（有相同風險） $δ?(X)\delta^{*}(X)$ 的條件是 $δ(X)\delta(X)$ 可以寫成充分統計量的函數。這里給一個簡單證明：
根據定義， $δ?(X)\delta^{*}(X)$ 的風險函數為
$R(θ,δ)=Eθ[L(θ,δ?)]=Eθ[L(θ,Eθ[δ(X)∣T=T(x)])]R(\theta,\delta)=E_{\theta}[L(\theta,\delta^{*})] = E_{\theta}[L(\theta, E_{\theta}[\delta(X)|T=T(x)])]$
$δ(X)\delta(X)$ 的風險函數為
$R(θ,δ)=Eθ[L(θ,δ)]=Eθ[Eθ(L(θ,δ)∣T=T(x))]R(\theta,\delta)=E_{\theta}[L(\theta,\delta)] = E_{\theta}[E_{\theta}(L(\theta,\delta)|T=T(x))]$
根據期望的Jensen不等式
$Eθ(L(θ,δ)∣T=T(x))≥L(θ,Eθ[δ(X)∣T=T(x)])E_{\theta}(L(\theta,\delta)|T=T(x)) \ge L(\theta,E_{\theta}[\delta(X)|T=T(x)])$
所以 $R(θ,δ)≥R(θ,δ?)R(\theta,\delta) \ge R(\theta,\delta^{*})$ ，當且僅當 $δ(X)∣T\delta(X)|T$ 退化為確定性的函數時取等，即 $δ(X)\delta(X)$ 可以寫成充分統計量的函數。

UMVUE

假設 $g(θ)g(\theta)$ 的估計量為 $g(θ^)g(\hat{\theta})$ ，定義偏差為
$bias[g(θ^)]=E[g(θ^)]?g(θ)bias[g(\hat{\theta})] = E[g(\hat{\theta})]-g(\theta)$
如果偏差為0，稱 $g(θ^)g(\hat{\theta})$ 是 $g(θ)g(\theta)$ 的無偏估計。對于有偏估計而言，偏差可能大于0，也可能小于0，考慮
$g(θ^)?g(θ)≈g′(θ)(θ^?θ)+g′′(θ)2(θ^?θ)2g(\hat{\theta})-g(\theta)\approx g'(\theta)(\hat{\theta}-\theta)+\frac{g''(\theta)}{2}(\hat{\theta}-\theta)^2$
如果 $θ^\hat{\theta}$ 是 $θ\theta$ 的無偏估計，對等式兩邊求期望
$bias[g(θ^)]=g′′(θ)2Var(θ^)bias[g(\hat{\theta})] = \frac{g''(\theta)}{2}Var(\hat{\theta})$
顯然偏差的方向完全取決于函數 $g$ 的凸性。統計學習第一篇博客推導過，平方損失下，風險函數又叫做均方誤差MSE，MSE有如下分解
$MSE[g(θ^)]=bias2[g(θ^)]+Var[g(θ^)]≥Var[g(θ^)]MSE[g(\hat{\theta})] = bias^2[g(\hat{\theta})] + Var[g(\hat{\theta})] \ge Var[g(\hat{\theta})]$
當且僅當 $g(θ^)g(\hat{\theta})$ 是 $g(θ)g(\theta)$ 的無偏估計時取等，也即無偏估計的風險函數完全取決于其方差。因此定義方差最小的無偏估計為UMVUE（一致最小方差無偏估計），對更一般的情況，定義風險最小的無偏估計為UMRVE（一致最小風險無偏估計）。
Lehmann-Sheffe定理給出了UMRVE應該滿足的條件。闡述Lehmann-Sheffe定理前先給出關于估計量唯一性與無偏性的兩個引理。
唯一性：如果 $g(θ)g(\theta)$ 的無偏估計存在且是 $θ\theta$ 的完備估計量 $T (X)$ 的函數，則它在概率意義上具有唯一性。簡單證明一下。
假設 $h_1(T(X))$ 與 $h_2(T(X))$ 都是 $g(θ)g(\theta)$ 的無偏估計，則
$E[h1(T(X))?h2(T(X))]=g(θ)?g(θ)=0E[h_1(T(X))-h_2(T(X))]=g(\theta) - g(\theta) = 0$
因為 $T (X)$ 是完備估計量，因此 $h_1(T(X))-h_2(T(X))=0 a.s.$ ，唯一性成立。
最優性：假設 $g(θ^)g(\hat{\theta})$ 是 $g(θ)g(\theta)$ 的無偏估計， $T (X)$ 是 $θ\theta$ 的充分統計量，則 $E[g(θ^)∣T]E[g(\hat{\theta})|T]$ 也是 $g(θ)g(\theta)$ 的無偏估計，且至少與 $g(θ^)g(\hat{\theta})$ 一樣好。給一個簡單證明。
$E[E[g(θ^)∣T]]=E[g(θ^)]=g(θ)E[E[g(\hat{\theta})|T]] = E[g(\hat{\theta})] = g(\theta)$
所以無偏性成立，因為 $E[g(θ^)∣T]E[g(\hat{\theta})|T]$ 是充分統計量的函數，根據Rao-Blackwell定理， $R(θ,E[g(θ^)∣T])≤R(θ,g(θ^))R(\theta,E[g(\hat{\theta})|T]) \le R(\theta,g(\hat{\theta}))$ 。當且僅當 $g(θ^)g(\hat{\theta})$ 為 $T (X)$ 的函數時取等。
Lehmann-Sheffe定理：

如果

g(θ^)g(\hat{\theta})

是

g(θ)g(\theta)

的無偏估計，也是充分完備統計量

T (X)

的函數，則

g(θ^)g(\hat{\theta})

是

g(θ)g(\theta)

的UMRUE；

如果

g(θ^)g(\hat{\theta})

是

g(θ)g(\theta)

的無偏估計，則

E[g(θ^)∣T]E[g(\hat{\theta})|T]

是

g(θ)g(\theta)

的UMRUE；

如果存在

g(θ)g(\theta)

的UMRUE，則一定是充分完備統計量

T (X)

的函數。

這篇博文的例子單獨放在一個博文中，這篇文章就只講理論不講具體應用。這里給出Lehmann-Sheffe定理的證明。

矩估計

矩估計的思想非常簡單，假設樣本為 $X1,?,XnX_1,\cdots,X_n$ ，總體概率密度為 $f(x,θ),θ∈Θ?Rdf(x,\theta),\theta \in \Theta \subset \mathbb{R}^d$ 。記樣本矩為 $Xmˉ\bar{X^m}$ ，總體矩為 $μm\mu_m$ ，其中
$Xmˉ=1n∑i=1nXi≈μm(θ)=Eθ[Xm],m=1,2,?,d\bar{X^m} = \frac{1}{n} \sum_{i=1}^n X_i \approx \mu_m(\theta) = E_{\theta}[X^m],m=1,2,\cdots,d$
記 $M=[X1ˉ,?,Xdˉ]TM=[\bar{X^1},\cdots,\bar{X^d}]^T$ ，根據上式（共 $d$ 個方程）可以解出 $θ\theta$ 關于樣本矩的表達式，，記為 $θ^=?(M)\hat{\theta}=\phi(M)$ ，這就是系數的矩估計量。矩估計量的期望還可以試試筆算一下，但矩估計量的方差一般只能做近似計算了。解析計算可以用Delta方法近似，模擬計算可以用bootstrap方法（參考回歸的博文）。考慮一階Taylor近似
$θ^?θ≈D?(θ)(M?θ)\hat{\theta}-\theta \approx D \phi (\theta) (M-\theta)$
對兩邊求協方差矩陣
$Cov(θ^)≈[D?(θ)]Cov(M)[D?(θ)]TCov(\hat{\theta}) \approx [D \phi (\theta)]Cov(M)[D \phi (\theta)]^T$
這就是Delta方法。

最大似然估計

假設樣本 $X={X1,X2,?,Xn}X=\{X_1,X_2,\cdots,X_n\}$ 服從總體分布 $f(x,θ)f(x,\theta)$ ，則參數 $θ\theta$ 的最大似然估計為
$θ^=arg?max?θ∈Θln?f(x1,x2,?,xn,θ)\hat{\theta} = \argmax_{\theta \in \Theta} \ln f(x_1,x_2,\cdots,x_n,\theta)$
記 $L(θ)=ln?f(x1,x2,?,xn,θ)L(\theta)=\ln f(x_1,x_2,\cdots,x_n,\theta)$ 。

不變性與截面似然

定義 $ψ=g(θ)\psi=g(\theta)$ ，定義樣本關于 $ψ\psi$ 的導出似然為
$L?(ψ)=max?{θ:g(θ)=ψ}L(θ)L^{*}(\psi) = \max_{\{\theta:g(\theta)=\psi\}} L(\theta)$
如果 $g$ 是一一對應，則 $L?(ψ)=L(θ)L^{*}(\psi)=L(\theta)$ 。有一個比較重要的性質是，如果 $θ^\hat{\theta}$ 是 $θ\theta$ 的最大似然估計，則 $g(θ^)g(\hat{\theta})$ 是 $g(θ)g(\theta)$ 的最大似然估計。簡單證明一下。
根據導出似然的定義
$L?(g(θ^))=max?{θ:g(θ)=g(θ^)}L(θ)L^{*}(g(\hat{\theta})) = \max_{\{\theta:g(\theta)=g(\hat{\theta})\}} L(\theta)$
顯然 $θ^∈{θ:g(θ)=g(θ^)}\hat{\theta} \in \{\theta:g(\theta)=g(\hat{\theta})\}$ ，所以
$L?(g(θ^))≥L(θ^)≥max?{θ:g(θ)=ψ}L(θ)=L?(ψ),?ψL^{*}(g(\hat{\theta})) \ge L(\hat{\theta}) \ge \max_{\{\theta:g(\theta)=\psi\}} L(\theta) = L^{*}(\psi),\forall \psi$
假設 $θ∈Θ?Rd\theta \in \Theta \subset \mathbb{R}^d$ 可以分成兩個分量 $θ1∈Θ1?Rd1\theta_1\in \Theta_1 \subset \mathbb{R}^{d_1}$ 、 $θ2∈Θ2?Rd2\theta_2 \in \Theta_2 \subset \mathbb{R}^{d_2}$ ， $d=d_1+d_2$ ， $Θ=Θ1?Θ2\Theta = \Theta_1 \otimes \Theta_2$ ，其對數似然可以記為
$L(θ)=L(θ1,θ2)L(\theta) = L(\theta_1,\theta_2)$
固定 $θ1\theta_1$ ，最大化對數似然，此時的最大值叫做截面似然（profile likelihood）
$Lp(θ1)=max?θ2∈Θ2L(θ1,θ2)L_p(\theta_1) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2)$
假設 $θ\theta$ 的最大似然估計 $θ^=(θ^1,θ^2)\hat{\theta}=(\hat{\theta}_1,\hat{\theta}_2)$ 唯一，則
$θ^1=arg?max?θ1∈Θ1Lp(θ1),θ^2=arg?max?θ2∈Θ2Lp(θ2)\hat{\theta}_1 = \argmax_{\theta_1 \in \Theta_1} L_p(\theta_1),\hat{\theta}_2 = \argmax_{\theta_2 \in \Theta_2} L_p(\theta_2)$
簡單地說，就是可以先優化一個參數，再優化另一個并且順序不影響結果。比較直觀，就不證明了。

總結

以上是生活随笔為你收集整理的UA MATH566 统计理论2 点估计基础的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： UA MATH571B 试验设计I 试验
下一篇： UA MATH571B 试验设计III