UA MATH566 统计理论2 点估计基础
UA MATH566 統計理論2 點估計基礎
- Rao-Blackwell定理
- UMVUE
- 矩估計
- 最大似然估計
- 不變性與截面似然
Rao-Blackwell定理
統計推斷的問題一般用統計決策理論的術語來定義。假設XXX是概率空間(X,B(X),PX)(\mathcal{X},\mathcal{B}(\mathcal{X}),P_X)(X,B(X),PX?)上的隨機變量,其分布族記為{f(x,θ),θ∈Θ}\{f(x,\theta),\theta\in\Theta\}{f(x,θ),θ∈Θ}。假設某類統計決策問題的決策空間是D\mathcal{D}D,則定義決策函數為δ:X→D\delta:\mathcal{X}\to \mathcal{D}δ:X→D,點估計的決策空間就是參數空間θ\thetaθ。定義決策的損失函數為L:Θ×D→RL:\Theta\times \mathcal{D}\to \mathbb{R}L:Θ×D→R,常見的損失函數有0-1損失函數、平方損失函數和絕對損失函數,損失函數的選擇取決于實際問題,但以下均要求損失函數是決策空間上的凸函數。由于損失函數是隨機的,因此通常用其期望作為比較標準,一般將期望稱為風險函數:R(θ,δ)=Eθ[L(θ,δ)]=∫XL(θ,δ)dPXR(\theta,\delta)=E_{\theta}[L(\theta,\delta)]=\int_{\mathcal{X}}L(\theta,\delta)dP_{X}R(θ,δ)=Eθ?[L(θ,δ)]=∫X?L(θ,δ)dPX?
關于統計決策理論的更多討論可以參考統計學習第一篇博文。
Rao-Blackwell定理討論的其實是所有統計決策問題,而不僅僅是參數估計的問題。假設T(X)T(X)T(X)是充分統計量,則以下決策函數具有最小的風險函數
δ?(x)=Eθ[δ(X)∣T=T(x)]\delta^{*}(x) = E_{\theta}[\delta(X)|T=T(x)] δ?(x)=Eθ?[δ(X)∣T=T(x)]
其中δ(X)\delta(X)δ(X)是任一決策函數,它等同于(有相同風險)δ?(X)\delta^{*}(X)δ?(X)的條件是δ(X)\delta(X)δ(X)可以寫成充分統計量的函數。這里給一個簡單證明:
根據定義,δ?(X)\delta^{*}(X)δ?(X)的風險函數為
R(θ,δ)=Eθ[L(θ,δ?)]=Eθ[L(θ,Eθ[δ(X)∣T=T(x)])]R(\theta,\delta)=E_{\theta}[L(\theta,\delta^{*})] = E_{\theta}[L(\theta, E_{\theta}[\delta(X)|T=T(x)])] R(θ,δ)=Eθ?[L(θ,δ?)]=Eθ?[L(θ,Eθ?[δ(X)∣T=T(x)])]
δ(X)\delta(X)δ(X)的風險函數為
R(θ,δ)=Eθ[L(θ,δ)]=Eθ[Eθ(L(θ,δ)∣T=T(x))]R(\theta,\delta)=E_{\theta}[L(\theta,\delta)] = E_{\theta}[E_{\theta}(L(\theta,\delta)|T=T(x))] R(θ,δ)=Eθ?[L(θ,δ)]=Eθ?[Eθ?(L(θ,δ)∣T=T(x))]
根據期望的Jensen不等式
Eθ(L(θ,δ)∣T=T(x))≥L(θ,Eθ[δ(X)∣T=T(x)])E_{\theta}(L(\theta,\delta)|T=T(x)) \ge L(\theta,E_{\theta}[\delta(X)|T=T(x)]) Eθ?(L(θ,δ)∣T=T(x))≥L(θ,Eθ?[δ(X)∣T=T(x)])
所以R(θ,δ)≥R(θ,δ?)R(\theta,\delta) \ge R(\theta,\delta^{*})R(θ,δ)≥R(θ,δ?),當且僅當δ(X)∣T\delta(X)|Tδ(X)∣T退化為確定性的函數時取等,即δ(X)\delta(X)δ(X)可以寫成充分統計量的函數。
UMVUE
假設g(θ)g(\theta)g(θ)的估計量為g(θ^)g(\hat{\theta})g(θ^),定義偏差為
bias[g(θ^)]=E[g(θ^)]?g(θ)bias[g(\hat{\theta})] = E[g(\hat{\theta})]-g(\theta) bias[g(θ^)]=E[g(θ^)]?g(θ)
如果偏差為0,稱g(θ^)g(\hat{\theta})g(θ^)是g(θ)g(\theta)g(θ)的無偏估計。對于有偏估計而言,偏差可能大于0,也可能小于0,考慮
g(θ^)?g(θ)≈g′(θ)(θ^?θ)+g′′(θ)2(θ^?θ)2g(\hat{\theta})-g(\theta)\approx g'(\theta)(\hat{\theta}-\theta)+\frac{g''(\theta)}{2}(\hat{\theta}-\theta)^2 g(θ^)?g(θ)≈g′(θ)(θ^?θ)+2g′′(θ)?(θ^?θ)2
如果θ^\hat{\theta}θ^是θ\thetaθ的無偏估計,對等式兩邊求期望
bias[g(θ^)]=g′′(θ)2Var(θ^)bias[g(\hat{\theta})] = \frac{g''(\theta)}{2}Var(\hat{\theta}) bias[g(θ^)]=2g′′(θ)?Var(θ^)
顯然偏差的方向完全取決于函數ggg的凸性。統計學習第一篇博客推導過,平方損失下,風險函數又叫做均方誤差MSE,MSE有如下分解
MSE[g(θ^)]=bias2[g(θ^)]+Var[g(θ^)]≥Var[g(θ^)]MSE[g(\hat{\theta})] = bias^2[g(\hat{\theta})] + Var[g(\hat{\theta})] \ge Var[g(\hat{\theta})] MSE[g(θ^)]=bias2[g(θ^)]+Var[g(θ^)]≥Var[g(θ^)]
當且僅當g(θ^)g(\hat{\theta})g(θ^)是g(θ)g(\theta)g(θ)的無偏估計時取等,也即無偏估計的風險函數完全取決于其方差。因此定義方差最小的無偏估計為UMVUE(一致最小方差無偏估計),對更一般的情況,定義風險最小的無偏估計為UMRVE(一致最小風險無偏估計)。
Lehmann-Sheffe定理給出了UMRVE應該滿足的條件。闡述Lehmann-Sheffe定理前先給出關于估計量唯一性與無偏性的兩個引理。
唯一性:如果g(θ)g(\theta)g(θ)的無偏估計存在且是θ\thetaθ的完備估計量T(X)T(X)T(X)的函數,則它在概率意義上具有唯一性。簡單證明一下。
假設h1(T(X))h_1(T(X))h1?(T(X))與h2(T(X))h_2(T(X))h2?(T(X))都是g(θ)g(\theta)g(θ)的無偏估計,則
E[h1(T(X))?h2(T(X))]=g(θ)?g(θ)=0E[h_1(T(X))-h_2(T(X))]=g(\theta) - g(\theta) = 0 E[h1?(T(X))?h2?(T(X))]=g(θ)?g(θ)=0
因為T(X)T(X)T(X)是完備估計量,因此h1(T(X))?h2(T(X))=0a.s.h_1(T(X))-h_2(T(X))=0 a.s.h1?(T(X))?h2?(T(X))=0a.s.,唯一性成立。
最優性:假設g(θ^)g(\hat{\theta})g(θ^)是g(θ)g(\theta)g(θ)的無偏估計,T(X)T(X)T(X)是θ\thetaθ的充分統計量,則E[g(θ^)∣T]E[g(\hat{\theta})|T]E[g(θ^)∣T]也是g(θ)g(\theta)g(θ)的無偏估計,且至少與g(θ^)g(\hat{\theta})g(θ^)一樣好。給一個簡單證明。
E[E[g(θ^)∣T]]=E[g(θ^)]=g(θ)E[E[g(\hat{\theta})|T]] = E[g(\hat{\theta})] = g(\theta) E[E[g(θ^)∣T]]=E[g(θ^)]=g(θ)
所以無偏性成立,因為E[g(θ^)∣T]E[g(\hat{\theta})|T]E[g(θ^)∣T]是充分統計量的函數,根據Rao-Blackwell定理,R(θ,E[g(θ^)∣T])≤R(θ,g(θ^))R(\theta,E[g(\hat{\theta})|T]) \le R(\theta,g(\hat{\theta}))R(θ,E[g(θ^)∣T])≤R(θ,g(θ^))。當且僅當g(θ^)g(\hat{\theta})g(θ^)為T(X)T(X)T(X)的函數時取等。
Lehmann-Sheffe定理:
這篇博文的例子單獨放在一個博文中,這篇文章就只講理論不講具體應用。這里給出Lehmann-Sheffe定理的證明。
矩估計
矩估計的思想非常簡單,假設樣本為X1,?,XnX_1,\cdots,X_nX1?,?,Xn?,總體概率密度為f(x,θ),θ∈Θ?Rdf(x,\theta),\theta \in \Theta \subset \mathbb{R}^df(x,θ),θ∈Θ?Rd。記樣本矩為Xmˉ\bar{X^m}Xmˉ,總體矩為μm\mu_mμm?,其中
Xmˉ=1n∑i=1nXi≈μm(θ)=Eθ[Xm],m=1,2,?,d\bar{X^m} = \frac{1}{n} \sum_{i=1}^n X_i \approx \mu_m(\theta) = E_{\theta}[X^m],m=1,2,\cdots,d Xmˉ=n1?i=1∑n?Xi?≈μm?(θ)=Eθ?[Xm],m=1,2,?,d
記M=[X1ˉ,?,Xdˉ]TM=[\bar{X^1},\cdots,\bar{X^d}]^TM=[X1ˉ,?,Xdˉ]T,根據上式(共ddd個方程)可以解出θ\thetaθ關于樣本矩的表達式,,記為θ^=?(M)\hat{\theta}=\phi(M)θ^=?(M),這就是系數的矩估計量。矩估計量的期望還可以試試筆算一下,但矩估計量的方差一般只能做近似計算了。解析計算可以用Delta方法近似,模擬計算可以用bootstrap方法(參考回歸的博文)。考慮一階Taylor近似
θ^?θ≈D?(θ)(M?θ)\hat{\theta}-\theta \approx D \phi (\theta) (M-\theta) θ^?θ≈D?(θ)(M?θ)
對兩邊求協方差矩陣
Cov(θ^)≈[D?(θ)]Cov(M)[D?(θ)]TCov(\hat{\theta}) \approx [D \phi (\theta)]Cov(M)[D \phi (\theta)]^T Cov(θ^)≈[D?(θ)]Cov(M)[D?(θ)]T
這就是Delta方法。
最大似然估計
假設樣本X={X1,X2,?,Xn}X=\{X_1,X_2,\cdots,X_n\}X={X1?,X2?,?,Xn?}服從總體分布f(x,θ)f(x,\theta)f(x,θ),則參數θ\thetaθ的最大似然估計為
θ^=arg?max?θ∈Θln?f(x1,x2,?,xn,θ)\hat{\theta} = \argmax_{\theta \in \Theta} \ln f(x_1,x_2,\cdots,x_n,\theta) θ^=θ∈Θargmax?lnf(x1?,x2?,?,xn?,θ)
記L(θ)=ln?f(x1,x2,?,xn,θ)L(\theta)=\ln f(x_1,x_2,\cdots,x_n,\theta)L(θ)=lnf(x1?,x2?,?,xn?,θ)。
不變性與截面似然
定義ψ=g(θ)\psi=g(\theta)ψ=g(θ),定義樣本關于ψ\psiψ的導出似然為
L?(ψ)=max?{θ:g(θ)=ψ}L(θ)L^{*}(\psi) = \max_{\{\theta:g(\theta)=\psi\}} L(\theta) L?(ψ)={θ:g(θ)=ψ}max?L(θ)
如果ggg是一一對應,則L?(ψ)=L(θ)L^{*}(\psi)=L(\theta)L?(ψ)=L(θ)。有一個比較重要的性質是,如果θ^\hat{\theta}θ^是θ\thetaθ的最大似然估計,則g(θ^)g(\hat{\theta})g(θ^)是g(θ)g(\theta)g(θ)的最大似然估計。簡單證明一下。
根據導出似然的定義
L?(g(θ^))=max?{θ:g(θ)=g(θ^)}L(θ)L^{*}(g(\hat{\theta})) = \max_{\{\theta:g(\theta)=g(\hat{\theta})\}} L(\theta) L?(g(θ^))={θ:g(θ)=g(θ^)}max?L(θ)
顯然θ^∈{θ:g(θ)=g(θ^)}\hat{\theta} \in \{\theta:g(\theta)=g(\hat{\theta})\}θ^∈{θ:g(θ)=g(θ^)},所以
L?(g(θ^))≥L(θ^)≥max?{θ:g(θ)=ψ}L(θ)=L?(ψ),?ψL^{*}(g(\hat{\theta})) \ge L(\hat{\theta}) \ge \max_{\{\theta:g(\theta)=\psi\}} L(\theta) = L^{*}(\psi),\forall \psi L?(g(θ^))≥L(θ^)≥{θ:g(θ)=ψ}max?L(θ)=L?(ψ),?ψ
假設θ∈Θ?Rd\theta \in \Theta \subset \mathbb{R}^dθ∈Θ?Rd可以分成兩個分量θ1∈Θ1?Rd1\theta_1\in \Theta_1 \subset \mathbb{R}^{d_1}θ1?∈Θ1??Rd1?、θ2∈Θ2?Rd2\theta_2 \in \Theta_2 \subset \mathbb{R}^{d_2}θ2?∈Θ2??Rd2?,d=d1+d2d=d_1+d_2d=d1?+d2?,Θ=Θ1?Θ2\Theta = \Theta_1 \otimes \Theta_2Θ=Θ1??Θ2?,其對數似然可以記為
L(θ)=L(θ1,θ2)L(\theta) = L(\theta_1,\theta_2) L(θ)=L(θ1?,θ2?)
固定θ1\theta_1θ1?,最大化對數似然,此時的最大值叫做截面似然(profile likelihood)
Lp(θ1)=max?θ2∈Θ2L(θ1,θ2)L_p(\theta_1) = \max_{\theta_2 \in \Theta_2} L(\theta_1,\theta_2) Lp?(θ1?)=θ2?∈Θ2?max?L(θ1?,θ2?)
假設θ\thetaθ的最大似然估計θ^=(θ^1,θ^2)\hat{\theta}=(\hat{\theta}_1,\hat{\theta}_2)θ^=(θ^1?,θ^2?)唯一,則
θ^1=arg?max?θ1∈Θ1Lp(θ1),θ^2=arg?max?θ2∈Θ2Lp(θ2)\hat{\theta}_1 = \argmax_{\theta_1 \in \Theta_1} L_p(\theta_1),\hat{\theta}_2 = \argmax_{\theta_2 \in \Theta_2} L_p(\theta_2) θ^1?=θ1?∈Θ1?argmax?Lp?(θ1?),θ^2?=θ2?∈Θ2?argmax?Lp?(θ2?)
簡單地說,就是可以先優化一個參數,再優化另一個并且順序不影響結果。比較直觀,就不證明了。
總結
以上是生活随笔為你收集整理的UA MATH566 统计理论2 点估计基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH571B 试验设计I 试验
- 下一篇: UA MATH571B 试验设计III