當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH574M 统计学习I 监督学习理论

發布時間：2025/4/14 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 UA MATH574M 统计学习I 监督学习理论小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH574M 統計學習I 監督學習理論

統計決策理論
- 損失函數與風險函數
- - 偏差-方差的權衡
- 最優估計量
- - 貝葉斯規則
監督學習理論的基本概念
- Optimal Learner
- 經驗損失函數與ERM
- 監督學習理論的內容
ERM的一致性
- Worst Case Analysis
- Vapnik-Cervonenkis Entropy (VC-Entropy)
- 一致性的充要條件

統計決策理論

損失函數與風險函數

假設樣本 $X=(X1,X2,...,Xn)～iidf(x∣θ),θ∈ΘX=(X_1,X_2,...,X_n) \sim_{iid} f(x|\theta), \theta \in \Theta$ ，是state-of-nature，假設其估計量是 $θ^(X)\hat{\theta}(X)$ （簡寫為 $θ^\hat{\theta}$ ），可以定義損失函數（Loss Function）
$L(θ,θ^):Θ×Θ→RL(\theta,\hat{\theta}): \Theta \times \Theta \to \mathbb{R}$
用來衡量估計量與state-of-nature之間的差異，通常損失函數非負。常用的損失函數有這幾種：
$SquareLoss:L(θ,θ^)=∣θ?θ^∣L22AbsoluteErrorLoss:L(θ,θ^)=∣θ?θ^∣L1LpLoss:L(θ,θ^)=∣θ?θ^∣LppSquare\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^2_{L_2} \\ Absolute\ Error\ Loss: L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|_{L_1} \\ L_p\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^p_{L_p} \\$
這三種損失函數一般用在回歸中，平方損失函數是最常用的。
$0?1Loss:L(θ,θ^)=I(θ≠θ^)0-1\ Loss: L(\theta,\hat{\theta}) = I(\theta \ne \hat{\theta})$
這種損失函數一般用在分類問題中。
$K?LDivergence:L(θ,θ^)=D(f(x∣θ)∣∣f(x∣θ^))K-L\ Divergence:L(\theta,\hat{\theta}) = D(f(x|\theta)||f(x|\hat{\theta}))$
這種損失函數一般用來做密度估計（Density Estimation）。其中K-L Divergence（Kullback-Leibler Divergence）又叫相對熵，用來描述兩個分布間的“距離”，其定義是
$D(f(x∣θ)∣∣f(x∣θ^))=E[ln(f(X∣θ)f(X∣θ^))]D(f(x|\theta)||f(x|\hat{\theta})) = E[ln(\frac{f(X|\theta)}{f(X|\hat{\theta})})]$
但這個定義不滿足對稱性和三角不等式，所以不是一個真正的距離。在統計決策理論的框架下，參數估計可以被化歸為損失函數最小化。但遺憾的是，在Frequentist的哲學中，損失函數是關于樣本的函數，是隨機的，用來作為最優化的目標函數會讓問題變復雜。因此統計學家又定義了風險函數（Risk function）：
$R(θ,θ^)=E[L(θ,θ^)]=∫XL(θ,θ^)f(X∣θ)dXR(\theta,\hat{\theta}) = E[L(\theta,\hat{\theta}) ] = \int_{\mathbb{X}} L(\theta,\hat{\theta}) f(X|\theta)dX$
這個就不是隨機的了，它是參數空間 $Θ\Theta$ 到 $R\mathbb{R}$ 上的函數。因此統計決策理論的目標就是通過最優化
$min?θ∈ΘR(θ,θ^)\min_{\theta \in \Theta} R(\theta,\hat{\theta})$
來確定參數。

偏差-方差的權衡

假設使用平方損失函數，則對應的風險函數又叫均方誤差（MSE，Mean Squared Error）。
$MSE=E(θ?θ^)2=E[(θ?Eθ^)+(Eθ^?θ^)]2MSE = E(\theta-\hat{\theta})^2=E[(\theta-E\hat{\theta})+(E\hat{\theta}-\hat{\theta})]^2$
考慮一下交叉項
$E[(θ?Eθ^)(Eθ^?θ^)]=(θ?Eθ^)E(Eθ^?θ^)=0E[(\theta-E\hat{\theta})(E\hat{\theta}-\hat{\theta})]=(\theta-E\hat{\theta})E(E\hat{\theta}-\hat{\theta})=0$
而其中
$E[(θ?Eθ^)2]=bias2(θ^),E[(Eθ^?θ^)2]=Var(θ^)E[(\theta-E\hat{\theta})^2]=bias^2(\hat{\theta}), E[(E\hat{\theta}-\hat{\theta})^2]=Var(\hat{\theta})$
所以 $MSE(θ^)=bias2(θ^)+Var(θ^)MSE(\hat{\theta})=bias^2(\hat{\theta})+Var(\hat{\theta})$ 。偏差與方差都會增加總風險，而從經驗上看二者又是此消彼長的關系，因此通常都需要在二者之間作出權衡（bias-variance trade-off）。

最優估計量

風險函數還可以用來衡量估計量的優劣，假設 $θ^1\hat{\theta}_1$ 和 $θ^2\hat{\theta}_2$ 是兩個估計量，如果
$R(θ,θ^1)<R(θ,θ^2),?θ∈ΘR(\theta,\hat{\theta}_1)<R(\theta,\hat{\theta}_2), \forall \theta \in \Theta$
稱 $θ^1\hat{\theta}_1$ 絕對占優于（uniformly dominated） $θ^2\hat{\theta}_2$ 。從這個定義可以得到對最優估計量的最樸素的認知，如果一個估計量絕對占優于其他所有估計量，那么它就是最優的。這也正是上面提到的最小化風險函數的意思。然而找到風險函數的全局最優解幾乎是不可能的，一般都是用一些更可行的方法計算得到一些近似的結果。常用的方法有三種。第一種是在最優化限制在參數空間的某些子集中，比如限制在所有的無偏估計中，那么最優的結果的結果就是最優無偏估計，或稱UMVUE；如果限制在所有的線性無偏估計中，那么最優的結果就是BLUE。第二種方法是minimax規則。對于所有可能的估計量，計算風險函數的上確界
$Rˉ(θ^)=sup?θ∈ΘR(θ,θ^)\bar{R}(\hat{\theta})=\sup_{\theta \in \Theta} R(\theta,\hat{\theta})$
上確界代表估計量可能造成的最糟糕的結果。然后通過最小化這些上確界來選擇估計量
$min?θ^Rˉ(θ^)\min_{\hat{\theta}} \bar{R}(\hat{\theta})$
用這個規則相當于就是非常悲觀，希望估計量造成的最壞的結果也沒有那么壞就可以了。

貝葉斯規則

貝葉斯規則是第三種非常常用的方法。Bayesian的思想是state-of-nature也是隨機的，它會服從一個先驗 $π(θ)\pi(\theta)$ ，給定樣本后根據Bayes公式可以計算出后驗分布
$π(θ∣X)=f(X∣θ)π(θ)m(X)∝f(X∣θ)π(θ)\pi(\theta|X)=\frac{f(X|\theta)\pi(\theta)}{m(X)} \propto f(X|\theta)\pi(\theta)$
其中 $m (X)$ 是樣本的邊緣分布， $f(X∣θ)π(θ)f(X|\theta)\pi(\theta)$ 又被稱為后驗核（posterior kernel）。因為貝葉斯統計最大的問題在于大量的復雜計算，而決定后驗分布類型的只有 $f(X∣θ)π(θ)f(X|\theta)\pi(\theta)$ ，所以通常有后驗核就可以了。在貝葉斯統計中，上面定義的風險函數不再是一個確定的函數了，因為state-of-nature也是隨機的。Bayesian定義了貝葉斯風險（Bayesian risk）
$rB(π,θ^)=∫ΘR(θ,θ^)π(θ)dθ=EθEX∣θL(θ,θ^)r_B(\pi,\hat{\theta})=\int_{\Theta} R(\theta,\hat{\theta})\pi(\theta) d\theta = E_{\theta}E_{X|\theta} L(\theta,\hat{\theta})$
貝葉斯規則的目標就是通過最小化貝葉斯風險來估計參數
$θ^Bπ=arg?min?θ^rB(π,θ^)\hat{\theta}^{\pi}_{B} = \argmin_{\hat{\theta}} r_B(\pi,\hat{\theta})$
這種估計量叫貝葉斯估計。然而還是同樣的問題，光是 $rB(π,θ^)r_B(\pi,\hat{\theta})$ 的那個積分計算上就很復雜了，更何況還要做最優化。因此另一種更可行的方法是定義后驗風險（posterior risk）
$r(θ^∣X)=∫ΘL(θ,θ^)π(θ∣X)dθ=Eθ∣XL(θ,θ^)r(\hat{\theta}|X)=\int_{\Theta} L(\theta,\hat{\theta})\pi(\theta|X)d\theta = E_{\theta|X} L(\theta,\hat{\theta})$
后驗風險是樣本的函數，它和貝葉斯風險存在如下關聯
$rB(π,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta}) = E_X r(\hat{\theta}|X)$
證明也比較容易，就是用一下全概率公式
$rB(π,θ^)=EθEX∣θL(θ,θ^)=EX,θL(θ,θ^)=EXEθ∣XL(θ,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta})=E_{\theta}E_{X|\theta} L(\theta,\hat{\theta})=E_{X,\theta} L(\theta,\hat{\theta})=E_XE_{\theta|X} L(\theta,\hat{\theta})=E_X r(\hat{\theta}|X)$
這個關系可以給貝葉斯規則帶來一個新的計算思路
$θ^Bπ=min?Xmin?θ^r(θ^∣X=x)\hat{\theta}^{\pi}_{B} = \min_{\mathbb{X}} \min_{\hat{\theta}} r(\hat{\theta}|X=x)$
在實踐中，這個方法比直接找貝葉斯估計量更容易計算。

監督學習理論的基本概念

將統計決策理論的框架用到監督學習（Supervised Learning）上，可以初步建立起監督學習理論。假設 $X,Y)=\{(X_i,Y_i)\}_{i=1}^n$ 表示訓練集， $(Xi,Yi)～iidP(x,y)(X_i,Y_i) \sim_{iid} P(x,y)$ ，且滿足 $Y = f (X)$ ，監督學習的目標就是構建 $f$ 的估計量 $f^\hat{f}$ 。

Optimal Learner

監督學習的損失函數可以寫成 $L (Y, f (X))$ ，風險函數是
$E_{X,Y} L(Y,f(X)) = \int_{\mathbb{X},\mathbb{Y}} L(Y,f(X))dP(X,Y)$
它又被稱為expected prediction error (EPE(f))。因此Optimal Learner的定義是
$f^=arg?min?fR(f)\hat{f} = \argmin_{f} R(f)$
理論機器學習的文章都是試圖證明某種方法的EPE會趨近optimal learner。與貝葉斯規則類似，監督學習也可以做簡化處理，
$R(f)=E_{X,Y} L(Y,f(X)) = E_X E_{Y|X} L(Y,f(X))$
給定 $X = x$ 時，optimal learner就是最小化 $E_{Y|X} L(Y,f(X))$ 的解。以平方損失函數為例，考慮最優化
$min_f E_{Y|X=x} L(Y,f(x)) = E_{Y|X=x} (Y-f(x))^2$
其解為 $f^*(x)=E(Y|X=x)$ ，正是平方損失下的貝葉斯估計量，因此貝葉斯風險是平方損失下EPE的下確界。如果對EPE做分解
$EPE(f)=E_{X,Y} (Y-f(X))^2 = E_{X,Y} [(Y-E(Y|X))+(E(Y|X)-f(X))]^2$
其中交叉項也會為零， $E_{X,Y} [(Y-E(Y|X))]^2$ 是平方損失下的貝葉斯風險，因此
$EPE(f)=rB(π,θ^)+EX(f(X)?E(Y∣X))2EPE(f) = r_B(\pi,\hat{\theta})+ E_{X}(f(X) - E(Y|X))^2$
后者衡量learner與貝葉斯估計之間的差距，設計learner的目標就是控制這一項。

經驗損失函數與ERM

在實際問題中，概率測度 $P (X, Y)$ 都是未知的，一般只能用經驗風險函數（empirical risk function）來替代EPE。經驗風險函數又叫訓練誤差（training error），其定義是
$Remp(f)=1n∑i=1nL(Yi,f(Xi))R_{emp}(f) = \frac{1}{n} \sum_{i=1}^{n} L(Y_i,f(X_i))$
最小化經驗風險來尋找optimal learner的原則叫ERM（Principle of empirical risk minimization）。從理論上看，當訓練集足夠大時，經驗風險自然會趨近于EPE，但當訓練集不夠大的時候需要防止模型過擬合（overfitting）。過擬合指的是模型的訓練誤差很小，但泛化能力較差。因為最小化經驗風險與最小化EPE的結果并不一定總是一致的，所以會有過擬合。為了防止過擬合，可以給參數加上roughness penalty。ERM與貝葉斯估計量類似，都是試圖尋找全局的最優解，但全局最優通常無法找到，所以限制模型的類別，比如線性、非線性、參數模型、非參模型等，在子集上找最優解是比較常規的做法。假設模型集合為 $F\mathbf{F}$ ，某個類別的子集為 $F1\mathbf{F}_1$ ， $f^*$ 是optimal learner，
$f?=arg?min?f∈FEPE(f)f^* = \argmin_{f \in \mathbf{F}} EPE(f)$
$f^\hat{f}$ 是在模型子集 $F1\mathbf{F}_1$ 上根據ERM找到的最優解
$f^=arg?min?f∈F1Remp(f)\hat{f} = \argmin_{f \in \mathbf{F}_1} R_{emp}(f)$
$f~\tilde{f}$ 是模型子集 $F1\mathbf{F}_1$ 的理論最優解
$f~=arg?min?f∈F1EPE(f)\tilde{f} = \argmin_{f \in \mathbf{F}_1} EPE(f)$
則 $f^\hat{f}$ 與optimal learner之間的誤差可以做如下分解
$EPE(f^)?EPE(f?)=[EPE(f^)?EPE(f~)]+[EPE(f~)?EPE(f?)]EPE(\hat{f})-EPE(f^*)=[EPE(\hat{f})-EPE(\tilde{f})]+[EPE(\tilde{f})-EPE(f^*)]$
第一項的含義是在模型子集 $F1\mathbf{F}_1$ 的估計誤差，第二項是將模型限制在 $F1\mathbf{F}_1$ 上的近似誤差。

監督學習理論的內容

從上面的描述中，我們已經可以窺見監督學習理論需要回答的幾個問題了。ERM收斂的條件是什么？收斂速度怎么樣？怎么才能控制它的收斂？這三個問題都有實際意義。第一個問題可以回答基于ERM的監督學習算法在哪些情境下適用；第二個問題可以回答為了保證結果盡可能接近Optimal Learner，至少需要多大的訓練集；第三個問題可以回答過擬合能不能避免。以下給出一致性理論的簡單介紹。

ERM的一致性

ERM的一致性理論建立在概統漸進理論的基礎上，提供了ERM收斂的充要條件，滿足這些充要條件的算法才有機會收斂到Optimal Learner。

Worst Case Analysis

假設風險函數 $R (f)$ 有界，則ERM具有一致性的充要條件是 $R_{emp}(f)$ 依概率單邊一致收斂（uniformly one-sided convergence in probability）到 $R (f)$ ， $?f∈F\forall f \in \mathbf{F}$ ，即
$lim?n→∞P{sup?f∈F(R(f)?Remp(f))>?}=0,??>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0$
因為 $R_{emp}(f)$ 是 $(X, Y)$ 的函數，所以這里的概率測度就是上面那個概率測度 $P (X, Y)$ 。這個結論其實是很直觀的，ERM的一致性指大樣本的時候，希望ERM的最優結果趨近于Optimal Learner，這個結論說的是要實現這個效果，那么首先在大樣本的時候訓練誤差就要一致收斂到EPE。這個定理是監督學習理論一個非常關鍵的定理，因為要保證訓練誤差一致收斂，就要求我們必須分析最壞的情況，即考慮 $sup?f∈F(Remp(f)?R(f))\sup_{f \in \mathbf{F}} (R_{emp}(f)-R(f))$ 。這其實就是在強調對ERM一致性的分析，其實是一種Worst Case Analysis。

Vapnik-Cervonenkis Entropy (VC-Entropy)

接下來要做的事情，就是分析 $R_{emp}(f)$ 依概率單邊一致收斂到 $R (f)$ 的充要條件。為了做這個分析，需要定義一個新的結構，VC-Entropy。先舉一個例子介紹一下VC-Entropy的思想。假設學習任務是做一個二分類問題， $Y$ 被標注為0和1，如果只有5個觀察對象，觀察足夠多次后得到的 $f (X)$ 只有這四種結果(0,1,1,0,0), (0,1,0,1,0), (1,0,1,1,1), (0,0,1,0,1) （根據觀察到的特征用分類器 $f$ 分類的結果）。這四個向量在五維空間中構成的圖形（這個圖形相當于所有分類結果的邊界）有4個頂點，由此可以定義這個分類器的隨機熵（random entropy）為 $ln?4\ln4$ 。這個值用來衡量分類器分類結果的離散程度。現在將這個定義推廣到一般情況。對于訓練集 $X,Y)=\{(X_i,Y_i)\}_{i=1}^n$ 與算法 $f$ ，定義隨機向量
$q(f)=[f(X1),f(X2),...,f(Xn)]T∈Rnq(f)=[f(X_1),f(X_2),...,f(X_n)]^T \in \mathbb{R}^n$
則這個向量表示算法 $f$ 所有可能輸出在 $Rn\mathbb{R}^n$ 空間中的位置。然后利用 $?\epsilon$ -net去定義所有這些 $q (f)$ 的邊界的“頂點”，用 $N(?,X)N(\epsilon,X)$ 表示“頂點”的個數，用 $H(?,X)=ln?N(?,X)H(\epsilon,X)=\ln N(\epsilon,X)$ 用來衡量輸出的離散程度，則VC-entropy的定義是
$H(?,n)=EXH(?,X)H(\epsilon,n) = E_X H(\epsilon,X)$
這個定義已經將特征的不確定性考慮在內了，其含義是輸入的特征（隨機變量）經過算法 $f$ 處理后輸出結果的平均離散程度，只與 $?\epsilon$ 的選取與訓練集大小 $n$ 有關。

一致性的充要條件

$R_{emp}(f)$ 依概率雙邊一致收斂（uniformly two-sided convergence in probability）到 $R (f)$ ， $?f∈F\forall f \in \mathbf{F}$ ，即
$lim?n→∞P{sup?f∈F(∣R(f)?Remp(f)∣)>?}=0,??>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0$
的充要條件是
$lim?n→∞H(?,n)n=0,??>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0$
因為雙邊收斂比單邊收斂強，所以這個結果也是單邊一致收斂的充要條件。這個結果也是比較直觀的，相當于是在限制所有可能輸出的邊界的大小，假設上面的極限等于一個正實數，那么“頂點”的個數會指數增加，隨著訓練集越來越大，算出輸出的值域反而會擴張，從而出現類似過擬合的現象，顯然是不會收斂的；假設上面的極限是一個負實數，那么“頂點”的個數會指數減少，隨著訓練集越來越大，算法輸出的值域會逐漸坍塌，出現類似欠擬合的現象，這樣也不會收斂。監督學習理論討論了一致性的充要條件后，還討論了快速收斂（快速收斂指的是指數收斂）的充要條件，快速收斂且獨立于概率測度（也就是可以在不同的context下都具有一致性）的充要條件。基于 $N(?,X)N(\epsilon,X)$ 構建另外兩個結構。退化VC-entropy
$Hann(?,n)=ln?EN(?,X)H_{ann}(\epsilon,n)=\ln EN(\epsilon,X)$
以及增長函數
$G(?,X)=ln?sup?XN(?,X)G(\epsilon,X) = \ln \sup_X N(\epsilon,X)$
根據定義可以直接得到VC-entropy的邊界
$H(?,n)≤Hann(?,n)≤G(?,X)H(\epsilon,n) \le H_{ann}(\epsilon,n) \le G(\epsilon,X)$
其中
$lim?n→∞Hann(?,n)n=0,??>0\lim_{n \to \infty} \frac{H_{ann}(\epsilon,n)}{n} = 0, \forall \epsilon>0$
是快速收斂的充要條件。
$lim?n→∞G(?,n)n=0,??>0\lim_{n \to \infty} \frac{G(\epsilon,n)}{n} = 0, \forall \epsilon>0$
快速收斂且獨立于概率測度的充要條件。

總結

以上是生活随笔為你收集整理的UA MATH574M 统计学习I 监督学习理论的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： UA Stat PhD Qualify
下一篇：城市规划理论1 选址理论