日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH574M 统计学习I 监督学习理论

發布時間:2025/4/14 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UA MATH574M 统计学习I 监督学习理论 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH574M 統計學習I 監督學習理論

  • 統計決策理論
    • 損失函數與風險函數
      • 偏差-方差的權衡
    • 最優估計量
      • 貝葉斯規則
  • 監督學習理論的基本概念
    • Optimal Learner
    • 經驗損失函數與ERM
    • 監督學習理論的內容
  • ERM的一致性
    • Worst Case Analysis
    • Vapnik-Cervonenkis Entropy (VC-Entropy)
    • 一致性的充要條件

統計決策理論

損失函數與風險函數

假設樣本X=(X1,X2,...,Xn)~iidf(x∣θ),θ∈ΘX=(X_1,X_2,...,X_n) \sim_{iid} f(x|\theta), \theta \in \ThetaX=(X1?,X2?,...,Xn?)iid?f(xθ),θΘ,是state-of-nature,假設其估計量是θ^(X)\hat{\theta}(X)θ^(X)(簡寫為θ^\hat{\theta}θ^),可以定義損失函數(Loss Function)
L(θ,θ^):Θ×Θ→RL(\theta,\hat{\theta}): \Theta \times \Theta \to \mathbb{R} L(θ,θ^):Θ×ΘR
用來衡量估計量與state-of-nature之間的差異,通常損失函數非負。常用的損失函數有這幾種:
SquareLoss:L(θ,θ^)=∣θ?θ^∣L22AbsoluteErrorLoss:L(θ,θ^)=∣θ?θ^∣L1LpLoss:L(θ,θ^)=∣θ?θ^∣LppSquare\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^2_{L_2} \\ Absolute\ Error\ Loss: L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|_{L_1} \\ L_p\ Loss:L(\theta,\hat{\theta}) = |\theta-\hat{\theta}|^p_{L_p} \\ Square?Loss:L(θ,θ^)=θ?θ^L2?2?Absolute?Error?Loss:L(θ,θ^)=θ?θ^L1??Lp??Loss:L(θ,θ^)=θ?θ^Lp?p?
這三種損失函數一般用在回歸中,平方損失函數是最常用的。
0?1Loss:L(θ,θ^)=I(θ≠θ^)0-1\ Loss: L(\theta,\hat{\theta}) = I(\theta \ne \hat{\theta}) 0?1?Loss:L(θ,θ^)=I(θ?=θ^)
這種損失函數一般用在分類問題中。
K?LDivergence:L(θ,θ^)=D(f(x∣θ)∣∣f(x∣θ^))K-L\ Divergence:L(\theta,\hat{\theta}) = D(f(x|\theta)||f(x|\hat{\theta})) K?L?Divergence:L(θ,θ^)=D(f(xθ)f(xθ^))
這種損失函數一般用來做密度估計(Density Estimation)。其中K-L Divergence(Kullback-Leibler Divergence)又叫相對熵,用來描述兩個分布間的“距離”,其定義是
D(f(x∣θ)∣∣f(x∣θ^))=E[ln(f(X∣θ)f(X∣θ^))]D(f(x|\theta)||f(x|\hat{\theta})) = E[ln(\frac{f(X|\theta)}{f(X|\hat{\theta})})] D(f(xθ)f(xθ^))=E[ln(f(Xθ^)f(Xθ)?)]
但這個定義不滿足對稱性和三角不等式,所以不是一個真正的距離。在統計決策理論的框架下,參數估計可以被化歸為損失函數最小化。但遺憾的是,在Frequentist的哲學中,損失函數是關于樣本的函數,是隨機的,用來作為最優化的目標函數會讓問題變復雜。因此統計學家又定義了風險函數(Risk function):
R(θ,θ^)=E[L(θ,θ^)]=∫XL(θ,θ^)f(X∣θ)dXR(\theta,\hat{\theta}) = E[L(\theta,\hat{\theta}) ] = \int_{\mathbb{X}} L(\theta,\hat{\theta}) f(X|\theta)dX R(θ,θ^)=E[L(θ,θ^)]=X?L(θ,θ^)f(Xθ)dX
這個就不是隨機的了,它是參數空間Θ\ThetaΘR\mathbb{R}R上的函數。因此統計決策理論的目標就是通過最優化
min?θ∈ΘR(θ,θ^)\min_{\theta \in \Theta} R(\theta,\hat{\theta}) θΘmin?R(θ,θ^)
來確定參數。

偏差-方差的權衡

假設使用平方損失函數,則對應的風險函數又叫均方誤差(MSE,Mean Squared Error)。
MSE=E(θ?θ^)2=E[(θ?Eθ^)+(Eθ^?θ^)]2MSE = E(\theta-\hat{\theta})^2=E[(\theta-E\hat{\theta})+(E\hat{\theta}-\hat{\theta})]^2 MSE=E(θ?θ^)2=E[(θ?Eθ^)+(Eθ^?θ^)]2
考慮一下交叉項
E[(θ?Eθ^)(Eθ^?θ^)]=(θ?Eθ^)E(Eθ^?θ^)=0E[(\theta-E\hat{\theta})(E\hat{\theta}-\hat{\theta})]=(\theta-E\hat{\theta})E(E\hat{\theta}-\hat{\theta})=0 E[(θ?Eθ^)(Eθ^?θ^)]=(θ?Eθ^)E(Eθ^?θ^)=0
而其中
E[(θ?Eθ^)2]=bias2(θ^),E[(Eθ^?θ^)2]=Var(θ^)E[(\theta-E\hat{\theta})^2]=bias^2(\hat{\theta}), E[(E\hat{\theta}-\hat{\theta})^2]=Var(\hat{\theta}) E[(θ?Eθ^)2]=bias2(θ^),E[(Eθ^?θ^)2]=Var(θ^)
所以MSE(θ^)=bias2(θ^)+Var(θ^)MSE(\hat{\theta})=bias^2(\hat{\theta})+Var(\hat{\theta})MSE(θ^)=bias2(θ^)+Var(θ^)。偏差與方差都會增加總風險,而從經驗上看二者又是此消彼長的關系,因此通常都需要在二者之間作出權衡(bias-variance trade-off)。

最優估計量

風險函數還可以用來衡量估計量的優劣,假設θ^1\hat{\theta}_1θ^1?θ^2\hat{\theta}_2θ^2?是兩個估計量,如果
R(θ,θ^1)<R(θ,θ^2),?θ∈ΘR(\theta,\hat{\theta}_1)<R(\theta,\hat{\theta}_2), \forall \theta \in \Theta R(θ,θ^1?)<R(θ,θ^2?),?θΘ
θ^1\hat{\theta}_1θ^1?絕對占優于(uniformly dominated)θ^2\hat{\theta}_2θ^2?。從這個定義可以得到對最優估計量的最樸素的認知,如果一個估計量絕對占優于其他所有估計量,那么它就是最優的。這也正是上面提到的最小化風險函數的意思。然而找到風險函數的全局最優解幾乎是不可能的,一般都是用一些更可行的方法計算得到一些近似的結果。常用的方法有三種。第一種是在最優化限制在參數空間的某些子集中,比如限制在所有的無偏估計中,那么最優的結果的結果就是最優無偏估計,或稱UMVUE;如果限制在所有的線性無偏估計中,那么最優的結果就是BLUE。第二種方法是minimax規則。對于所有可能的估計量,計算風險函數的上確界
Rˉ(θ^)=sup?θ∈ΘR(θ,θ^)\bar{R}(\hat{\theta})=\sup_{\theta \in \Theta} R(\theta,\hat{\theta}) Rˉ(θ^)=θΘsup?R(θ,θ^)
上確界代表估計量可能造成的最糟糕的結果。然后通過最小化這些上確界來選擇估計量
min?θ^Rˉ(θ^)\min_{\hat{\theta}} \bar{R}(\hat{\theta}) θ^min?Rˉ(θ^)
用這個規則相當于就是非常悲觀,希望估計量造成的最壞的結果也沒有那么壞就可以了。

貝葉斯規則

貝葉斯規則是第三種非常常用的方法。Bayesian的思想是state-of-nature也是隨機的,它會服從一個先驗π(θ)\pi(\theta)π(θ),給定樣本后根據Bayes公式可以計算出后驗分布
π(θ∣X)=f(X∣θ)π(θ)m(X)∝f(X∣θ)π(θ)\pi(\theta|X)=\frac{f(X|\theta)\pi(\theta)}{m(X)} \propto f(X|\theta)\pi(\theta) π(θX)=m(X)f(Xθ)π(θ)?f(Xθ)π(θ)
其中m(X)m(X)m(X)是樣本的邊緣分布,f(X∣θ)π(θ)f(X|\theta)\pi(\theta)f(Xθ)π(θ)又被稱為后驗核(posterior kernel)。因為貝葉斯統計最大的問題在于大量的復雜計算,而決定后驗分布類型的只有f(X∣θ)π(θ)f(X|\theta)\pi(\theta)f(Xθ)π(θ),所以通常有后驗核就可以了。在貝葉斯統計中,上面定義的風險函數不再是一個確定的函數了,因為state-of-nature也是隨機的。Bayesian定義了貝葉斯風險(Bayesian risk)
rB(π,θ^)=∫ΘR(θ,θ^)π(θ)dθ=EθEX∣θL(θ,θ^)r_B(\pi,\hat{\theta})=\int_{\Theta} R(\theta,\hat{\theta})\pi(\theta) d\theta = E_{\theta}E_{X|\theta} L(\theta,\hat{\theta}) rB?(π,θ^)=Θ?R(θ,θ^)π(θ)dθ=Eθ?EXθ?L(θ,θ^)
貝葉斯規則的目標就是通過最小化貝葉斯風險來估計參數
θ^Bπ=arg?min?θ^rB(π,θ^)\hat{\theta}^{\pi}_{B} = \argmin_{\hat{\theta}} r_B(\pi,\hat{\theta}) θ^Bπ?=θ^argmin?rB?(π,θ^)
這種估計量叫貝葉斯估計。然而還是同樣的問題,光是rB(π,θ^)r_B(\pi,\hat{\theta})rB?(π,θ^)的那個積分計算上就很復雜了,更何況還要做最優化。因此另一種更可行的方法是定義后驗風險(posterior risk)
r(θ^∣X)=∫ΘL(θ,θ^)π(θ∣X)dθ=Eθ∣XL(θ,θ^)r(\hat{\theta}|X)=\int_{\Theta} L(\theta,\hat{\theta})\pi(\theta|X)d\theta = E_{\theta|X} L(\theta,\hat{\theta}) r(θ^X)=Θ?L(θ,θ^)π(θX)dθ=EθX?L(θ,θ^)
后驗風險是樣本的函數,它和貝葉斯風險存在如下關聯
rB(π,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta}) = E_X r(\hat{\theta}|X) rB?(π,θ^)=EX?r(θ^X)
證明也比較容易,就是用一下全概率公式
rB(π,θ^)=EθEX∣θL(θ,θ^)=EX,θL(θ,θ^)=EXEθ∣XL(θ,θ^)=EXr(θ^∣X)r_B(\pi,\hat{\theta})=E_{\theta}E_{X|\theta} L(\theta,\hat{\theta})=E_{X,\theta} L(\theta,\hat{\theta})=E_XE_{\theta|X} L(\theta,\hat{\theta})=E_X r(\hat{\theta}|X) rB?(π,θ^)=Eθ?EXθ?L(θ,θ^)=EX,θ?L(θ,θ^)=EX?EθX?L(θ,θ^)=EX?r(θ^X)
這個關系可以給貝葉斯規則帶來一個新的計算思路
θ^Bπ=min?Xmin?θ^r(θ^∣X=x)\hat{\theta}^{\pi}_{B} = \min_{\mathbb{X}} \min_{\hat{\theta}} r(\hat{\theta}|X=x) θ^Bπ?=Xmin?θ^min?r(θ^X=x)
在實踐中,這個方法比直接找貝葉斯估計量更容易計算。

監督學習理論的基本概念

將統計決策理論的框架用到監督學習(Supervised Learning)上,可以初步建立起監督學習理論。假設(X,Y)={(Xi,Yi)}i=1n(X,Y)=\{(X_i,Y_i)\}_{i=1}^n(X,Y)={(Xi?,Yi?)}i=1n?表示訓練集,(Xi,Yi)~iidP(x,y)(X_i,Y_i) \sim_{iid} P(x,y)(Xi?,Yi?)iid?P(x,y),且滿足Y=f(X)Y=f(X)Y=f(X),監督學習的目標就是構建fff的估計量f^\hat{f}f^?

Optimal Learner

監督學習的損失函數可以寫成L(Y,f(X))L(Y,f(X))L(Y,f(X)),風險函數是
R(f)=EX,YL(Y,f(X))=∫X,YL(Y,f(X))dP(X,Y)R(f) = E_{X,Y} L(Y,f(X)) = \int_{\mathbb{X},\mathbb{Y}} L(Y,f(X))dP(X,Y) R(f)=EX,Y?L(Y,f(X))=X,Y?L(Y,f(X))dP(X,Y)
它又被稱為expected prediction error (EPE(f))。因此Optimal Learner的定義是
f^=arg?min?fR(f)\hat{f} = \argmin_{f} R(f) f^?=fargmin?R(f)
理論機器學習的文章都是試圖證明某種方法的EPE會趨近optimal learner。與貝葉斯規則類似,監督學習也可以做簡化處理,
R(f)=EX,YL(Y,f(X))=EXEY∣XL(Y,f(X))R(f)=E_{X,Y} L(Y,f(X)) = E_X E_{Y|X} L(Y,f(X)) R(f)=EX,Y?L(Y,f(X))=EX?EYX?L(Y,f(X))
給定X=xX=xX=x時,optimal learner就是最小化EY∣XL(Y,f(X))E_{Y|X} L(Y,f(X))EYX?L(Y,f(X))的解。以平方損失函數為例,考慮最優化
min?fEY∣X=xL(Y,f(x))=EY∣X=x(Y?f(x))2\min_f E_{Y|X=x} L(Y,f(x)) = E_{Y|X=x} (Y-f(x))^2 fmin?EYX=x?L(Y,f(x))=EYX=x?(Y?f(x))2
其解為f?(x)=E(Y∣X=x)f^*(x)=E(Y|X=x)f?(x)=E(YX=x),正是平方損失下的貝葉斯估計量,因此貝葉斯風險是平方損失下EPE的下確界。如果對EPE做分解
EPE(f)=EX,Y(Y?f(X))2=EX,Y[(Y?E(Y∣X))+(E(Y∣X)?f(X))]2EPE(f)=E_{X,Y} (Y-f(X))^2 = E_{X,Y} [(Y-E(Y|X))+(E(Y|X)-f(X))]^2 EPE(f)=EX,Y?(Y?f(X))2=EX,Y?[(Y?E(YX))+(E(YX)?f(X))]2
其中交叉項也會為零,EX,Y[(Y?E(Y∣X))]2E_{X,Y} [(Y-E(Y|X))]^2EX,Y?[(Y?E(YX))]2是平方損失下的貝葉斯風險,因此
EPE(f)=rB(π,θ^)+EX(f(X)?E(Y∣X))2EPE(f) = r_B(\pi,\hat{\theta})+ E_{X}(f(X) - E(Y|X))^2 EPE(f)=rB?(π,θ^)+EX?(f(X)?E(YX))2
后者衡量learner與貝葉斯估計之間的差距,設計learner的目標就是控制這一項。

經驗損失函數與ERM

在實際問題中,概率測度P(X,Y)P(X,Y)P(X,Y)都是未知的,一般只能用經驗風險函數(empirical risk function)來替代EPE。經驗風險函數又叫訓練誤差(training error),其定義是
Remp(f)=1n∑i=1nL(Yi,f(Xi))R_{emp}(f) = \frac{1}{n} \sum_{i=1}^{n} L(Y_i,f(X_i)) Remp?(f)=n1?i=1n?L(Yi?,f(Xi?))
最小化經驗風險來尋找optimal learner的原則叫ERM(Principle of empirical risk minimization)。從理論上看,當訓練集足夠大時,經驗風險自然會趨近于EPE,但當訓練集不夠大的時候需要防止模型過擬合(overfitting)。過擬合指的是模型的訓練誤差很小,但泛化能力較差。因為最小化經驗風險與最小化EPE的結果并不一定總是一致的,所以會有過擬合。為了防止過擬合,可以給參數加上roughness penalty。ERM與貝葉斯估計量類似,都是試圖尋找全局的最優解,但全局最優通常無法找到,所以限制模型的類別,比如線性、非線性、參數模型、非參模型等,在子集上找最優解是比較常規的做法。假設模型集合為F\mathbf{F}F,某個類別的子集為F1\mathbf{F}_1F1?f?f^*f?是optimal learner,
f?=arg?min?f∈FEPE(f)f^* = \argmin_{f \in \mathbf{F}} EPE(f) f?=fFargmin?EPE(f)
f^\hat{f}f^?是在模型子集F1\mathbf{F}_1F1?上根據ERM找到的最優解
f^=arg?min?f∈F1Remp(f)\hat{f} = \argmin_{f \in \mathbf{F}_1} R_{emp}(f) f^?=fF1?argmin?Remp?(f)
f~\tilde{f}f~?是模型子集F1\mathbf{F}_1F1?的理論最優解
f~=arg?min?f∈F1EPE(f)\tilde{f} = \argmin_{f \in \mathbf{F}_1} EPE(f) f~?=fF1?argmin?EPE(f)
f^\hat{f}f^?與optimal learner之間的誤差可以做如下分解
EPE(f^)?EPE(f?)=[EPE(f^)?EPE(f~)]+[EPE(f~)?EPE(f?)]EPE(\hat{f})-EPE(f^*)=[EPE(\hat{f})-EPE(\tilde{f})]+[EPE(\tilde{f})-EPE(f^*)] EPE(f^?)?EPE(f?)=[EPE(f^?)?EPE(f~?)]+[EPE(f~?)?EPE(f?)]
第一項的含義是在模型子集F1\mathbf{F}_1F1?的估計誤差,第二項是將模型限制在F1\mathbf{F}_1F1?上的近似誤差。

監督學習理論的內容

從上面的描述中,我們已經可以窺見監督學習理論需要回答的幾個問題了。ERM收斂的條件是什么?收斂速度怎么樣?怎么才能控制它的收斂?這三個問題都有實際意義。第一個問題可以回答基于ERM的監督學習算法在哪些情境下適用;第二個問題可以回答為了保證結果盡可能接近Optimal Learner,至少需要多大的訓練集;第三個問題可以回答過擬合能不能避免。以下給出一致性理論的簡單介紹。

ERM的一致性

ERM的一致性理論建立在概統漸進理論的基礎上,提供了ERM收斂的充要條件,滿足這些充要條件的算法才有機會收斂到Optimal Learner。

Worst Case Analysis

假設風險函數R(f)R(f)R(f)有界,則ERM具有一致性的充要條件是Remp(f)R_{emp}(f)Remp?(f)依概率單邊一致收斂(uniformly one-sided convergence in probability)到R(f)R(f)R(f)?f∈F\forall f \in \mathbf{F}?fF,即
lim?n→∞P{sup?f∈F(R(f)?Remp(f))>?}=0,??>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (R(f)-R_{emp}(f)) >\epsilon\}=0, \forall \epsilon>0 nlim?P{fFsup?(R(f)?Remp?(f))>?}=0,??>0
因為Remp(f)R_{emp}(f)Remp?(f)(X,Y)(X,Y)(X,Y)的函數,所以這里的概率測度就是上面那個概率測度P(X,Y)P(X,Y)P(X,Y)。這個結論其實是很直觀的,ERM的一致性指大樣本的時候,希望ERM的最優結果趨近于Optimal Learner,這個結論說的是要實現這個效果,那么首先在大樣本的時候訓練誤差就要一致收斂到EPE。這個定理是監督學習理論一個非常關鍵的定理,因為要保證訓練誤差一致收斂,就要求我們必須分析最壞的情況,即考慮sup?f∈F(Remp(f)?R(f))\sup_{f \in \mathbf{F}} (R_{emp}(f)-R(f))supfF?(Remp?(f)?R(f))。這其實就是在強調對ERM一致性的分析,其實是一種Worst Case Analysis。

Vapnik-Cervonenkis Entropy (VC-Entropy)

接下來要做的事情,就是分析Remp(f)R_{emp}(f)Remp?(f)依概率單邊一致收斂到R(f)R(f)R(f)的充要條件。為了做這個分析,需要定義一個新的結構,VC-Entropy。先舉一個例子介紹一下VC-Entropy的思想。假設學習任務是做一個二分類問題,YYY被標注為0和1,如果只有5個觀察對象,觀察足夠多次后得到的f(X)f(X)f(X)只有這四種結果(0,1,1,0,0), (0,1,0,1,0), (1,0,1,1,1), (0,0,1,0,1) (根據觀察到的特征用分類器fff分類的結果)。這四個向量在五維空間中構成的圖形(這個圖形相當于所有分類結果的邊界)有4個頂點,由此可以定義這個分類器的隨機熵(random entropy)為ln?4\ln4ln4。這個值用來衡量分類器分類結果的離散程度。現在將這個定義推廣到一般情況。對于訓練集(X,Y)={(Xi,Yi)}i=1n(X,Y)=\{(X_i,Y_i)\}_{i=1}^n(X,Y)={(Xi?,Yi?)}i=1n?與算法fff,定義隨機向量
q(f)=[f(X1),f(X2),...,f(Xn)]T∈Rnq(f)=[f(X_1),f(X_2),...,f(X_n)]^T \in \mathbb{R}^n q(f)=[f(X1?),f(X2?),...,f(Xn?)]TRn
則這個向量表示算法fff所有可能輸出在Rn\mathbb{R}^nRn空間中的位置。然后利用?\epsilon?-net去定義所有這些q(f)q(f)q(f)的邊界的“頂點”,用N(?,X)N(\epsilon,X)N(?,X)表示“頂點”的個數,用H(?,X)=ln?N(?,X)H(\epsilon,X)=\ln N(\epsilon,X)H(?,X)=lnN(?,X)用來衡量輸出的離散程度,則VC-entropy的定義是
H(?,n)=EXH(?,X)H(\epsilon,n) = E_X H(\epsilon,X) H(?,n)=EX?H(?,X)
這個定義已經將特征的不確定性考慮在內了,其含義是輸入的特征(隨機變量)經過算法fff處理后輸出結果的平均離散程度,只與?\epsilon?的選取與訓練集大小nnn有關。

一致性的充要條件

Remp(f)R_{emp}(f)Remp?(f)依概率雙邊一致收斂(uniformly two-sided convergence in probability)到R(f)R(f)R(f)?f∈F\forall f \in \mathbf{F}?fF,即
lim?n→∞P{sup?f∈F(∣R(f)?Remp(f)∣)>?}=0,??>0\lim_{n \to \infty} P\{ \sup_{f \in \mathbf{F}} (|R(f)-R_{emp}(f)|) >\epsilon\}=0, \forall \epsilon>0 nlim?P{fFsup?(R(f)?Remp?(f))>?}=0,??>0
的充要條件是
lim?n→∞H(?,n)n=0,??>0\lim_{n \to \infty} \frac{H(\epsilon,n)}{n} = 0, \forall \epsilon>0 nlim?nH(?,n)?=0,??>0
因為雙邊收斂比單邊收斂強,所以這個結果也是單邊一致收斂的充要條件。這個結果也是比較直觀的,相當于是在限制所有可能輸出的邊界的大小,假設上面的極限等于一個正實數,那么“頂點”的個數會指數增加,隨著訓練集越來越大,算出輸出的值域反而會擴張,從而出現類似過擬合的現象,顯然是不會收斂的;假設上面的極限是一個負實數,那么“頂點”的個數會指數減少,隨著訓練集越來越大,算法輸出的值域會逐漸坍塌,出現類似欠擬合的現象,這樣也不會收斂。監督學習理論討論了一致性的充要條件后,還討論了快速收斂(快速收斂指的是指數收斂)的充要條件,快速收斂且獨立于概率測度(也就是可以在不同的context下都具有一致性)的充要條件。基于N(?,X)N(\epsilon,X)N(?,X)構建另外兩個結構。退化VC-entropy
Hann(?,n)=ln?EN(?,X)H_{ann}(\epsilon,n)=\ln EN(\epsilon,X) Hann?(?,n)=lnEN(?,X)
以及增長函數
G(?,X)=ln?sup?XN(?,X)G(\epsilon,X) = \ln \sup_X N(\epsilon,X) G(?,X)=lnXsup?N(?,X)
根據定義可以直接得到VC-entropy的邊界
H(?,n)≤Hann(?,n)≤G(?,X)H(\epsilon,n) \le H_{ann}(\epsilon,n) \le G(\epsilon,X) H(?,n)Hann?(?,n)G(?,X)
其中
lim?n→∞Hann(?,n)n=0,??>0\lim_{n \to \infty} \frac{H_{ann}(\epsilon,n)}{n} = 0, \forall \epsilon>0 nlim?nHann?(?,n)?=0,??>0
是快速收斂的充要條件。
lim?n→∞G(?,n)n=0,??>0\lim_{n \to \infty} \frac{G(\epsilon,n)}{n} = 0, \forall \epsilon>0 nlim?nG(?,n)?=0,??>0
快速收斂且獨立于概率測度的充要條件。

總結

以上是生活随笔為你收集整理的UA MATH574M 统计学习I 监督学习理论的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。