當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器学习笔记(十二)计算学习理论

發(fā)布時(shí)間：2025/4/16 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习笔记(十二)计算学习理论小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

12.計(jì)算學(xué)習(xí)理論

12.1基礎(chǔ)知識(shí)

計(jì)算學(xué)習(xí)理論（computationallearning theory）研究的是關(guān)于通過計(jì)算來進(jìn)行學(xué)習(xí)的理論，即關(guān)于機(jī)器學(xué)習(xí)的理論基礎(chǔ)，其目的是分析學(xué)習(xí)任務(wù)的困難本質(zhì)，為學(xué)習(xí)算法提供理論保證，并根據(jù)分析結(jié)果指導(dǎo)算法設(shè)計(jì)。理論是共性的、抽象的，是基于眾多個(gè)體總結(jié)出來的規(guī)律，反過來可以作為個(gè)體的理論依據(jù)。

12.2PAC學(xué)習(xí)

計(jì)算學(xué)習(xí)理論中最基本的是概率近似正確（probably approximately correct,pac）學(xué)習(xí)理論。

令c表示概念（concept），是從樣本空間X到標(biāo)記空間Y的映射，它決定示例x的真實(shí)標(biāo)記y，若對(duì)任何樣例（x,y）有c(x)=y成立，則稱c為目標(biāo)概念；所有學(xué)得的目標(biāo)概念所構(gòu)成的集合稱為概念類（concept class），用C表示。

給定學(xué)習(xí)算法A，其所考慮的所有可能概念的集合稱為假設(shè)空間（hypothesis space），用符號(hào)H表示。學(xué)習(xí)算法事先并不知道概念類的真實(shí)存在，因此H和C通常是不同的。學(xué)習(xí)算法會(huì)把自認(rèn)為可能的目標(biāo)概念集中起來構(gòu)成H，對(duì)h∈H，由于并不能確定它是否真是目標(biāo)概念，因此成為假設(shè)（hypothesis）。假設(shè)h也是從樣本空間X到標(biāo)記空間Y的映射。

若目標(biāo)概念c∈H，則H中存在假設(shè)能將所有示例按與真實(shí)標(biāo)記一致的方式完全分開，稱該問題對(duì)學(xué)習(xí)算法A是可分的（separable），也稱為一致性（consistent）；若c?H，則H中不存在任何假設(shè)能將所有示例完全正確分開，稱該問題對(duì)學(xué)習(xí)算法A是不可分的（non-separable），也稱不一致性（non-consistent）。

給定訓(xùn)練集D，期望基于學(xué)習(xí)算法A學(xué)得的模型所對(duì)應(yīng)的假設(shè)h盡可能接近目標(biāo)概念c。由于機(jī)器學(xué)習(xí)過程受到眾多因素制約，包括樣本數(shù)量的有限性、采樣的偶然性，因此只能接近目標(biāo)概念，而不能精確，希望以比較大的把握學(xué)得比較好的模型，也就是說，以較大的概率學(xué)得誤差滿足預(yù)設(shè)上限的模型，也就是PAC定義的來由，使概率上近似正確。

如上，PAC學(xué)習(xí)給出了一個(gè)抽象地刻畫機(jī)器學(xué)習(xí)能力的框架，基于這個(gè)框架能對(duì)很多重要問題進(jìn)行理論探討，如研究某任務(wù)在什么樣的條件下可學(xué)得較好的模型？某算法在什么樣條件下可進(jìn)行有效的學(xué)習(xí)？需多少訓(xùn)練樣例才能獲得較好的模型？

PAC學(xué)習(xí)中一個(gè)關(guān)鍵因素是假設(shè)空間H的復(fù)雜度。H包含了學(xué)習(xí)算法A所有可能輸出的假設(shè)，若在PAC學(xué)習(xí)中假設(shè)空間與概念類完全相同，即H=C，稱為恰PAC可學(xué)習(xí)（properly PAC Learnable）；直觀上理解，意味著學(xué)習(xí)算法的能力與學(xué)習(xí)任務(wù)恰好匹配。然后，這種讓所有候選假設(shè)都來自概念類的要求并不切實(shí)際，因?yàn)楝F(xiàn)實(shí)中對(duì)概念類C通常是一無(wú)所知。因此，重要的研究假設(shè)空間與概念類不同的情形，即H≠C。一般而言，H越大，其包含任意目標(biāo)概念的可能性越大，但從中找到某個(gè)具體目標(biāo)概念的難度也越大。|H|有限時(shí)，稱H為有限假設(shè)空間，否則稱為無(wú)限假設(shè)空間。

12.3有限假設(shè)空間

1）可分情形

可分情形是說目標(biāo)概念c屬于假設(shè)空間H，即c∈H。給定包含m個(gè)樣例的訓(xùn)練集D，如何找出滿足誤差參數(shù)的假設(shè)呢？

既然D中樣例標(biāo)記都是由目標(biāo)概念c賦予的，并且c存在于假設(shè)空間H中，那么任何在訓(xùn)練集D上出現(xiàn)標(biāo)記錯(cuò)誤的假設(shè)肯定不是目標(biāo)概念c。如此，只需保留與D一致的假設(shè)，剔除與D不一致的假設(shè)即可。

如訓(xùn)練集D足夠大，則可不斷借助D中的樣例剔除不一致的假設(shè)，直到H中僅剩下一個(gè)假設(shè)為止，這個(gè)假設(shè)就是目標(biāo)概念c。通常情形下，由于訓(xùn)練集規(guī)模有限，假設(shè)空間H中可能存在不止一個(gè)與D一致的等效假設(shè)，對(duì)這些等效假設(shè)，無(wú)法根據(jù)D來對(duì)它們的優(yōu)劣進(jìn)行進(jìn)一步區(qū)分。

12.4VC維

現(xiàn)實(shí)學(xué)習(xí)任務(wù)所面臨的通常是無(wú)限假設(shè)空間，例如實(shí)數(shù)域中的所有區(qū)間、R^d空間中的所有線性超平面。要對(duì)這類學(xué)習(xí)任務(wù)的可學(xué)習(xí)性進(jìn)行研究，通過考慮假設(shè)空間的VC（Vapnik-Chervonenkis dimension）維來度量假設(shè)空間的復(fù)雜度。先引入增長(zhǎng)函數(shù)（growth function）、對(duì)分（dichotomy）和打散（shattering）。

12.5Rademacher復(fù)雜度

上文推出基于VC維的泛化誤差界是分布無(wú)關(guān)、數(shù)據(jù)獨(dú)立的，即對(duì)任何數(shù)據(jù)分布都成立，使基于VC維的可學(xué)習(xí)性分析結(jié)果具有一定的普適性；但從另一方面來說，由于沒有考慮數(shù)據(jù)自身，基于VC維得到的泛化誤差界通常比較松，尤其是與學(xué)習(xí)問題相差甚遠(yuǎn)的不好分布。

Rademacher復(fù)雜度（Rademachercomplexity）是另一種刻畫假設(shè)空間復(fù)雜度的途徑。和VC維不同的是，它在一定程度上考慮了數(shù)據(jù)分布。

12.6穩(wěn)定性

基于VC維和Rademacher復(fù)雜度來推導(dǎo)泛化誤差界，所得結(jié)果與具體算法無(wú)關(guān)，對(duì)所有學(xué)習(xí)算法適用，是通用性算法可學(xué)習(xí)性的刻畫。學(xué)習(xí)理論的意義就在于從個(gè)體中總結(jié)出一般規(guī)律，從而應(yīng)用于實(shí)際。與算法無(wú)關(guān)的學(xué)習(xí)理論，固然可以脫離具體學(xué)習(xí)算法設(shè)計(jì)而考慮學(xué)習(xí)問題本身的性質(zhì)，但若要獲得與算法有關(guān)的分析結(jié)果，則需另辟蹊徑；穩(wěn)定性（stability）分析就是分析算法相關(guān)的。

算法的穩(wěn)定性考察的是算法在輸入發(fā)生變化時(shí)，輸出是否也隨之發(fā)生變化。學(xué)習(xí)算法的輸入是訓(xùn)練集，先定義兩種訓(xùn)練集的變化。

給定D={ z₁=(x₁,y₁),z₂= (x₂,y₂),…, z_m= (x_m,y_m)}，x_i∈X是來自分布D的獨(dú)立同分布示例，y_i∈{-1,+1}。對(duì)假設(shè)空間H：X->{-1,+1}和學(xué)習(xí)算法A，令A(yù)_D∈H表示基于訓(xùn)練集D從假設(shè)空間H中學(xué)得的假設(shè)，考慮下面兩種變化：

1）D^\i表示移除D中第i個(gè)樣例得到的集合D^\i={z₁, z₂,…, z_i-1, z_i+1,…, z_m}；

2）Dⁱ表示替換D中第i個(gè)樣例得到的集合Dⁱ={z₁, z₂,…, z_i-1, z*_i ,z_i+1,…,z_m}；

其中z*_i={x*_i, y*_i}，x*_i服從分布D并獨(dú)立于訓(xùn)練集。

損失函數(shù)Loss(A_D(x),y):YxY->R⁺刻畫了假設(shè)A_D的預(yù)測(cè)標(biāo)記A_D(x)與真實(shí)標(biāo)記y之間的差別，記為L(zhǎng)oss(A_D,z)。下面定義關(guān)于假設(shè)A_D的幾種損失：

1）泛化損失：Loss(A,D)=E _x _∈X,z=(x,y)[ Loss(A _D,z)]。

總結(jié)

以上是生活随笔為你收集整理的机器学习笔记(十二)计算学习理论的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【正一专栏】王者的尊严和荣耀
下一篇：【正一专栏】第1球和第500球价值一样