日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

PAC

發(fā)布時(shí)間:2024/3/12 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PAC 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

為什么機(jī)器能夠?qū)W習(xí)——PAC Learnability

?機(jī)器學(xué)習(xí)中,我們根據(jù)訓(xùn)練集訓(xùn)練一個(gè)模型,來(lái)對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。通常我們并不關(guān)心模型在訓(xùn)練集上的好壞(即訓(xùn)練誤差,in sample error),舉個(gè)簡(jiǎn)單例子,我們想要根據(jù)前六個(gè)月股市行情訓(xùn)練一個(gè)模型來(lái)對(duì)未來(lái)股市走向進(jìn)行預(yù)測(cè),即使我們的算法在過(guò)去的數(shù)據(jù)上做的再精準(zhǔn)都沒(méi)有任何意義,我們希望模型在未來(lái)某一天能夠預(yù)測(cè)的準(zhǔn),這樣我們才能賺大錢。因此我們更著重于其在從未見(jiàn)過(guò)的數(shù)據(jù)(測(cè)試集)上的正確率(即泛化誤 差,generalization error、out sample error)。因?yàn)榉夯`差從整體上告訴我們 模型表現(xiàn)的好壞,這是我們事先不知道的一個(gè)參數(shù), 正是由于不知道,所以我們才要估計(jì)它, 這也是機(jī)器學(xué)習(xí)的核心任務(wù)。初看起來(lái),這個(gè)問(wèn)題有點(diǎn)無(wú)從下手, 因?yàn)槲覀儧](méi)辦法知道輸入空間的分布,因此也沒(méi)辦法估計(jì)泛化誤差。不過(guò),別忘了我們手頭上有一筆訓(xùn)練數(shù)據(jù),我們要根據(jù)這筆資料從假設(shè)集中挑一個(gè)假設(shè)出來(lái),對(duì) 測(cè)試數(shù)據(jù)進(jìn)行分類。一個(gè)很自然的想法是,我們可以挑訓(xùn)練誤差最小的那個(gè)假設(shè),這點(diǎn)很容易理解,訓(xùn)練誤差小的假設(shè)泛化誤差也應(yīng)該比較小,也就是說(shuō)我們挑出來(lái) 的假設(shè)和真實(shí)的target function比較接近。那么這個(gè)想法是正確的嗎? 一定意義上來(lái)說(shuō),是對(duì)的。不然也不會(huì)有經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)算法了。ERM是說(shuō)從假設(shè)集中挑一個(gè)使得訓(xùn)練誤差最小的那個(gè)假設(shè)h。數(shù)學(xué)上定義如下:?

min1mi=1mI[h(x(i)y(i)]min1m∑i=1mI[h(x(i)≠y(i)]其中,m為訓(xùn)練樣例的個(gè)數(shù)。
下 面說(shuō)明為什么這個(gè)方法可行。統(tǒng)計(jì)學(xué)里,大數(shù)定理家族有個(gè)著名的不等式——Hoeffding's equality。這個(gè)不等式的背景是,假設(shè)有一組獨(dú)立同分布的隨機(jī)變量Z1,,ZmZ1,…,Zm,它們都服從Bernoulli分布, 即P(Zi=1)=?,P(Zi=0)=1??P(Zi=1)=?,P(Zi=0)=1??。我們想通過(guò)這組變量的均值?^1mmi=1Zi?^1m∑i=1mZi來(lái)估計(jì)參數(shù)??的值。Hoeffding不等式從概率意義上刻畫了估計(jì)值和參數(shù)值的接近程度:
P(|?^??|<?)2exp?2?2mP(|?^??|<?)≤2exp??2?2m
其 中,?>0?>0是一個(gè)誤差限,mm是訓(xùn)練集中的樣例個(gè)數(shù)。這個(gè)不等式告訴我們,我們的估計(jì)和真實(shí)值得差距相差很大的概率很小,也就 是說(shuō)二者接近的概率很大。因此我們可以說(shuō),?^=??^=?是PAC(probably approximate correct,可能近似正確)的。PAC這個(gè)術(shù)語(yǔ)很有意思,他不能打包票說(shuō)二者一定是等的,他只能保證大多數(shù)情況下是這樣;而這個(gè)“等”只是越等,即相 差很近但不一定完全一樣,例如我投一百次硬幣,最后的頻率可能是0.51或者是0.49,接近0.5但不會(huì)相等。有了Hoeffding不等式的理論基 礎(chǔ),我們想把這個(gè)刻畫參數(shù)估計(jì)和真實(shí)值接近程度的方法套用到學(xué)習(xí)問(wèn)題上去。
為了能夠套用Hoeffding不等式到學(xué)習(xí)問(wèn)題上,我們需要做出一些 假設(shè): 給定一個(gè)假設(shè)h,我們認(rèn)為h在一個(gè)樣例x上與類標(biāo)號(hào)y是否一致是一個(gè)服從Bernoulli分布的隨機(jī)變量,也記為Z,即Z=I[h(x)y]=μZ=I[h(x)≠y]=μ,這里μμ可以認(rèn)為是泛化誤差。我們進(jìn)一步假設(shè)訓(xùn)練集的樣本是獨(dú)立同分布采樣的,那么Z1Z2,...,ZmZ1,Z2,...,Zm是一組 iid且服從Bernoulli分布的隨機(jī)變量,它們的平均即訓(xùn)練誤差(記為νν)實(shí)際上就是對(duì)泛化誤差μμ的一個(gè)估計(jì)。
根據(jù)Hoeffding不等式有:
P(|ν?μ|<?)2exp?2?2mP(|ν?μ|<?)≤2exp??2?2m
根 據(jù)PAC理論,ννμμ離得很近,而且隨著樣本數(shù)的增加,它們的距離會(huì)越來(lái)越靠近, 如果此時(shí)訓(xùn)練誤差νν很小,那么我們可以說(shuō)泛化誤差μμ也很小是一個(gè)PAC的事件,泛化誤差很小說(shuō)明什么?說(shuō)明我們的假設(shè)h和目標(biāo)函數(shù)f真的 長(zhǎng)得很像(h=fh=f?is PAC)。
至此,我們就證明了ERM確實(shí)是可行的, 那么我們就能高枕無(wú)憂了嗎?今天我們選取一個(gè)假設(shè),它的訓(xùn)練誤差很低甚至接近于0,就能說(shuō)它的泛化誤差一定很低嗎? 答案是否定的。 如果這個(gè)命題成立,也不會(huì)有所謂的overfitting了。?
Hoeffding 不等式只告訴我們,我們抽一個(gè)樣本,有很大概率抽到一個(gè)好的樣本(這里好的樣本指的是 訓(xùn)練誤差和泛化誤差很接近);而抽到一個(gè)壞的樣本(兩個(gè)誤差相差很遠(yuǎn),特指過(guò)擬合的情況,訓(xùn)練誤差很小而泛化誤差很大)的概率有一個(gè)上限且很小, 但并不等于說(shuō)抽到一個(gè)bad sample就是不可能的(實(shí)際上有可能,只是概率非常小),如果不幸抽到了bad sample, 那么恭喜你,你可以去買彩票了。那么如何避免這種overfitting的產(chǎn)生呢?
其中一個(gè)選擇是增加樣例數(shù),隨著樣例數(shù)的增加,Hoeffding不等式右側(cè)的上限值會(huì)越來(lái)越小, 于是乎我們抽到bad sample的概率也就越來(lái)越小了,我們更有把握說(shuō)我們的模型不容易過(guò)擬合了。
上 面說(shuō)到的bad sample是相對(duì)于一個(gè)hypothesis而言的,對(duì)于每個(gè)不同的hypothesis,可能的bad sample都不同。 那么給定一個(gè)訓(xùn)練集,我們?cè)诩僭O(shè)空間中的選擇是有限制的,因?yàn)槲覀儾恢滥膫€(gè)假設(shè)在這個(gè)數(shù)據(jù)集上會(huì)overfit,因此在選擇假設(shè)的過(guò)程可能會(huì)踩到雷。有 的時(shí)候,踩到雷是不可避免的,因?yàn)槲覀儧](méi)有選擇數(shù)據(jù)集的權(quán)利。但我們可以做的事情是 估計(jì)踩到雷的概率上限是多少。這里我們只假設(shè) 假設(shè)空間有限,且大小為K。“踩到雷”這件事從集合論的角度來(lái)講就是 至少存在一個(gè)假設(shè)hiHhi∈H,使得|νhi?μ|>?|νhi?μ|>?發(fā)生。我們記事件Ai=|νhi?μ|>?Ai=|νhi?μ|>?。利用聯(lián)合界定理,我們可以推導(dǎo)其概率上限為
P(?hH,|νh?μ|>?)=P(?i=1KAi)i=1KP(Ai)2Kexp(?2?2m)P(?h∈H,|νh?μ|>?)=P(?i=1KAi)≤∑i=1KP(Ai)≤2Kexp?(?2?2m)
在假設(shè)空間有限的情況下,通過(guò)增加樣本集大小m,就能減少我們?cè)诩僭O(shè)集上踩到雷的幾率,從而估計(jì)的失真度,減少過(guò)擬合現(xiàn)象。

總結(jié)一下:這篇文章中我們證明了在加上一些統(tǒng)計(jì)學(xué)假設(shè)(訓(xùn)練集是獨(dú)立同分布抽樣) 且 假設(shè)空間是有限的情況下, PAC理論保證了學(xué)習(xí)是可行的。對(duì)于假設(shè)空間是無(wú)限的情況(比如線性分類器),需要用到VC-dimension來(lái)證明其可行性。

總結(jié)

以上是生活随笔為你收集整理的PAC的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。