日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing

發(fā)布時(shí)間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

紅色石頭的個(gè)人網(wǎng)站:redstonewill.com

上節(jié)課,我們主要介紹了機(jī)器學(xué)習(xí)的可行性。首先,由NFL定理可知,機(jī)器學(xué)習(xí)貌似是不可行的。但是,隨后引入了統(tǒng)計(jì)學(xué)知識(shí),如果樣本數(shù)據(jù)足夠大,且hypothesis個(gè)數(shù)有限,那么機(jī)器學(xué)習(xí)一般就是可行的。本節(jié)課將討論機(jī)器學(xué)習(xí)的核心問(wèn)題,嚴(yán)格證明為什么機(jī)器可以學(xué)習(xí)。從上節(jié)課最后的問(wèn)題出發(fā),即當(dāng)hypothesis的個(gè)數(shù)是無(wú)限多的時(shí)候,機(jī)器學(xué)習(xí)的可行性是否仍然成立?

一、Recap and Preview

我們先來(lái)看一下基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)流程圖:

該流程圖中,訓(xùn)練樣本D和最終測(cè)試h的樣本都是來(lái)自同一個(gè)數(shù)據(jù)分布,這是機(jī)器能夠?qū)W習(xí)的前提。另外,訓(xùn)練樣本D應(yīng)該足夠大,且hypothesis set的個(gè)數(shù)是有限的,這樣根據(jù)霍夫丁不等式,才不會(huì)出現(xiàn)Bad Data,保證EinEoutEin≈Eout,即有很好的泛化能力。同時(shí),通過(guò)訓(xùn)練,得到使EinEin最小的h,作為模型最終的矩g,g接近于目標(biāo)函數(shù)。

這里,我們總結(jié)一下前四節(jié)課的主要內(nèi)容:第一節(jié)課,我們介紹了機(jī)器學(xué)習(xí)的定義,目標(biāo)是找出最好的矩g,使gfg≈f,保證Eout(g)0Eout(g)≈0;第二節(jié)課,我們介紹了如何讓Ein0Ein≈0,可以使用PLA、pocket等演算法來(lái)實(shí)現(xiàn);第三節(jié)課,我們介紹了機(jī)器學(xué)習(xí)的分類,我們的訓(xùn)練樣本是批量數(shù)據(jù)(batch),處理監(jiān)督式(supervised)二元分類(binary classification)問(wèn)題;第四節(jié)課,我們介紹了機(jī)器學(xué)習(xí)的可行性,通過(guò)統(tǒng)計(jì)學(xué)知識(shí),把Ein(g)Ein(g)Eout(g)Eout(g)聯(lián)系起來(lái),證明了在一些條件假設(shè)下,Ein(g)Eout(g)Ein(g)≈Eout(g)成立。

這四節(jié)課總結(jié)下來(lái),我們把機(jī)器學(xué)習(xí)的主要目標(biāo)分成兩個(gè)核心的問(wèn)題:

  • Ein(g)Eout(g)Ein(g)≈Eout(g)

  • Ein(g)Ein(g)足夠小

上節(jié)課介紹的機(jī)器學(xué)習(xí)可行的一個(gè)條件是hypothesis set的個(gè)數(shù)M是有限的,那M跟上面這兩個(gè)核心問(wèn)題有什么聯(lián)系呢?

我們先來(lái)看一下,當(dāng)M很小的時(shí)候,由上節(jié)課介紹的霍夫丁不等式,得到Ein(g)Eout(g)Ein(g)≈Eout(g),即能保證第一個(gè)核心問(wèn)題成立。但M很小時(shí),演算法A可以選擇的hypothesis有限,不一定能找到使Ein(g)Ein(g)足夠小的hypothesis,即不能保證第二個(gè)核心問(wèn)題成立。當(dāng)M很大的時(shí)候,同樣由霍夫丁不等式,Ein(g)Ein(g)Eout(g)Eout(g)的差距可能比較大,第一個(gè)核心問(wèn)題可能不成立。而M很大,使的演算法A的可以選擇的hypothesis就很多,很有可能找到一個(gè)hypothesis,使Ein(g)Ein(g)足夠小,第二個(gè)核心問(wèn)題可能成立。

從上面的分析來(lái)看,M的選擇直接影響機(jī)器學(xué)習(xí)兩個(gè)核心問(wèn)題是否滿足,M不能太大也不能太小。那么如果M無(wú)限大的時(shí)候,是否機(jī)器就不可以學(xué)習(xí)了呢?例如PLA算法中直線是無(wú)數(shù)條的,但是PLA能夠很好地進(jìn)行機(jī)器學(xué)習(xí),這又是為什么呢?如果我們能將無(wú)限大的M限定在一個(gè)有限的mHmH內(nèi),問(wèn)題似乎就解決了。

二、Effective Number of Line

我們先看一下上節(jié)課推導(dǎo)的霍夫丁不等式:

P[|Ein(g)?Eout(g)|>?]2?M?exp(?2?2N)P[|Ein(g)?Eout(g)|>?]≤2?M?exp(?2?2N)

其中,M表示hypothesis的個(gè)數(shù)。每個(gè)hypothesis下的BAD events BmBm級(jí)聯(lián)的形式滿足下列不等式:

P[B1?or?B2?or??BM]P[B1]+P[B2]+?+P[BM]P[B1orB2or?BM]≤P[B1]+P[B2]+?+P[BM]

當(dāng)M=M=∞時(shí),上面不等式右邊值將會(huì)很大,似乎說(shuō)明BAD events很大,Ein(g)Ein(g)Eout(g)Eout(g)也并不接近。但是BAD events BmBm級(jí)聯(lián)的形式實(shí)際上是擴(kuò)大了上界,union bound過(guò)大。這種做法假設(shè)各個(gè)hypothesis之間沒有交集,這是最壞的情況,可是實(shí)際上往往不是如此,很多情況下,都是有交集的,也就是說(shuō)M實(shí)際上沒那么大,如下圖所示:

也就是說(shuō)union bound被估計(jì)過(guò)高了(over-estimating)。所以,我們的目的是找出不同BAD events之間的重疊部分,也就是將無(wú)數(shù)個(gè)hypothesis分成有限個(gè)類別。

如何將無(wú)數(shù)個(gè)hypothesis分成有限類呢?我們先來(lái)看這樣一個(gè)例子,假如平面上用直線將點(diǎn)分開,也就跟PLA一樣。如果平面上只有一個(gè)點(diǎn)x1,那么直線的種類有兩種:一種將x1劃為+1,一種將x1劃為-1:

如果平面上有兩個(gè)點(diǎn)x1、x2,那么直線的種類共4種:x1、x2都為+1,x1、x2都為-1,x1為+1且x2為-1,x1為-1且x2為+1:

如果平面上有三個(gè)點(diǎn)x1、x2、x3,那么直線的種類共8種:

但是,在三個(gè)點(diǎn)的情況下,也會(huì)出現(xiàn)不能用一條直線劃分的情況:

也就是說(shuō),對(duì)于平面上三個(gè)點(diǎn),不能保證所有的8個(gè)類別都能被一條直線劃分。那如果是四個(gè)點(diǎn)x1、x2、x3、x4,我們發(fā)現(xiàn),平面上找不到一條直線能將四個(gè)點(diǎn)組成的16個(gè)類別完全分開,最多只能分開其中的14類,即直線最多只有14種:

經(jīng)過(guò)分析,我們得到平面上線的種類是有限的,1個(gè)點(diǎn)最多有2種線,2個(gè)點(diǎn)最多有4種線,3個(gè)點(diǎn)最多有8種線,4個(gè)點(diǎn)最多有14(<24<24<script type="math/tex" id="MathJax-Element-24"><2^4</script>)種線等等。我們發(fā)現(xiàn),有效直線的數(shù)量總是滿足2N≤2N,其中,N是點(diǎn)的個(gè)數(shù)。所以,如果我們可以用effective(N)代替M,霍夫丁不等式可以寫成:

P[|Ein(g)?Eout(g)|>?]2?effective(N)?exp(?2?2N)P[|Ein(g)?Eout(g)|>?]≤2?effective(N)?exp(?2?2N)

已知effective(N)<2N2N,如果能夠保證effective(N)<<2N2N,即不等式右邊接近于零,那么即使M無(wú)限大,直線的種類也很有限,機(jī)器學(xué)習(xí)也是可能的。

三、Effective Number of Hypotheses

接下來(lái)先介紹一個(gè)新名詞:二分類(dichotomy)。dichotomy就是將空間中的點(diǎn)(例如二維平面)用一條直線分成正類(藍(lán)色o)和負(fù)類(紅色x)。令H是將平面上的點(diǎn)用直線分開的所有hypothesis h的集合,dichotomy H與hypotheses H的關(guān)系是:hypotheses H是平面上所有直線的集合,個(gè)數(shù)可能是無(wú)限個(gè),而dichotomy H是平面上能將點(diǎn)完全用直線分開的直線種類,它的上界是2N2N。接下來(lái),我們要做的就是嘗試用dichotomy代替M。

再介紹一個(gè)新的名詞:成長(zhǎng)函數(shù)(growth function),記為mH(H)mH(H)。成長(zhǎng)函數(shù)的定義是:對(duì)于由N個(gè)點(diǎn)組成的不同集合中,某集合對(duì)應(yīng)的dichotomy最大,那么這個(gè)dichotomy值就是mH(H)mH(H),它的上界是2N2N

成長(zhǎng)函數(shù)其實(shí)就是我們之前講的effective lines的數(shù)量最大值。根據(jù)成長(zhǎng)函數(shù)的定義,二維平面上,mH(H)mH(H)隨N的變化關(guān)系是:

接下來(lái),我們討論如何計(jì)算成長(zhǎng)函數(shù)。先看一個(gè)簡(jiǎn)單情況,一維的Positive Rays:

若有N個(gè)點(diǎn),則整個(gè)區(qū)域可分為N+1段,很容易得到其成長(zhǎng)函數(shù)mH(N)=N+1mH(N)=N+1。注意當(dāng)N很大時(shí),(N+1)<<2N(N+1)<<2N,這是我們希望看到的。

另一種情況是一維的Positive Intervals:

它的成長(zhǎng)函數(shù)可以由下面推導(dǎo)得出:

這種情況下,mH(N)=12N2+12N+1<<2NmH(N)=12N2+12N+1<<2N,在N很大的時(shí)候,仍然是滿足的。

再來(lái)看這個(gè)例子,假設(shè)在二維空間里,如果hypothesis是凸多邊形或類圓構(gòu)成的封閉曲線,如下圖所示,左邊是convex的,右邊不是convex的。那么,它的成長(zhǎng)函數(shù)是多少呢?

當(dāng)數(shù)據(jù)集D按照如下的凸分布時(shí),我們很容易計(jì)算得到它的成長(zhǎng)函數(shù)mH=2NmH=2N。這種情況下,N個(gè)點(diǎn)所有可能的分類情況都能夠被hypotheses set覆蓋,我們把這種情形稱為shattered。也就是說(shuō),如果能夠找到一個(gè)數(shù)據(jù)分布集,hypotheses set對(duì)N個(gè)輸入所有的分類情況都做得到,那么它的成長(zhǎng)函數(shù)就是2N2N

四、Break Point

上一小節(jié),我們介紹了四種不同的成長(zhǎng)函數(shù),分別是:

其中,positive rays和positive intervals的成長(zhǎng)函數(shù)都是polynomial的,如果用mHmH代替M的話,這兩種情況是比較好的。而convex sets的成長(zhǎng)函數(shù)是exponential的,即等于M,并不能保證機(jī)器學(xué)習(xí)的可行性。那么,對(duì)于2D perceptrons,它的成長(zhǎng)函數(shù)究竟是polynomial的還是exponential的呢?

對(duì)于2D perceptrons,我們之前分析了3個(gè)點(diǎn),可以做出8種所有的dichotomy,而4個(gè)點(diǎn),就無(wú)法做出所有16個(gè)點(diǎn)的dichotomy了。所以,我們就把4稱為2D perceptrons的break point(5、6、7等都是break point)。令有k個(gè)點(diǎn),如果k大于等于break point時(shí),它的成長(zhǎng)函數(shù)一定小于2的k次方。

根據(jù)break point的定義,我們知道滿足mH(k)2kmH(k)≠2k的k的最小值就是break point。對(duì)于我們之前介紹的四種成長(zhǎng)函數(shù),他們的break point分別是:

通過(guò)觀察,我們猜測(cè)成長(zhǎng)函數(shù)可能與break point存在某種關(guān)系:對(duì)于convex sets,沒有break point,它的成長(zhǎng)函數(shù)是2的N次方;對(duì)于positive rays,break point k=2,它的成長(zhǎng)函數(shù)是O(N);對(duì)于positive intervals,break point k=3,它的成長(zhǎng)函數(shù)是O(N2)O(N2)。則根據(jù)這種推論,我們猜測(cè)2D perceptrons,它的成長(zhǎng)函數(shù)mH(N)=O(Nk?1)mH(N)=O(Nk?1) 。如果成立,那么就可以用mHmH代替M,就滿足了機(jī)器能夠?qū)W習(xí)的條件。關(guān)于上述猜測(cè)的證明,我們下節(jié)課再詳細(xì)介紹。

五、總結(jié)

本節(jié)課,我們更深入地探討了機(jī)器學(xué)習(xí)的可行性。我們把機(jī)器學(xué)習(xí)拆分為兩個(gè)核心問(wèn)題:Ein(g)Eout(g)Ein(g)≈Eout(g)Ein(g)0Ein(g)≈0。對(duì)于第一個(gè)問(wèn)題,我們探討了M個(gè)hypothesis到底可以劃分為多少種,也就是成長(zhǎng)函數(shù)mHmH。并引入了break point的概念,給出了break point的計(jì)算方法。下節(jié)課,我們將詳細(xì)論證對(duì)于2D perceptrons,它的成長(zhǎng)函數(shù)與break point是否存在多項(xiàng)式的關(guān)系,如果是這樣,那么機(jī)器學(xué)習(xí)就是可行的。

注明:

文章中所有的圖片均來(lái)自臺(tái)灣大學(xué)林軒田《機(jī)器學(xué)習(xí)基石》課程。

關(guān)注公眾號(hào)并輸入關(guān)鍵字“jspdf”獲得該筆記的pdf文件哦~

更多AI資源請(qǐng)關(guān)注公眾號(hào):紅色石頭的機(jī)器學(xué)習(xí)之路(ID:redstonewill)

總結(jié)

以上是生活随笔為你收集整理的台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 91禁动漫在线 | 毛片天堂 | 国产亚洲欧美精品久久久久久 | 成人看的视频 | 中日韩免费毛片 | 成人二三区 | 欧美高清一区 | 五月天开心激情 | 国产91片| 麻豆视频传媒 | av成人免费在线观看 | 成年人视频在线看 | 成人日韩视频 | 日本乳汁视频 | 欧美sm视频 | 女人叉开腿让男人桶 | 国产伦精品一区二区三区免费视频 | 久久国产视频精品 | 波多野吉衣av | 欧美图片一区二区三区 | 欧美性猛交xxxx乱大交hd | 日本韩国欧美一区二区三区 | 日本高清视频在线观看 | av网站免费在线观看 | 日本a区| 亚洲资源在线 | 国产视频在线观看一区二区 | 国产又粗又猛 | 精品国产乱码一区二区三区99 | 浪潮av网站 | 国产成人一级片 | mm131亚洲精品 | 国产网红女主播精品视频 | 免费荫蒂添的好舒服视频 | 日本欧美色图 | 新版天堂资源中文8在线 | 毛片天天看 | 亚洲性欧美 | 越南av| 17c国产精品一区二区 | 可以免费看的av | 91桃色污| 国产精品成人一区二区 | 一区二区三区四区五区在线视频 | 久色| 亚洲视频在线一区 | 久草精品在线观看 | 禁断介护av | 亚洲国产欧美视频 | 熟女人妇 成熟妇女系列视频 | 精品久久人妻av中文字幕 | 黄色男人的天堂 | 青青草亚洲 | 久久久久久九九九九 | 国产情侣自拍小视频 | 成年人免费网 | 精品中文字幕一区二区 | 波多野结衣视频免费 | 夜间福利在线观看 | 都市激情久久 | 人物动物互动39集免费观看 | www国产91 | 成人免费高清在线播放 | 亚洲第一区在线观看 | 成人颜色网站 | 美女亚洲一区 | 日韩在线观看视频免费 | 性の欲びの女javhd | h片网站在线观看 | 国产99久久精品 | 精品午夜一区二区三区在线观看 | 精品免费国产一区二区三区四区 | 黄色精彩视频 | 黄色一二三区 | 日韩精品福利在线 | 浪潮av一区二区三区 | 色呦呦免费 | 麻豆免费看片 | 粉嫩欧美一区二区三区 | 欧美中文字幕 | 亚洲毛片一级 | 奇米一区二区三区 | 亚洲一区二区黄片 | 久久中文字幕电影 | 三年中文在线观看中文版 | 午夜影院免费 | 国产九九在线 | 午夜激情一区二区 | 国产又粗又猛视频 | 日韩精品一区二区三区在线观看 | 国产极品久久久 | 国产午夜精品无码 | 少妇脱了内裤让我添 | 福利视频在线看 | 亚洲最大黄色 | 久久国产视频精品 | 欧美在线一区二区三区 | 欧美一级专区免费大片 | 99人妻少妇精品视频一区 |