日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

台湾大学林轩田机器学习基石课程学习笔记13 -- Hazard of Overfitting

發(fā)布時(shí)間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 台湾大学林轩田机器学习基石课程学习笔记13 -- Hazard of Overfitting 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

紅色石頭的個(gè)人網(wǎng)站:redstonewill.com

上節(jié)課我們主要介紹了非線性分類(lèi)模型,通過(guò)非線性變換,將非線性模型映射到另一個(gè)空間,轉(zhuǎn)換為線性模型,再來(lái)進(jìn)行分類(lèi),分析了非線性變換可能會(huì)使計(jì)算復(fù)雜度增加。本節(jié)課介紹這種模型復(fù)雜度增加帶來(lái)機(jī)器學(xué)習(xí)中一個(gè)很重要的問(wèn)題:過(guò)擬合(overfitting)。

一、What is Overfitting?

首先,我們通過(guò)一個(gè)例子來(lái)介紹什么bad generalization。假設(shè)平面上有5個(gè)點(diǎn),目標(biāo)函數(shù)f(x)是2階多項(xiàng)式,如果hypothesis是二階多項(xiàng)式加上一些小的noise的話,那么這5個(gè)點(diǎn)很靠近這個(gè)hypothesis,EinEin很小。如果hypothesis是4階多項(xiàng)式,那么這5點(diǎn)會(huì)完全落在hypothesis上,Ein=0Ein=0。雖然4階hypothesis的EinEin比2階hypothesis的要好很多,但是它的EoutEout很大。因?yàn)楦鶕?jù)VC Bound理論,階數(shù)越大,即VC Dimension越大,就會(huì)讓模型復(fù)雜度更高,EoutEout更大。我們把這種EinEin很小,EoutEout很大的情況稱(chēng)之為bad generation,即泛化能力差。

我們回過(guò)頭來(lái)看一下VC曲線:

hypothesis的階數(shù)越高,表示VC Dimension越大。隨著VC Dimension增大,EinEin是一直減小的,而EoutEout先減小后增大。在d?d?位置,EoutEout取得最小值。在d?VCdVC?右側(cè),隨著VC Dimension越來(lái)越大,EinEin越來(lái)越小,接近于0,EoutEout越來(lái)越大。即當(dāng)VC Dimension很大的時(shí)候,這種對(duì)訓(xùn)練樣本擬合過(guò)分好的情況稱(chēng)之為過(guò)擬合(overfitting)。另一方面,在d?VCdVC?左側(cè),隨著VC Dimension越來(lái)越小,EinEinEoutEout都越來(lái)越大,這種情況稱(chēng)之為欠擬合(underfitting),即模型對(duì)訓(xùn)練樣本的擬合度太差,VC Dimension太小了。

bad generation和overfitting的關(guān)系可以理解為:overfitting是VC Dimension過(guò)大的一個(gè)過(guò)程,bad generation是overfitting的結(jié)果。

一個(gè)好的fit,EinEinEoutEout都比較小,盡管EinEin沒(méi)有足夠接近零;而對(duì)overfitting來(lái)說(shuō),Ein0Ein≈0,但是EoutEout很大。那么,overfitting的原因有哪些呢?

我們舉個(gè)開(kāi)車(chē)的例子,把發(fā)生車(chē)禍比作成overfitting,那么造成車(chē)禍的原因包括:

  • 車(chē)速太快(VC Dimension太大);

  • 道路崎嶇(noise);

  • 對(duì)路況的了解程度(訓(xùn)練樣本數(shù)量N不夠);

也就是說(shuō),VC Dimension、noise、N這三個(gè)因素是影響過(guò)擬合現(xiàn)象的關(guān)鍵。

二、The Role of Noise and Data Size

為了盡可能詳細(xì)地解釋overfitting,我們進(jìn)行這樣一個(gè)實(shí)驗(yàn),試驗(yàn)中的數(shù)據(jù)集不是很大。首先,在二維平面上,一個(gè)模型的分布由目標(biāo)函數(shù)f(x)(x的10階多項(xiàng)式)加上一些noise構(gòu)成,下圖中,離散的圓圈是數(shù)據(jù)集,目標(biāo)函數(shù)是藍(lán)色的曲線。數(shù)據(jù)沒(méi)有完全落在曲線上,是因?yàn)榧尤肓薾oise。

然后,同樣在二維平面上,另一個(gè)模型的分布由目標(biāo)函數(shù)f(x)(x的50階多項(xiàng)式)構(gòu)成,沒(méi)有加入noise。下圖中,離散的圓圈是數(shù)據(jù)集,目標(biāo)函數(shù)是藍(lán)色的曲線。可以看出由于沒(méi)有noise,數(shù)據(jù)集完全落在曲線上。

現(xiàn)在,有兩個(gè)學(xué)習(xí)模型,一個(gè)是2階多項(xiàng)式,另一個(gè)是10階多項(xiàng)式,分別對(duì)上面兩個(gè)問(wèn)題進(jìn)行建模。首先,對(duì)于第一個(gè)目標(biāo)函數(shù)是10階多項(xiàng)式包含noise的問(wèn)題,這兩個(gè)學(xué)習(xí)模型的效果如下圖所示:

由上圖可知,2階多項(xiàng)式的學(xué)習(xí)模型Ein=0.050Ein=0.050Eout=0.127Eout=0.127;10階多項(xiàng)式的學(xué)習(xí)模型Ein=0.034Ein=0.034Eout=9.00Eout=9.00。雖然10階模型的EinEin比2階的小,但是其EoutEout要比2階的大得多,而2階的EinEinEoutEout相差不大,很明顯用10階的模型發(fā)生了過(guò)擬合。

然后,對(duì)于第二個(gè)目標(biāo)函數(shù)是50階多項(xiàng)式?jīng)]有noise的問(wèn)題,這兩個(gè)學(xué)習(xí)模型的效果如下圖所示:

由上圖可知,2階多項(xiàng)式的學(xué)習(xí)模型Ein=0.029Ein=0.029Eout=0.120Eout=0.120;10階多項(xiàng)式的學(xué)習(xí)模型Ein=0.00001Ein=0.00001Eout=7680Eout=7680。雖然10階模型的EinEin比2階的小,但是其EoutEout要比2階的大得多的多,而2階的EinEinEoutEout相差不大,很明顯用10階的模型仍然發(fā)生了明顯的過(guò)擬合。

上面兩個(gè)問(wèn)題中,10階模型都發(fā)生了過(guò)擬合,反而2階的模型卻表現(xiàn)得相對(duì)不錯(cuò)。這好像違背了我們的第一感覺(jué),比如對(duì)于目標(biāo)函數(shù)是10階多項(xiàng)式,加上noise的模型,按道理來(lái)說(shuō)應(yīng)該是10階的模型更能接近于目標(biāo)函數(shù),因?yàn)樗鼈冸A數(shù)相同。但是,事實(shí)卻是2階模型泛化能力更強(qiáng)。這種現(xiàn)象產(chǎn)生的原因,從哲學(xué)上來(lái)說(shuō),就是“以退為進(jìn)”。有時(shí)候,簡(jiǎn)單的學(xué)習(xí)模型反而能表現(xiàn)的更好。

下面從learning curve來(lái)分析一下具體的原因,learning curve描述的是EinEinEoutEout隨著數(shù)據(jù)量N的變化趨勢(shì)。下圖中左邊是2階學(xué)習(xí)模型的learning curve,右邊是10階學(xué)習(xí)模型的learning curve。

我們的第9次課的筆記 NTU林軒田機(jī)器學(xué)習(xí)基石課程學(xué)習(xí)筆記9 – Linear Regression已經(jīng)介紹過(guò)了learning curve。在learning curve中,橫軸是樣本數(shù)量N,縱軸是Error。EinEinEoutEout可表示為:

Ein=noiselevel?(1?d+1N)Ein=noiselevel?(1?d+1N)

Eout=noiselevel?(1+d+1N)Eout=noiselevel?(1+d+1N)

其中d為模型階次,左圖中d=2,右圖中d=10。

本節(jié)的實(shí)驗(yàn)問(wèn)題中,數(shù)據(jù)量N不大,即對(duì)應(yīng)于上圖中的灰色區(qū)域。左圖的灰色區(qū)域中,因?yàn)閐=2,EinEinEoutEout相對(duì)來(lái)說(shuō)比較接近;右圖中的灰色區(qū)域中,d=10,根據(jù)EinEinEoutEout的表達(dá)式,EinEin很小,而EoutEout很大。這就解釋了之前2階多項(xiàng)式模型的EinEin更接近EoutEout,泛化能力更好。

值得一提的是,如果數(shù)據(jù)量N很大的時(shí)候,上面兩圖中EinEinEoutEout都比較接近,但是對(duì)于高階模型,z域中的特征很多的時(shí)候,需要的樣本數(shù)量N很大,且容易發(fā)生維度災(zāi)難。關(guān)于維度災(zāi)難的詳細(xì)生動(dòng)解釋,請(qǐng)參考我另一篇博文:

機(jī)器學(xué)習(xí)中的維度災(zāi)難

另一個(gè)例子中,目標(biāo)函數(shù)是50階多項(xiàng)式,且沒(méi)有加入noise。這種情況下,我們發(fā)現(xiàn)仍然是2階的模型擬合的效果更好一些,明明沒(méi)有noise,為什么是這樣的結(jié)果呢?

實(shí)際上,我們忽略了一個(gè)問(wèn)題:這種情況真的沒(méi)有noise嗎?其實(shí),當(dāng)模型很復(fù)雜的時(shí)候,即50階多項(xiàng)式的目標(biāo)函數(shù),無(wú)論是2階模型還是10階模型,都不能學(xué)習(xí)的很好,這種復(fù)雜度本身就會(huì)引入一種‘noise’。所以,這種高階無(wú)noise的問(wèn)題,也可以類(lèi)似于10階多項(xiàng)式的目標(biāo)函數(shù)加上noise的情況,只是二者的noise有些許不同,下面一部分將會(huì)詳細(xì)解釋。

三、Deterministic Noise

下面我們介紹一個(gè)更細(xì)節(jié)的實(shí)驗(yàn)來(lái)說(shuō)明 什么時(shí)候小心overfit會(huì)發(fā)生。假設(shè)我們產(chǎn)生的數(shù)據(jù)分布由兩部分組成:第一部分是目標(biāo)函數(shù)f(x),QfQf階多項(xiàng)式;第二部分是噪聲??,服從Gaussian分布。接下來(lái)我們分析的是noise強(qiáng)度不同對(duì)overfitting有什么樣的影響。總共的數(shù)據(jù)量是N。

那么下面我們分析不同的(N,σ2)(N,σ2)(N,Qf)(N,Qf)對(duì)overfit的影響。overfit可以量化為Eout?EinEout?Ein。結(jié)果如下:

上圖中,紅色越深,代表overfit程度越高,藍(lán)色越深,代表overfit程度越低。先看左邊的圖,左圖中階數(shù)QfQf固定為20,橫坐標(biāo)代表樣本數(shù)量N,縱坐標(biāo)代表噪聲水平σ2σ2。紅色區(qū)域集中在N很小或者σ2σ2很大的時(shí)候,也就是說(shuō)N越大,σ2σ2越小,越不容易發(fā)生overfit。右邊圖中σ2=0.1σ2=0.1,橫坐標(biāo)代表樣本數(shù)量N,縱坐標(biāo)代表目標(biāo)函數(shù)階數(shù)QfQf。紅色區(qū)域集中在N很小或者QfQf很大的時(shí)候,也就是說(shuō)N越大,QfQf越小,越不容易發(fā)生overfit。上面兩圖基本相似。

從上面的分析,我們發(fā)現(xiàn)σ2σ2對(duì)overfit是有很大的影響的,我們把這種noise稱(chēng)之為stochastic noise。同樣地,QfQf即模型復(fù)雜度也對(duì)overfit有很大影響,而且二者影響是相似的,所以我們把這種稱(chēng)之為deterministic noise。之所以把它稱(chēng)為noise,是因?yàn)槟P透邚?fù)雜度帶來(lái)的影響。

總結(jié)一下,有四個(gè)因素會(huì)導(dǎo)致發(fā)生overfitting:

  • data size N

  • stochastic noise σ2σ2↑

  • deterministic noise QfQf↑

  • excessive power

我們剛才解釋了如果目標(biāo)函數(shù)f(x)的復(fù)雜度很高的時(shí)候,那么跟有noise也沒(méi)有什么兩樣。因?yàn)槟繕?biāo)函數(shù)很復(fù)雜,那么再好的hypothesis都會(huì)跟它有一些差距,我們把這種差距稱(chēng)之為deterministic noise。deterministic noise與stochastic noise不同,但是效果一樣。其實(shí)deterministic noise類(lèi)似于一個(gè)偽隨機(jī)數(shù)發(fā)生器,它不會(huì)產(chǎn)生真正的隨機(jī)數(shù),而只產(chǎn)生偽隨機(jī)數(shù)。它的值與hypothesis有關(guān),且固定點(diǎn)x的deterministic noise值是固定的。

四、Dealing with Overfitting

現(xiàn)在我們知道了什么是overfitting,和overfitting產(chǎn)生的原因,那么如何避免overfitting呢?避免overfitting的方法主要包括:

  • start from simple model

  • data cleaning/pruning

  • data hinting

  • regularization

  • validataion

這幾種方法類(lèi)比于之前舉的開(kāi)車(chē)的例子,對(duì)應(yīng)如下:

regularization和validation我們之后的課程再介紹,本節(jié)課主要介紹簡(jiǎn)單的data cleaning/pruning和data hinting兩種方法。

data cleaning/pruning就是對(duì)訓(xùn)練數(shù)據(jù)集里label明顯錯(cuò)誤的樣本進(jìn)行修正(data cleaning),或者對(duì)錯(cuò)誤的樣本看成是noise,進(jìn)行剔除(data pruning)。data cleaning/pruning關(guān)鍵在于如何準(zhǔn)確尋找label錯(cuò)誤的點(diǎn)或者是noise的點(diǎn),而且如果這些點(diǎn)相比訓(xùn)練樣本N很小的話,這種處理效果不太明顯。

data hinting是針對(duì)N不夠大的情況,如果沒(méi)有辦法獲得更多的訓(xùn)練集,那么data hinting就可以對(duì)已知的樣本進(jìn)行簡(jiǎn)單的處理、變換,從而獲得更多的樣本。舉個(gè)例子,數(shù)字分類(lèi)問(wèn)題,可以對(duì)已知的數(shù)字圖片進(jìn)行輕微的平移或者旋轉(zhuǎn),從而讓N豐富起來(lái),達(dá)到擴(kuò)大訓(xùn)練集的目的。這種額外獲得的例子稱(chēng)之為virtual examples。但是要注意一點(diǎn)的就是,新獲取的virtual examples可能不再是iid某個(gè)distribution。所以新構(gòu)建的virtual examples要盡量合理,且是獨(dú)立同分布的。

五、總結(jié)

本節(jié)課主要介紹了overfitting的概念,即當(dāng)EinEin很小,EoutEout很大的時(shí)候,會(huì)出現(xiàn)overfitting。詳細(xì)介紹了overfitting發(fā)生的四個(gè)常見(jiàn)原因data size N、stochastic noise、deterministic noise和excessive power。解決overfitting的方法有很多,本節(jié)課主要介紹了data cleaning/pruning和data hinting兩種簡(jiǎn)單的方法,之后的課程將會(huì)詳細(xì)介紹regularization和validataion兩種更重要的方法。

注明:

文章中所有的圖片均來(lái)自臺(tái)灣大學(xué)林軒田《機(jī)器學(xué)習(xí)基石》課程

關(guān)注公眾號(hào)并輸入關(guān)鍵字“jspdf”獲得該筆記的pdf文件哦~

更多AI資源請(qǐng)關(guān)注公眾號(hào):紅色石頭的機(jī)器學(xué)習(xí)之路(ID:redstonewill)

總結(jié)

以上是生活随笔為你收集整理的台湾大学林轩田机器学习基石课程学习笔记13 -- Hazard of Overfitting的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 手机看片中文字幕 | 日韩欧美a级片 | 日本在线中文 | 久久精品欧美一区 | 九九久久精品 | 国产精品免费一区二区三区都可以 | 国产成人一级片 | 日本午夜视频在线观看 | 美国美女黄色片 | 九九色在线 | 黄色大片免费观看视频 | 亚洲欧美日韩一区在线观看 | 97爱爱爱| 少妇高潮喷水在线观看 | 成人午夜免费在线 | 爱插视频 | 色片免费看| 精品国产乱子伦 | 男女激情视频网站 | 在线观看中文 | 久在线观看 | 少妇无套高潮一二三区 | 午夜影院免费 | 别揉我奶头一区二区三区 | 黑人巨大精品欧美一区二区免费 | 古代玷污糟蹋np高辣h文 | 久久国产亚洲 | 久久97人妻无码一区二区三区 | 成人在线免费观看网站 | ass极品国模人体欣赏 | 日韩伊人网| 国产精品美女自拍视频 | 男朋友是消防员第一季 | 国产午夜精品一区 | 日本免费不卡一区二区 | 青青青青草| 天天干视频 | 爱情岛论坛永久入口 | 国产精选在线观看 | 五月天激情啪啪 | 国产精品久久AV无码 | 琪琪在线视频 | 免费观看成人av | v片在线看 | 激情综合五月婷婷 | 欧美一区二区黄片 | 亚洲国产精品成人 | 亚洲综合五月 | 久久综合干| 国产精品88 | 国产成人自拍网 | 日韩三级国产精品 | 天堂一级片 | 亚洲精品视频在线免费 | 影音先锋中文字幕在线播放 | 日本特级片 | 亚洲精品久久久久久 | 欧美少妇诱惑 | 日本中文字幕二区 | 午夜精品一区二区三区在线播放 | 成人18在线 | 久久久久国产一区二区三区 | 欧美在线观看www | 午夜电影在线播放 | 欧美少妇xxx | 精品久久久免费 | 午夜精品剧场 | 女生脱裤子让男生捅 | 环太平洋3:泰坦崛起 | 欧美精品欧美精品系列 | 黄色的网站在线观看 | 国产二级一片内射视频播放 | 日本中文字幕影院 | 亚洲精选久久 | 国产精品第二页 | 五月天国产在线 | 欧美成人免费在线视频 | 一集毛片 | 深喉口爆一区二区三区 | 亚洲中文在线一区 | 黄色一区二区三区 | 亚洲男人的天堂av | 成人做爰视频www网站小优视频 | 精品国产av无码一区二区三区 | 国产一区免费视频 | 日本大胆裸体做爰视频 | 精品欧美一区二区久久久 | 亚洲av无码乱码在线观看性色 | 国产一区二区小说 | 色哟哟官网 | 亚洲国产精品综合久久久 | 国产夫妻精品 | 国产一级免费av | 韩国三级hd中文字幕叫床浴室 | 亚洲a视频| 九九九视频在线观看 | 美国一级黄色大片 | 99热99精品| 国产av自拍一区 |