當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

防止过拟合以及解决过拟合

發(fā)布時(shí)間：2023/12/13 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了防止过拟合以及解决过拟合小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載：http://blog.sina.com.cn/s/blog_53c47a2f0102vjyf.html

? ? ? ? ? ? ? ? ? ?

過(guò)擬合：為了得到一致假設(shè)而使假設(shè)變得過(guò)度復(fù)雜稱(chēng)為過(guò)擬合。“一個(gè)過(guò)擬合的模型試圖連誤差（噪音）都去解釋（而實(shí)際上噪音又是不需要解釋的），導(dǎo)致泛化能力比較差，顯然就過(guò)猶不及了。” 這句話(huà)很好的詮釋了過(guò)擬合產(chǎn)生的原因，但我認(rèn)為這只是一部分原因，另一個(gè)原因是模型本身并不能很好地解釋（匹配）數(shù)據(jù)，也就是說(shuō)觀測(cè)到的數(shù)據(jù)并不是由該模型產(chǎn)生的。

“統(tǒng)計(jì)學(xué)家說(shuō)：我們讓數(shù)據(jù)自己說(shuō)話(huà)。言下之意就是要摒棄先驗(yàn)概率。而貝葉斯支持者則說(shuō)：數(shù)據(jù)會(huì)有各種各樣的偏差，而一個(gè)靠譜的先驗(yàn)概率則可以對(duì)這些隨機(jī)噪音做到健壯。事實(shí)證明貝葉斯派勝利了，勝利的關(guān)鍵在于所謂先驗(yàn)概率其實(shí)也是經(jīng)驗(yàn)統(tǒng)計(jì)的結(jié)果。” 事實(shí)上貝葉斯本身就是一個(gè)基于統(tǒng)計(jì)的模型……然而，文中以樹(shù)后的箱子為例，闡述似然也有選擇簡(jiǎn)單模型的傾向。我對(duì)此有疑義。似然是選擇與觀測(cè)最匹配的結(jié)果。根據(jù)當(dāng)前的觀測(cè)結(jié)果，顯然一個(gè)箱子的模型是最符合觀測(cè)的，也就是說(shuō)，如果樹(shù)兩邊的箱子高矮不一，顏色不同，那么兩個(gè)箱子的模型就是最匹配的。因此，似然只是選擇與觀測(cè)最匹配的模型，而并沒(méi)有選擇簡(jiǎn)單模型的傾向。否則，就不會(huì)有那么嚴(yán)重的過(guò)擬合現(xiàn)象發(fā)生。文中還提到：“反之，如果背后的模型是一條直線(xiàn)，那么根據(jù)該模型生成一堆近似構(gòu)成直線(xiàn)的點(diǎn)的概率就大得多了。” 這里的表述有問(wèn)題，既然已經(jīng)把模型看成是直線(xiàn)了，那么根據(jù)直線(xiàn)模型生成一堆近似構(gòu)成直線(xiàn)的點(diǎn)的概率是接近1的。同理，我們既然已經(jīng)認(rèn)為可以用N-1階模型去擬合，那么根據(jù)N-1階模型生成的N個(gè)點(diǎn)當(dāng)然就是符合N-1階模型的，而不需要她去符合直線(xiàn)。那么問(wèn)題究竟應(yīng)該怎樣描述呢？根據(jù)作者的意思問(wèn)題應(yīng)該這樣來(lái)描述，一個(gè)多項(xiàng)式在平面上隨機(jī)生成的一堆 N 個(gè)點(diǎn)偏偏恰好近似構(gòu)成一條直線(xiàn)的概率很小很小，然而一條直線(xiàn)在平面上隨機(jī)生成的一堆N個(gè)點(diǎn)（考慮隨機(jī)誤差）能擬合成一個(gè)N-1階曲線(xiàn)的概率是1（一定能用一個(gè)N-1階多項(xiàng)式來(lái)擬合）。換句話(huà)說(shuō)，曲線(xiàn)上（N-1階多項(xiàng)式）隨機(jī)生成的點(diǎn)能被擬合成直線(xiàn)的概率接近于0，而直線(xiàn)上隨機(jī)生成的點(diǎn)能被擬合成曲線(xiàn)的概率接近1。因此，若一堆點(diǎn)即能用直線(xiàn)去擬合，也能用N-1階多項(xiàng)式擬合（必然），那么，他屬于直線(xiàn)模型的概率更大。

二. 過(guò)擬合的產(chǎn)生究其原因,產(chǎn)生過(guò)擬合是因?yàn)?#xff1a;

? ? ? ? ? ?1.由于對(duì)樣本數(shù)據(jù),可能存在隱單元的表示不唯一,即產(chǎn)生的分類(lèi)的決策面不唯一.隨著學(xué)習(xí)的進(jìn)行, BP算法使權(quán)值可能收斂過(guò)于復(fù)雜的決策面,并至極致.

? ? ? ? ?2.權(quán)值學(xué)習(xí)迭代次數(shù)足夠多(Overtraining),擬合了訓(xùn)練數(shù)據(jù)中的噪聲和訓(xùn)練樣例中沒(méi)有代表性的特征.

三.過(guò)度擬合解決方法

? ? ? ? 1.權(quán)值衰減.?在每次迭代過(guò)程中以某個(gè)小因子降低每個(gè)權(quán)值,這等效于修改E的定義,加入一個(gè)與網(wǎng)絡(luò)權(quán)值的總量相應(yīng)的懲罰項(xiàng),此方法的動(dòng)機(jī)是保持權(quán)值較小,避免weight decay,從而使學(xué)習(xí)過(guò)程向著復(fù)雜決策面的反方向偏

? ? ? ?2.適當(dāng)?shù)膕topping criterion

? ? ? ?3.驗(yàn)證數(shù)據(jù)： ?一個(gè)最成功的方法是在訓(xùn)練數(shù)據(jù)外再為算法提供一套驗(yàn)證數(shù)據(jù),應(yīng)該使用在驗(yàn)證集合上產(chǎn)生最小誤差的迭代次數(shù),不是總能明顯地確定驗(yàn)證集合何時(shí)達(dá)到最小誤差.Typically 30% of training patterns;Validation set error is checked each epoch;Stop training if validation error goes up

? ? ?4.Cross-validation with some patterns交叉驗(yàn)證方法在可獲得額外的數(shù)據(jù)提供驗(yàn)證集合時(shí)工作得很好,但是小訓(xùn)練集合的過(guò)度擬合問(wèn)題更為嚴(yán)重

? ? k-fold交叉方法:把訓(xùn)練樣例分成k份,然后進(jìn)行k次交叉驗(yàn)證過(guò)程,每次使用不同的一份作為驗(yàn)證集合,其余k-1份合并作為訓(xùn)練集合.每個(gè)樣例會(huì)在一次實(shí)驗(yàn)中被用作驗(yàn)證樣例,在k-1次實(shí)驗(yàn)中被用作訓(xùn)練樣例;每次實(shí)驗(yàn)中,使用上面討論的交叉驗(yàn)證過(guò)程來(lái)決定在驗(yàn)證集合上取得最佳性能的迭代次數(shù)n*,然后計(jì)算這些迭代次數(shù)的均值,作為最終需要的迭代次數(shù)。

? ? 5. 減少特征

? ? 人工選擇，預(yù)留一些特征

? ?利用算法選取一些比較好的特征

? ?6. 正則化

這里有點(diǎn)疑問(wèn)，正則化是為了防止過(guò)擬合還是為了解決過(guò)擬合。對(duì)部分無(wú)用的feature，定義其parameter(p3,p4)非常大，這樣會(huì)導(dǎo)致訓(xùn)練結(jié)果w3,w4非常小，幾乎為0，降低模型復(fù)雜度。這里也有個(gè)問(wèn)題就是lamba很大會(huì)導(dǎo)致所有的wi都為0。矩陣分解中經(jīng)常會(huì)用到。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
下面參考?http://www.cnblogs.com/SnakeHunt2012/archive/2013/02/18/2915957.html
訓(xùn)練模型是需要數(shù)據(jù)足夠的，我們把訓(xùn)練數(shù)據(jù)看作是能量。那對(duì)于一個(gè)10次多項(xiàng)式的模型來(lái)說(shuō)，在訓(xùn)練的過(guò)程中可以看做其中有10個(gè)數(shù)據(jù)的能量是用來(lái)搭建模型的，然后剩余的數(shù)據(jù)能量是用來(lái)調(diào)整這個(gè)模型使之優(yōu)良，也就是使之對(duì)訓(xùn)練樣例全體的誤差合最小。然而如果你所擁有的能量小于十個(gè)獨(dú)立點(diǎn)的能量，也就是沒(méi)有達(dá) 到建立模型的那個(gè)臨界。那么你訓(xùn)練出來(lái)的根本就不是一個(gè)模型，用這個(gè)東西進(jìn)行預(yù)測(cè)得出的結(jié)果也許就是隨機(jī)數(shù)。

眾所周知，要猜一個(gè)二次多項(xiàng)式，需要至少三個(gè)點(diǎn)。要猜一個(gè)十次多項(xiàng)式，需要至少十一個(gè)點(diǎn)。我認(rèn)為對(duì)于訓(xùn)練過(guò)程來(lái)說(shuō)，每一種模型都需要一個(gè)初始的能量來(lái)確定模型，然后剩余的能量才真是用來(lái)訓(xùn)練的。剩余數(shù)據(jù)越多，訓(xùn)練的效果越好。如果你所投入的能量不能達(dá)到這個(gè)所謂初始能量的這個(gè)臨界，那么就是過(guò)擬合。

光電效應(yīng)是需要溢出功的。

模型太復(fù)雜，容易過(guò)擬合，即使可以達(dá)到過(guò)擬合臨界，那么數(shù)據(jù)不足也會(huì)使得偏執(zhí)比較高，但是如果數(shù)據(jù)足夠的話(huà)，足夠把偏執(zhí)降下來(lái)的話(huà)，大模型精度是很高的，他的方差小。如果你數(shù)據(jù)不足，就不得不使用簡(jiǎn)單模型，而簡(jiǎn)單的模型確實(shí)不容易過(guò)擬合，但他的準(zhǔn)確度(精度)就是硬傷，偏執(zhí)再底，方差他的硬傷。

總結(jié)

以上是生活随笔為你收集整理的防止过拟合以及解决过拟合的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：《英雄联盟》2019全明星赛概览：无限火
下一篇：多GPU运行Deep Learning