日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

防止过拟合以及解决过拟合

發(fā)布時(shí)間:2023/12/13 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 防止过拟合以及解决过拟合 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載:http://blog.sina.com.cn/s/blog_53c47a2f0102vjyf.html

? ? ? ? ? ? ? ? ? ?

過(guò)擬合:為了得到一致假設(shè)而使假設(shè)變得過(guò)度復(fù)雜稱(chēng)為過(guò)擬合。“一個(gè)過(guò)擬合的模型試圖連誤差(噪音)都去解釋(而實(shí)際上噪音又是不需要解釋的),導(dǎo)致泛化能力比較差,顯然就過(guò)猶不及了。” 這句話(huà)很好的詮釋了過(guò)擬合產(chǎn)生的原因,但我認(rèn)為這只是一部分原因,另一個(gè)原因是模型本身并不能很好地解釋(匹配)數(shù)據(jù),也就是說(shuō)觀測(cè)到的數(shù)據(jù)并不是由該模型產(chǎn)生的。

“統(tǒng)計(jì)學(xué)家說(shuō):我們讓數(shù)據(jù)自己說(shuō)話(huà)。言下之意就是要摒棄先驗(yàn)概率。而貝葉斯支持者則說(shuō):數(shù)據(jù)會(huì)有各種各樣的偏差,而一個(gè)靠譜的先驗(yàn)概率則可以對(duì)這些隨機(jī)噪音做到健壯。事實(shí)證明貝葉斯派勝利了,勝利的關(guān)鍵在于所謂先驗(yàn)概率其實(shí)也是經(jīng)驗(yàn)統(tǒng)計(jì)的結(jié)果。” 事實(shí)上貝葉斯本身就是一個(gè)基于統(tǒng)計(jì)的模型……然而,文中以樹(shù)后的箱子為例,闡述似然也有選擇簡(jiǎn)單模型的傾向。我對(duì)此有疑義。似然是選擇與觀測(cè)最匹配的結(jié)果。根據(jù)當(dāng)前的觀測(cè)結(jié)果,顯然一個(gè)箱子的模型是最符合觀測(cè)的,也就是說(shuō),如果樹(shù)兩邊的箱子高矮不一,顏色不同,那么兩個(gè)箱子的模型就是最匹配的。因此,似然只是選擇與觀測(cè)最匹配的模型,而并沒(méi)有選擇簡(jiǎn)單模型的傾向。否則,就不會(huì)有那么嚴(yán)重的過(guò)擬合現(xiàn)象發(fā)生。文中還提到:“反之,如果背后的模型是一條直線(xiàn),那么根據(jù)該模型生成一堆近似構(gòu)成直線(xiàn)的點(diǎn)的概率就大得多了。” 這里的表述有問(wèn)題,既然已經(jīng)把模型看成是直線(xiàn)了,那么根據(jù)直線(xiàn)模型生成一堆近似構(gòu)成直線(xiàn)的點(diǎn)的概率是接近1的。同理,我們既然已經(jīng)認(rèn)為可以用N-1階模型去擬合,那么根據(jù)N-1階模型生成的N個(gè)點(diǎn)當(dāng)然就是符合N-1階模型的,而不需要她去符合直線(xiàn)。 那么問(wèn)題究竟應(yīng)該怎樣描述呢? 根據(jù)作者的意思問(wèn)題應(yīng)該這樣來(lái)描述,一個(gè)多項(xiàng)式在平面上隨機(jī)生成的一堆 N 個(gè)點(diǎn)偏偏恰好近似構(gòu)成一條直線(xiàn)的概率很小很小,然而一條直線(xiàn)在平面上隨機(jī)生成的一堆N個(gè)點(diǎn)(考慮隨機(jī)誤差)能擬合成一個(gè)N-1階曲線(xiàn)的概率是1(一定能用一個(gè)N-1階多項(xiàng)式來(lái)擬合)。換句話(huà)說(shuō),曲線(xiàn)上(N-1階多項(xiàng)式)隨機(jī)生成的點(diǎn)能被擬合成直線(xiàn)的概率接近于0,而直線(xiàn)上隨機(jī)生成的點(diǎn)能被擬合成曲線(xiàn)的概率接近1。因此,若一堆點(diǎn)即能用直線(xiàn)去擬合,也能用N-1階多項(xiàng)式擬合(必然),那么,他屬于直線(xiàn)模型的概率更大。

二. 過(guò)擬合的產(chǎn)生究其原因,產(chǎn)生過(guò)擬合是因?yàn)?#xff1a;

? ? ? ? ? ?1.由于對(duì)樣本數(shù)據(jù),可能存在隱單元的表示不唯一,即產(chǎn)生的分類(lèi)的決策面不唯一.隨著學(xué)習(xí)的進(jìn)行, BP算法使權(quán)值可能收斂過(guò)于復(fù)雜的決策面,并至極致.

? ? ? ? ?2.權(quán)值學(xué)習(xí)迭代次數(shù)足夠多(Overtraining),擬合了訓(xùn)練數(shù)據(jù)中的噪聲和訓(xùn)練樣例中沒(méi)有代表性的特征.

三.過(guò)度擬合解決方法

? ? ? ? 1.權(quán)值衰減.?在每次迭代過(guò)程中以某個(gè)小因子降低每個(gè)權(quán)值,這等效于修改E的定義,加入一個(gè)與網(wǎng)絡(luò)權(quán)值的總量相應(yīng)的懲罰項(xiàng),此方法的動(dòng)機(jī)是保持權(quán)值較小,避免weight decay,從而使學(xué)習(xí)過(guò)程向著復(fù)雜決策面的反方向偏

? ? ? ?2.適當(dāng)?shù)膕topping criterion

? ? ? ?3.驗(yàn)證數(shù)據(jù): ?一個(gè)最成功的方法是在訓(xùn)練數(shù)據(jù)外再為算法提供一套驗(yàn)證數(shù)據(jù),應(yīng)該使用在驗(yàn)證集合上產(chǎn)生最小誤差的迭代次數(shù),不是總能明顯地確定驗(yàn)證集合何時(shí)達(dá)到最小誤差.Typically 30% of training patterns;Validation set error is checked each epoch;Stop training if validation error goes up

? ? ?4.Cross-validation with some patterns交叉驗(yàn)證方法在可獲得額外的數(shù)據(jù)提供驗(yàn)證集合時(shí)工作得很好,但是小訓(xùn)練集合的過(guò)度擬合問(wèn)題更為嚴(yán)重

? ? k-fold交叉方法:把訓(xùn)練樣例分成k份,然后進(jìn)行k次交叉驗(yàn)證過(guò)程,每次使用不同的一份作為驗(yàn)證集合,其余k-1份合并作為訓(xùn)練集合.每個(gè)樣例會(huì)在一次實(shí)驗(yàn)中被用作驗(yàn)證樣例,在k-1次實(shí)驗(yàn)中被用作訓(xùn)練樣例;每次實(shí)驗(yàn)中,使用上面討論的交叉驗(yàn)證過(guò)程來(lái)決定在驗(yàn)證集合上取得最佳性能的迭代次數(shù)n*,然后計(jì)算這些迭代次數(shù)的均值,作為最終需要的迭代次數(shù)。

? ? 5. 減少特征

? ? 人工選擇,預(yù)留一些特征

? ?利用算法選取一些比較好的特征

? ?6. 正則化

這里有點(diǎn)疑問(wèn),正則化是為了防止過(guò)擬合還是為了解決過(guò)擬合。對(duì)部分無(wú)用的feature,定義其parameter(p3,p4)非常大,這樣會(huì)導(dǎo)致訓(xùn)練結(jié)果w3,w4非常小,幾乎為0,降低模型復(fù)雜度。這里也有個(gè)問(wèn)題就是lamba很大會(huì)導(dǎo)致所有的wi都為0。矩陣分解中經(jīng)常會(huì)用到。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
下面參考?http://www.cnblogs.com/SnakeHunt2012/archive/2013/02/18/2915957.html
訓(xùn)練模型是需要數(shù)據(jù)足夠的,我們把訓(xùn)練數(shù)據(jù)看作是能量。那對(duì)于一個(gè)10次多項(xiàng)式的模型來(lái)說(shuō),在訓(xùn)練的過(guò)程中可以看做其中有10個(gè)數(shù)據(jù)的能量是用來(lái)搭建模型 的,然后剩余的數(shù)據(jù)能量是用來(lái)調(diào)整這個(gè)模型使之優(yōu)良,也就是使之對(duì)訓(xùn)練樣例全體的誤差合最小。然而如果你所擁有的能量小于十個(gè)獨(dú)立點(diǎn)的能量,也就是沒(méi)有達(dá) 到建立模型的那個(gè)臨界。那么你訓(xùn)練出來(lái)的根本就不是一個(gè)模型,用這個(gè)東西進(jìn)行預(yù)測(cè)得出的結(jié)果也許就是隨機(jī)數(shù)。

眾 所周知,要猜一個(gè)二次多項(xiàng)式,需要至少三個(gè)點(diǎn)。要猜一個(gè)十次多項(xiàng)式,需要至少十一個(gè)點(diǎn)。我認(rèn)為對(duì)于訓(xùn)練過(guò)程來(lái)說(shuō),每一種模型都需要一個(gè)初始的能量來(lái)確定模 型,然后剩余的能量才真是用來(lái)訓(xùn)練的。剩余數(shù)據(jù)越多,訓(xùn)練的效果越好。如果你所投入的能量不能達(dá)到這個(gè)所謂初始能量的這個(gè)臨界,那么就是過(guò)擬合。

光電效應(yīng)是需要溢出功的。

模 型太復(fù)雜,容易過(guò)擬合,即使可以達(dá)到過(guò)擬合臨界,那么數(shù)據(jù)不足也會(huì)使得偏執(zhí)比較高,但是如果數(shù)據(jù)足夠的話(huà),足夠把偏執(zhí)降下來(lái)的話(huà),大模型精度是很高的,他 的方差小。如果你數(shù)據(jù)不足,就不得不使用簡(jiǎn)單模型,而簡(jiǎn)單的模型確實(shí)不容易過(guò)擬合,但他的準(zhǔn)確度(精度)就是硬傷,偏執(zhí)再底,方差他的硬傷。


總結(jié)

以上是生活随笔為你收集整理的防止过拟合以及解决过拟合的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。