过拟合问题详解
具體內(nèi)容來(lái)自于讀芯術(shù):https://mp.weixin.qq.com/s?__biz=MzI2NjkyNDQ3Mw==&mid=2247487002&idx=1&sn=05d13bd67a31e38434285c5f0262b95d&chksm=ea87f6ccddf07fdae17a71819ba0577d099bb49b291093e7c6c7927456febfb3d8d308c30ad6&scene=21#wechat_redirect
?
理論部分:
過(guò)擬合可以從以下幾個(gè)方面進(jìn)行解釋:
1. 模型復(fù)雜度:
從模型的角度上看,參數(shù)越多,模型的復(fù)雜度越高。高復(fù)雜度的模型也叫做高容量的模型,對(duì)于很多不同種類(lèi)的數(shù)據(jù)都能有很好的擬合效果。模型的復(fù)雜度越高,越容易過(guò)擬合。
?
2. 性能度量的必然結(jié)果:
一個(gè)模型是否能夠準(zhǔn)確的預(yù)測(cè),需要有一個(gè)度量標(biāo)準(zhǔn),典型的度量標(biāo)準(zhǔn)有均方誤差,指數(shù)誤差等。性能度量衡量的是數(shù)據(jù)的擬合能力,訓(xùn)練集上模型的誤差小,說(shuō)明模型在訓(xùn)練集能夠很好的擬合,但是機(jī)器學(xué)習(xí)的目的并不是擬合訓(xùn)練集,而是為了預(yù)測(cè),是為了獲取預(yù)測(cè)能力強(qiáng)的模型。
?
誤差的一種理解是預(yù)測(cè)值和真實(shí)值之間的差值,另一種理解是偏差+方差+噪聲的值。
偏差,指的是樣本預(yù)測(cè)值的平均值和樣本真實(shí)值之間的差距,它體現(xiàn)的模型的擬合能力。
方差,指的是樣本預(yù)測(cè)值偏離樣本預(yù)測(cè)平均值的程度,它體現(xiàn)的是模型的泛化能力。
噪聲取決于數(shù)據(jù),一般認(rèn)為它的期望值為0。
?
如果一個(gè)模型在訓(xùn)練集上表現(xiàn)優(yōu)異,但是測(cè)試集上表現(xiàn)很差,是過(guò)擬合的典型表現(xiàn)。
如果一個(gè)模型在訓(xùn)練集上表現(xiàn)就很差的話,說(shuō)明該模型欠擬合。緩解欠擬合問(wèn)題可以通過(guò)增加模型復(fù)雜度和增加訓(xùn)練數(shù)據(jù)
?
降低過(guò)擬合的方法:
1. early stopping
2. 在高方差的情況下,可以通過(guò)增加訓(xùn)練數(shù)據(jù)和減少特征維度來(lái)減少測(cè)試誤差
3. 正則化:L1正則化和L2正則化, L1正則化和L2正則化都能夠衰減權(quán)重,但是前者可以讓權(quán)重為0,這是一種重要的稀疏表示的方式,后者只會(huì)讓權(quán)重趨于0,但是不會(huì)等于0.
經(jīng)典解釋圖:
?
用貝葉斯的框架解釋的化,L1本質(zhì)上是加了均值為0的拉普拉斯先驗(yàn),而L2是加了均值為0的高斯先驗(yàn)。
對(duì)數(shù)據(jù)進(jìn)行特征選擇的過(guò)程,也可以理解成一種降低過(guò)擬合的手段,因?yàn)樘卣鞯臏p少也就一定程度上減少了模型復(fù)雜度。尤其是存在多重共線性問(wèn)題時(shí),L1正則化具有使得權(quán)重稀疏縮減為0的特性,實(shí)際上就是去除了線性相關(guān)的特征。
4. dropout, 通過(guò)一定的概率去除某些神經(jīng)元的連接權(quán)重的方式來(lái)形成多個(gè)模型,而且這些模型之間天然就具備了參數(shù)共享的特性。
?
代碼部分:
?
轉(zhuǎn)載于:https://www.cnblogs.com/whatyouknow123/p/10540092.html
總結(jié)
- 上一篇: mysql重命名数据表称方式_在MySQ
- 下一篇: IT6613,是一款BT1120 TO