l2正则化
在機器學(xué)習(xí)中,無論是分類還是回歸,都可能存在由于特征過多而導(dǎo)致的過擬合問題。當(dāng)然解決的辦法有
?
? (1)減少特征,留取最重要的特征。
??(2)懲罰不重要的特征的權(quán)重。
?
但是通常情況下,我們不知道應(yīng)該懲罰哪些特征的權(quán)重取值。通過正則化方法可以防止過擬合,提高泛化能力。
?
先來看看L2正則化方法。對于之前梯度下降講到的損失函數(shù)來說,在代價函數(shù)后面加上一個正則化項,得到
?
????
?
注意是從1開始的。對其求偏導(dǎo)后得到
?
????
?
然后得到梯度下降的表達(dá)式如下
?
?????
?
注意當(dāng)為0的時候,可以認(rèn)為的值為0。可以看出沒有正則化時,系數(shù)的權(quán)重為1,而現(xiàn)在明顯
?
???????
?
也就是說權(quán)值進行了衰減。那么為什么權(quán)值衰減就能防止overfitting呢 ?
?
首先,我們要知道一個法則-奧卡姆剃刀,用更少的東西做更多事。從某種意義上說,更小的權(quán)值就意味著模型的復(fù)雜度更低,對數(shù)據(jù)的擬合更好。接下來,引用知乎上的解釋。
?
(1)當(dāng)權(quán)值系數(shù)更大時,會過擬合。
?
????
?
(2)在PRML中,正則化就是通過對模型的參數(shù)設(shè)定一個先驗來防止過擬合。
?
?????
?
???? 試想一下,在上圖中,如果不加正則化項,那么最優(yōu)參數(shù)對應(yīng)的等高線離中心點的距離可能會更近,加入正
???? 則化項后使得訓(xùn)練出的參數(shù)對應(yīng)的等高線離中心點的距離不會太近,也不會太遠(yuǎn)。從而避免了過擬合。
轉(zhuǎn)載于:https://www.cnblogs.com/awishfullyway/p/6065583.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
- 上一篇: 做梦梦到自己掉水里了什么意思
- 下一篇: centos 7.0防火墙导致vagra