l2正则化
在機(jī)器學(xué)習(xí)中,無(wú)論是分類還是回歸,都可能存在由于特征過(guò)多而導(dǎo)致的過(guò)擬合問(wèn)題。當(dāng)然解決的辦法有
?
? (1)減少特征,留取最重要的特征。
??(2)懲罰不重要的特征的權(quán)重。
?
但是通常情況下,我們不知道應(yīng)該懲罰哪些特征的權(quán)重取值。通過(guò)正則化方法可以防止過(guò)擬合,提高泛化能力。
?
先來(lái)看看L2正則化方法。對(duì)于之前梯度下降講到的損失函數(shù)來(lái)說(shuō),在代價(jià)函數(shù)后面加上一個(gè)正則化項(xiàng),得到
?
????
?
注意是從1開(kāi)始的。對(duì)其求偏導(dǎo)后得到
?
????
?
然后得到梯度下降的表達(dá)式如下
?
?????
?
注意當(dāng)為0的時(shí)候,可以認(rèn)為的值為0。可以看出沒(méi)有正則化時(shí),系數(shù)的權(quán)重為1,而現(xiàn)在明顯
?
???????
?
也就是說(shuō)權(quán)值進(jìn)行了衰減。那么為什么權(quán)值衰減就能防止overfitting呢 ?
?
首先,我們要知道一個(gè)法則-奧卡姆剃刀,用更少的東西做更多事。從某種意義上說(shuō),更小的權(quán)值就意味著模型的復(fù)雜度更低,對(duì)數(shù)據(jù)的擬合更好。接下來(lái),引用知乎上的解釋。
?
(1)當(dāng)權(quán)值系數(shù)更大時(shí),會(huì)過(guò)擬合。
?
????
?
(2)在PRML中,正則化就是通過(guò)對(duì)模型的參數(shù)設(shè)定一個(gè)先驗(yàn)來(lái)防止過(guò)擬合。
?
?????
?
???? 試想一下,在上圖中,如果不加正則化項(xiàng),那么最優(yōu)參數(shù)對(duì)應(yīng)的等高線離中心點(diǎn)的距離可能會(huì)更近,加入正
???? 則化項(xiàng)后使得訓(xùn)練出的參數(shù)對(duì)應(yīng)的等高線離中心點(diǎn)的距離不會(huì)太近,也不會(huì)太遠(yuǎn)。從而避免了過(guò)擬合。
轉(zhuǎn)載于:https://www.cnblogs.com/awishfullyway/p/6065583.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
- 上一篇: 做梦梦到自己掉水里了什么意思
- 下一篇: centos 7.0防火墙导致vagra