为什么L1稀疏,L2平滑?
問(wèn)題
為什么L1正則化較容易產(chǎn)生稀疏解,而L2正則化較平緩穩(wěn)定?
介紹L1和L2
??L1和L2正則常被用來(lái)解決過(guò)擬合問(wèn)題。而L1正則也常被用來(lái)進(jìn)行特征選擇,主要原因在于L1正則化會(huì)使得較多的參數(shù)為0,從而產(chǎn)生稀疏解。我們可以將0對(duì)應(yīng)的特征遺棄,進(jìn)而用來(lái)選擇特征。
角度一 ——從代價(jià)函數(shù)上來(lái)看
但為什么L1正則會(huì)產(chǎn)生稀疏解呢?這里利用公式進(jìn)行解釋。
假設(shè)只有一個(gè)參數(shù)為w,損失函數(shù)為L(zhǎng)(w),分別加上L1正則項(xiàng)和L2正則項(xiàng)后有:
假設(shè)L(w)在0處的倒數(shù)為d0,即
則可以推導(dǎo)使用L1正則和L2正則時(shí)的導(dǎo)數(shù)。
引入L2正則項(xiàng),在0處的導(dǎo)數(shù)
引入L1正則項(xiàng),在0處的導(dǎo)數(shù)
可見(jiàn),引入L2正則時(shí),代價(jià)函數(shù)在0處的導(dǎo)數(shù)仍是d0,無(wú)變化。而引入L1正則后,代價(jià)函數(shù)在0處的導(dǎo)數(shù)有一個(gè)突變。從d0+λ到d0?λ,若d0+λ和d0?λ異號(hào),則在0處會(huì)是一個(gè)極小值點(diǎn)。因此,優(yōu)化時(shí),很可能優(yōu)化到該極小值點(diǎn)上,即w=0處。
這里只解釋了有一個(gè)參數(shù)的情況,如果有更多的參數(shù),也是類似的。因此,用L1正則更容易產(chǎn)生稀疏解。
角度二 ——L1正則化本身的導(dǎo)數(shù)性質(zhì)
這個(gè)角度從權(quán)值的更新公式來(lái)看權(quán)值的收斂結(jié)果。
首先來(lái)看看L1和L2的梯度(導(dǎo)數(shù)的反方向):
所以(不失一般性,我們假定:wi等于不為0的某個(gè)正的浮點(diǎn)數(shù),學(xué)習(xí)速率η 為0.5):
L1的權(quán)值更新公式為wi = wi - η * 1 = wi - 0.5 * 1,也就是說(shuō)權(quán)值每次更新都固定減少一個(gè)特定的值(比如0.5),那么經(jīng)過(guò)若干次迭代之后,權(quán)值就有可能減少到0。
L2的權(quán)值更新公式為wi = wi - η * wi = wi - 0.5 * wi,也就是說(shuō)權(quán)值每次都等于上一次的1/2,那么,雖然權(quán)值不斷變小,但是因?yàn)槊看味嫉扔谏弦淮蔚囊话?#xff0c;所以很快會(huì)收斂到較小的值但不為0。
下面的圖很直觀的說(shuō)明了這個(gè)變化趨勢(shì):
L1能產(chǎn)生等于0的權(quán)值,即能夠剔除某些特征在模型中的作用(特征選擇),即產(chǎn)生稀疏的效果。
L2可以得迅速得到比較小的權(quán)值,但是難以收斂到0,所以產(chǎn)生的不是稀疏而是平滑的效果。
角度三 ——幾何空間
這個(gè)角度從幾何位置關(guān)系來(lái)看權(quán)值的取值情況。
直接來(lái)看下面這張圖
高維我們無(wú)法想象,簡(jiǎn)化到2維的情形,如上圖所示。其中,左邊是L1圖示,右邊是L2圖示,左邊的方形線上是L1中w1/w2取值區(qū)間,右邊得圓形線上是L2中w1/w2的取值區(qū)間,綠色的圓圈表示w1/w2取不同值時(shí)整個(gè)正則化項(xiàng)的值的等高線(凸函數(shù)),從等高線和w1/w2取值區(qū)間的交點(diǎn)可以看到,L1中兩個(gè)權(quán)值傾向于一個(gè)較大另一個(gè)為0,L2中兩個(gè)權(quán)值傾向于均為非零的較小數(shù)。這也就是L1稀疏,L2平滑的效果。
參考
https://vimsky.com/article/969.html
https://blog.csdn.net/b876144622/article/details/81276818
https://blog.csdn.net/liangdong2014/article/details/79517638
總結(jié)
以上是生活随笔為你收集整理的为什么L1稀疏,L2平滑?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: shape的各种获取、更改以及设置方式辨
- 下一篇: L2正则化方法