【机器学习】Lasso回归(L1正则,MAP+拉普拉斯先验)
前言
目前這個(gè)方法還沒有一個(gè)正規(guī)的中文名,如果從lasso這個(gè)單詞講的話,叫套索。那么套索是啥呢,就是套馬脖子的東西,見下圖:?
就是拿這個(gè)東西把動(dòng)物脖子套住,不要它隨便跑。lasso 回歸就是這個(gè)意思,就是讓回歸系數(shù)不要太大,以免造成過(guò)度擬合(overfitting)。所以呢,lasso regression是個(gè)啥呢,就是一個(gè)回歸,并且回歸系數(shù)不要太大。
具體的實(shí)現(xiàn)方式是加了一個(gè)L1正則的懲罰項(xiàng)。
拉普拉斯分布
在概率論與統(tǒng)計(jì)學(xué)中,拉普拉斯分布是以皮埃爾-西蒙·拉普拉斯的名字命名的一種連續(xù)概率分布。由于它可以看作是兩個(gè)不同位置的指數(shù)分布背靠背拼接在一起,所以它也叫作雙指數(shù)分布。兩個(gè)相互獨(dú)立同概率分布指數(shù)隨機(jī)變量之間的差別是按照指數(shù)分布的隨機(jī)時(shí)間布朗運(yùn)動(dòng),所以它遵循拉普拉斯分布。
如果隨機(jī)變量的概率密度函數(shù)為:
那么它就是拉普拉斯分布。記為:
其中,是位置參數(shù),是尺度參數(shù)。
與正態(tài)分布有一些差別。在均值處變化的相當(dāng)迅速。
數(shù)字特征:
MAP概率推導(dǎo)
推導(dǎo)方式與貝葉斯線性回歸類似貝葉斯線性回歸(最大后驗(yàn)估計(jì)+高斯先驗(yàn))
對(duì)于線性回歸,有
記誤差,則
對(duì)參數(shù)的分布加入先驗(yàn)分布信息(注不加任何先驗(yàn)就是普通的線性回歸),
可以得到MAP方程:
取對(duì)數(shù)得:
上面的所有都應(yīng)改為,記為的集合。
等價(jià)于:
至此,我們已經(jīng)通過(guò)MAP最大后驗(yàn)估計(jì)加上對(duì)于參數(shù)的Laplace先驗(yàn)分布得到了帶L1正則項(xiàng)的線性回歸目標(biāo)函數(shù)。
正則項(xiàng)的意義
對(duì)于上面的目標(biāo)函數(shù),我們還可以寫成以下這種帶約束條件的形式:
妙處就在這個(gè)地方,在第一范數(shù)的約束下,一部分回歸系數(shù)剛好可以被約束為0。這樣的話,就達(dá)到了特征選擇的效果。至于為什么大家可以看看下圖 (在嶺回歸(L2正則在干嘛!)中有介紹過(guò)了)。
不再詳細(xì)解釋了,如果有需要可以參閱之前的博客。
L1正則項(xiàng)不可導(dǎo)的梯度下降方法
對(duì)于凸函數(shù)不可導(dǎo)的情形,如L1正則項(xiàng)在0點(diǎn)處不可導(dǎo),我們可以使用坐標(biāo)下降法或者次梯度方法。
?
參考文章:
Sparsity and Some Basics of L1 Regularization
Lasso回歸的坐標(biāo)下降法推導(dǎo)
總結(jié)
以上是生活随笔為你收集整理的【机器学习】Lasso回归(L1正则,MAP+拉普拉斯先验)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【机器学习】岭回归(L2正则在干嘛!)
- 下一篇: 【机器学习】次梯度(subgradien