机器学习知识点(二十一)特征选择之岭回归和LASSO
特征選擇,也就是特征縮減,是通過對損失函數(shù)(即優(yōu)化目標(biāo))加入懲罰項(xiàng),使得訓(xùn)練求解參數(shù)過程中會(huì)考慮到系數(shù)的大小,通過設(shè)置縮減系數(shù)(懲罰系數(shù)),會(huì)使得影響較小的特征的系數(shù)衰減到0,只保留重要的特征。嵌入式特征選擇方法有:LASSO(L1正則化)和嶺回歸(L2正則化)。特征選擇,可消除噪聲特征和消除關(guān)聯(lián)的特征,并能減少訓(xùn)練開銷。
對于特征選擇,需要關(guān)注正則化概念,正則化是對損失函數(shù)(目標(biāo)函數(shù))加入一個(gè)懲罰項(xiàng),使得模型由多解變?yōu)楦鼉A向其中一個(gè)解,也成為罰函數(shù)。在介紹嶺回顧和LASSO前,先介紹線性回歸。
1、線性歸回 對于一個(gè)樣本xi,它的輸出值是其特征的線性組合:?
其中, w0 稱為截距,或者bias,上式中通過增加 xi0=1 把 w0 也吸收到向量表達(dá)中了,簡化了形式,因此實(shí)際上 xi 有 p+1 維度。
線性回歸的目標(biāo)是用預(yù)測結(jié)果盡可能地?cái)M合目標(biāo)label,用最常見的最小平方誤差:?
可以直接求出最優(yōu)解:?
w?=(XTX)?1XTy
看起來似乎很簡單,但是在實(shí)際使用的過程中會(huì)有不少問題,其中一個(gè)主要問題就是上面的協(xié)方差矩陣不可逆時(shí),目標(biāo)函數(shù)最小化導(dǎo)數(shù)為零時(shí)方程有無窮解,沒辦法求出最優(yōu)解。尤其在 p>n 時(shí),必然存在這樣的問題,這個(gè)時(shí)候也存在overfitting的問題。這個(gè)時(shí)候需要對 w
做一些限制,使得它的最優(yōu)解空間變小,也就是所謂的regularization,正則。
2、嶺回歸 ridge regeression
最為常見的就是對
w的模做約束,如ridge regression,嶺回歸,就是在線性回歸的基礎(chǔ)上加上l2-norm的約束,loss function是(習(xí)慣上一般會(huì)去掉前面線性回歸目標(biāo)函數(shù)中的常數(shù)項(xiàng)1n,同時(shí)為了后面推導(dǎo)的簡潔性會(huì)加上一個(gè)12):?
有解析解:?
w^R=(XTX+λI)?1XTy
其中λ>0是一個(gè)參數(shù),有了正則項(xiàng)以后解就有了很好的性質(zhì),首先是對w的模做約束,使得它的數(shù)值會(huì)比較小,很大程度上減輕了overfitting的問題;其次是上面求逆部分肯定可以解,在實(shí)際使用中ridge regression的作用很大,通過調(diào)節(jié)參數(shù)λ,可以得到不同的回歸模型。
實(shí)際上ridge regression可以用下面的優(yōu)化目標(biāo)形式表達(dá):?
也就是說,我依然優(yōu)化線性回歸的目標(biāo),但是條件是 w 的模長不能超過限制 θ 。上面兩種優(yōu)化形式是等價(jià)的,可以找到一 一對應(yīng)的 λ 和 θ 。
3、稀疏約束,Lasso
先看一下幾種范式(norm)的定義,?
∥w∥1=∑i|wi|
∥w∥0=∑i1(wi≠0)
如前面的ridge regression,對 w 做2范式約束,就是把解約束在一個(gè) l2 -ball里面,放縮是對球的半徑放縮,因此 w 的每一個(gè)維度都在以同一個(gè)系數(shù)放縮,通過放縮不會(huì)產(chǎn)生稀疏的解——即某些 w 的維度是0。而實(shí)際應(yīng)用中,數(shù)據(jù)的維度中是存在噪音和冗余的,稀疏的解可以找到有用的維度并且減少冗余,提高回歸預(yù)測的準(zhǔn)確性和魯棒性(減少了overfitting)。在壓縮感知、稀疏編碼等非常多的機(jī)器學(xué)習(xí)模型中都需要用到稀疏約束。
稀疏約束最直觀的形式應(yīng)該是約束0范式,如上面的范式介紹,w的0范式是求w中非零元素的個(gè)數(shù)。如果約束∥w∥0≤k,就是約束非零元素個(gè)數(shù)不大于k。不過很明顯,0范式是不連續(xù)的且非凸的,如果在線性回歸中加上0范式的約束,就變成了一個(gè)組合優(yōu)化問題:挑出≤k個(gè)系數(shù)然后做回歸,找到目標(biāo)函數(shù)的最小值對應(yīng)的系數(shù)組合,是一個(gè)NP問題。
有趣的是,l1-norm(1范式)也可以達(dá)到稀疏的效果,是0范式的最優(yōu)凸近似,借用一張圖[1]:?
很重要的是1范式容易求解,并且是凸的,所以幾乎看得到稀疏約束的地方都是用的1范式。
回到本文對于線性回歸的討論,就引出了Lasso(least absolute shrinkage and selection operator) 的問題:
minw12∥y?Xw∥2,s.t.∥w∥1<θ
也就是說約束在一個(gè) l1 -ball里面。ridge和lasso的效果見下圖:
紅色的橢圓和藍(lán)色的區(qū)域的切點(diǎn)就是目標(biāo)函數(shù)的最優(yōu)解,我們可以看到,如果是圓,則很容易切到圓周的任意一點(diǎn),但是很難切到坐標(biāo)軸上,因此沒有稀疏;但是如果是菱形或者多邊形,則很容易切到坐標(biāo)軸上,因此很容易產(chǎn)生稀疏的結(jié)果。這也說明了為什么1范式會(huì)是稀疏的。
總結(jié)
以上是生活随笔為你收集整理的机器学习知识点(二十一)特征选择之岭回归和LASSO的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【正一专栏】巴萨四大皆空怎么办
- 下一篇: 一个1990年代的小故事