【机器学习】岭回归(L2正则在干嘛!)
在之前我們有介紹過貝葉斯線性回歸,貝葉斯線性回歸利用了最大后驗估計(MAP)加上權(quán)重的高斯分布先驗推導(dǎo)出帶有L2正則項的線性回歸。
其實這就是嶺回歸,即? ? ?嶺回歸=MAP+高斯先驗。
推導(dǎo)就參見貝葉斯線性回歸了,其實兩者就是一模一樣的東西,不過貝葉斯線性回歸更側(cè)重于推導(dǎo)這個過程,因為用了MAP方法,而提到嶺回歸我們就會更去研究強調(diào)其L2正則項的一些特性與作用。
直接給出嶺回歸的推導(dǎo)結(jié)果:
強烈建議閱讀其MAP+高斯分布先驗的推導(dǎo)過程
Normal Equation推導(dǎo)
接下來就按照之前在線性回歸之Normal Equation里講過的Normal Equation方法推導(dǎo)一下加入L2正則化之后的嶺回歸有什么不同。
對上面的目標(biāo)函數(shù)做一些符號替換以及變形,我們記,,,
則得到新的目標(biāo)函數(shù):
向量化變形之后得到:
對其求導(dǎo)得:
最后可以得到:
我們記(后面會用到)
可以發(fā)現(xiàn)上述正規(guī)方程與一般線性回歸的正規(guī)方程相比,多了一項,其中表示單位矩陣。假如是一個奇異矩陣(不滿秩),添加這一項后可以保證該項可逆。由于單位矩陣的形狀是對角線上為1其他地方都為0,看起來像一條山嶺,因此而得名。
回顧一下,Normal Equation方法可以幫助我們求解得到誤差最小的向量,至于為什么加入之后可以解決矩陣病態(tài)等問題,會在之后新開一篇文章來詳細(xì)講解。先稍微提一嘴,單位矩陣是滿秩矩陣,故也是滿秩矩陣,所以可以求穩(wěn)定的逆。
參見L2范數(shù)之解救矩陣病態(tài)
嶺回歸的幾何解釋
先來回顧一下偏差與方差:
偏差:預(yù)測數(shù)據(jù)和真實數(shù)據(jù)的差距
方差:預(yù)測出來數(shù)據(jù)的分散程度
下面以兩變量為例
沒有約束項時系數(shù)β1和β2已經(jīng)經(jīng)過標(biāo)準(zhǔn)化。殘差平方和RSS可以表示為β1和β2的一個二次函數(shù),數(shù)學(xué)上可以用一個拋物面表示。
約束項對應(yīng)著投影為β1和β2平面上的一個圓,即下圖中的圓柱
橢圓形拋物面為即平方差損失函數(shù),圓柱形為,由最小二乘法求得的解釋拋物面的最低點,由嶺回歸得到的是黃色的點,一般來說,擬合的誤差值(偏差)越小,的各個元素(權(quán)值)的方差越高,所以嶺回歸是找到一個方差不會太大,誤差也不會太大的權(quán)衡的點。隨著t的增大,也就是圓柱的半徑,方差變大(對照上面偏差方差的圖仔細(xì)想一下)。
從β1,β2平面理解,即為拋物面等高線在水平面的投影和圓的交點,如下圖所示
這幅圖其實在之前講L1、L2正則化時出現(xiàn)過。
嶺回歸的性質(zhì):
?
嶺跡圖:
是的函數(shù),嶺跡圖的橫坐標(biāo)為,縱坐標(biāo)為。而是一個向量,由、、…等很多分量組成,每一個分量都是的函數(shù),將每一個分量分別用一條線。
當(dāng)不存在奇異性時,嶺跡應(yīng)是穩(wěn)定地逐漸趨向于0
嶺跡圖(a要改成\theta)其實很好理解,當(dāng)趨向于無窮的時候,所有參數(shù)都應(yīng)該趨向于0,懲罰很大。
嶺跡圖作用:
在很小時,很大,且不穩(wěn)定,當(dāng)增大到一定程度時,系數(shù)迅速縮小,趨于穩(wěn)定。
的選擇:一般通過觀察,選取喇叭口附近的值,此時各各分量已趨于穩(wěn)定,但總的RSS又不是很大。?
選擇變量:刪除那些取值一直趨于0的變量。
嶺參數(shù)的一般選擇原則
選擇λ值,使得
取λ的方法比較多,但是結(jié)果差異較大。這是嶺回歸的弱點之一。
?
參考文章:
最小二乘法與嶺回歸的介紹與對比
最小二乘法和嶺回歸
嶺回歸
總結(jié)
以上是生活随笔為你收集整理的【机器学习】岭回归(L2正则在干嘛!)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】L1正则化与L2正则化详解及
- 下一篇: 【机器学习】Lasso回归(L1正则,M