當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】岭回归（L2正则在干嘛！）

發(fā)布時間：2023/12/20 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】岭回归（L2正则在干嘛！）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在之前我們有介紹過貝葉斯線性回歸，貝葉斯線性回歸利用了最大后驗估計（MAP）加上權(quán)重的高斯分布先驗推導(dǎo)出帶有L2正則項的線性回歸。

其實這就是嶺回歸，即? ? ?嶺回歸=MAP+高斯先驗。

推導(dǎo)就參見貝葉斯線性回歸了，其實兩者就是一模一樣的東西，不過貝葉斯線性回歸更側(cè)重于推導(dǎo)這個過程，因為用了MAP方法，而提到嶺回歸我們就會更去研究強調(diào)其L2正則項的一些特性與作用。

直接給出嶺回歸的推導(dǎo)結(jié)果：

強烈建議閱讀其MAP+高斯分布先驗的推導(dǎo)過程

Normal Equation推導(dǎo)

接下來就按照之前在線性回歸之Normal Equation里講過的Normal Equation方法推導(dǎo)一下加入L2正則化之后的嶺回歸有什么不同。

對上面的目標(biāo)函數(shù)做一些符號替換以及變形，我們記，，，

則得到新的目標(biāo)函數(shù)：

向量化變形之后得到：

對其求導(dǎo)得：

最后可以得到：

我們記（后面會用到）

可以發(fā)現(xiàn)上述正規(guī)方程與一般線性回歸的正規(guī)方程相比，多了一項，其中表示單位矩陣。假如是一個奇異矩陣（不滿秩），添加這一項后可以保證該項可逆。由于單位矩陣的形狀是對角線上為1其他地方都為0，看起來像一條山嶺，因此而得名。

回顧一下，Normal Equation方法可以幫助我們求解得到誤差最小的向量，至于為什么加入之后可以解決矩陣病態(tài)等問題，會在之后新開一篇文章來詳細(xì)講解。先稍微提一嘴，單位矩陣是滿秩矩陣，故也是滿秩矩陣，所以可以求穩(wěn)定的逆。

參見L2范數(shù)之解救矩陣病態(tài)

嶺回歸的幾何解釋

先來回顧一下偏差與方差：

偏差：預(yù)測數(shù)據(jù)和真實數(shù)據(jù)的差距

方差：預(yù)測出來數(shù)據(jù)的分散程度

下面以兩變量為例
沒有約束項時系數(shù)β1和β2已經(jīng)經(jīng)過標(biāo)準(zhǔn)化。殘差平方和RSS可以表示為β1和β2的一個二次函數(shù)，數(shù)學(xué)上可以用一個拋物面表示。

約束項對應(yīng)著投影為β1和β2平面上的一個圓，即下圖中的圓柱

橢圓形拋物面為即平方差損失函數(shù)，圓柱形為，由最小二乘法求得的解釋拋物面的最低點，由嶺回歸得到的是黃色的點，一般來說，擬合的誤差值（偏差）越小，的各個元素（權(quán)值）的方差越高，所以嶺回歸是找到一個方差不會太大，誤差也不會太大的權(quán)衡的點。隨著t的增大，也就是圓柱的半徑，方差變大（對照上面偏差方差的圖仔細(xì)想一下）。

從β1，β2平面理解，即為拋物面等高線在水平面的投影和圓的交點，如下圖所示

這幅圖其實在之前講L1、L2正則化時出現(xiàn)過。

嶺回歸的性質(zhì)：

當(dāng)嶺參數(shù)為0，得到最小二乘解。?

當(dāng)嶺參數(shù)λ趨向更大時，嶺回歸系數(shù)A估計趨向于0。?

嶺回歸是回歸參數(shù)A的有偏估計。它的結(jié)果是使得殘差平和變大，但是會使系數(shù)檢驗變好。?

在認(rèn)為嶺參數(shù)λ是與y無關(guān)的常數(shù)時，是最小二乘估計的一個線性變換，也是y的線性函數(shù)。?

但在實際應(yīng)用中，由于λ總是要通過數(shù)據(jù)確定，因此λ也依賴于y、因此從本質(zhì)上說，并非的線性變換，也非y的線性函數(shù)。?

對于回歸系數(shù)向量來說，有偏估計回歸系數(shù)向量長度<無偏估計回歸系數(shù)向量長度。即。

存在某一個λ，使得它所對應(yīng)的的MSE（估計向量的均方誤差）<最小二乘法對應(yīng)估計向量的的MSE。即存在λ>0，使得

嶺跡圖：

是的函數(shù)，嶺跡圖的橫坐標(biāo)為，縱坐標(biāo)為。而是一個向量，由、、…等很多分量組成，每一個分量都是的函數(shù)，將每一個分量分別用一條線。

當(dāng)不存在奇異性時，嶺跡應(yīng)是穩(wěn)定地逐漸趨向于0

嶺跡圖(a要改成\theta)

其實很好理解，當(dāng)趨向于無窮的時候，所有參數(shù)都應(yīng)該趨向于0，懲罰很大。

嶺跡圖作用：

觀察λ較佳取值；?

觀察變量是否有多重共線性；

在很小時，很大，且不穩(wěn)定，當(dāng)增大到一定程度時，系數(shù)迅速縮小，趨于穩(wěn)定。

的選擇：一般通過觀察，選取喇叭口附近的值，此時各各分量已趨于穩(wěn)定，但總的RSS又不是很大。?
選擇變量：刪除那些取值一直趨于0的變量。

嶺參數(shù)的一般選擇原則
選擇λ值，使得

各回歸系數(shù)的嶺估計基本穩(wěn)定；

用最小二乘估計時符號不合理的回歸系數(shù)，其嶺估計的符號變得合理；

回歸系數(shù)沒有不合乎實際意義的值；

殘差平方和增大不太多。一般λ越大，系數(shù)β會出現(xiàn)穩(wěn)定的假象，但是殘差平方和也會更大。

取λ的方法比較多，但是結(jié)果差異較大。這是嶺回歸的弱點之一。

參考文章：

最小二乘法與嶺回歸的介紹與對比

最小二乘法和嶺回歸

嶺回歸

總結(jié)

以上是生活随笔為你收集整理的【机器学习】岭回归（L2正则在干嘛！）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【机器学习】L1正则化与L2正则化详解及
下一篇：【机器学习】Lasso回归（L1正则，M