當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

正则化与L0、L1、L2范数祥解

發(fā)布時間：2025/3/15 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了正则化与L0、L1、L2范数祥解小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1、范數(shù)

范數(shù)是衡量某個向量空間（或矩陣）中的每個向量以長度或大小。范數(shù)的一般化定義：對實數(shù)p>=1，范數(shù)定義如下：

L1范數(shù)
當(dāng)p=1時，是L1范數(shù)，其表示某個向量中所有元素絕對值的和。
L2范數(shù)
當(dāng)p=2時，是L2范數(shù)，表示某個向量中所有元素平方和再開根，也就是歐幾里得距離公式。

2、拉普拉斯分布

如果隨機變量的概率密度函數(shù)分布為:

那么它就是拉普拉斯分布。其中，μ 是數(shù)學(xué)期望，b > 0 是振幅。如果 μ = 0，那么，正半部分恰好是尺度為 1/2 的指數(shù)分布。

3、高斯分布

又叫正態(tài)分布，若隨機變量X服從一個數(shù)學(xué)期望為μ、標準方差為σ2的高斯分布，記為：X～N(μ,σ2)，其概率密度函數(shù)為:

其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置，其標準差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時的正態(tài)分布是標準正態(tài)分布。

4、正則化詳解

正則化通過降低模型的復(fù)雜性，達到避免過擬合的問題。正則化是如何解決過擬合的問題的呢？從網(wǎng)上找了很多相關(guān)文章，下面列舉兩個主流的解釋方式。

原因1：來自知乎上一種比較直觀和簡單的理解，模型過于復(fù)雜是因為模型嘗試去兼顧各個測試數(shù)據(jù)點，導(dǎo)致模型函數(shù)如下圖，處于一種動蕩的狀態(tài)，每個點的到時在某些很小的區(qū)間里，函數(shù)值的變化很劇烈。這就意味著函數(shù)在某些小區(qū)間里的導(dǎo)數(shù)值（絕對值）非常大，由于自變量值可大可小，所以只有系數(shù)足夠大，才能保證導(dǎo)數(shù)值很大。

而加入正則能抑制系數(shù)過大的問題。如下公式，是嶺回歸的計算公式。

如果發(fā)生過擬合，參數(shù)θ一般是比較大的值，加入懲罰項后，只要控制λ的大小，當(dāng)λ很大時，θ1到θn就會很小，即達到了約束數(shù)量龐大的特征的目的。

原因二：從貝葉斯的角度來分析，正則化是為模型參數(shù)估計增加一個先驗知識，先驗知識會引導(dǎo)損失函數(shù)最小值過程朝著約束方向迭代。 L1正則是拉普拉斯先驗，L2是高斯先驗。整個最優(yōu)化問題可以看做是一個最大后驗估計，其中正則化項對應(yīng)后驗估計中的先驗信息，損失函數(shù)對應(yīng)后驗估計中的似然函數(shù)，兩者的乘積即對應(yīng)貝葉斯最大后驗估計。
給定訓(xùn)練數(shù)據(jù), 貝葉斯方法通過最大化后驗概率估計參數(shù)θ：

說明：P(θ)是參數(shù)向量θ的先驗概率。

下面我們從最大后驗估計(MAP)的方式，推導(dǎo)下加入L1和L2懲罰項的Lasso和嶺回歸的公式。
首先我們看下最小二乘公式的推導(dǎo)（公式推導(dǎo)截圖來自知乎大神）

這個是通過最大似然估計的方法，推導(dǎo)出線性回歸最小二乘計算公式。

最終的公式就是嶺回歸計算公式。與上面最大似然估計推導(dǎo)出的最小二乘相比，最大后驗估計就是在最大似然估計公式乘以高斯先驗，這里就理解前面L2正則就是加入高斯先驗知識

最終的公式就是Lasso計算公式。與上面最大似然估計推導(dǎo)出的最小二乘相比，最大后驗估計就是在最大似然估計公式乘以拉普拉斯先驗，這里就理解前面L1正則就是加入拉普拉斯先驗知識

5、L1和L2正則化的直觀理解

稀疏矩陣指的是很多元素為0，只有少數(shù)元素是非零值的矩陣，即得到的線性回歸模型的大部分系數(shù)都是0. 通常機器學(xué)習(xí)中特征數(shù)量很多，例如文本處理時，如果將一個詞組（term）作為一個特征，那么特征數(shù)量會達到上萬個（bigram）。在預(yù)測或分類時，那么多特征顯然難以選擇，但是如果代入這些特征得到的模型是一個稀疏模型，表示只有少數(shù)特征對這個模型有貢獻，絕大部分特征是沒有貢獻的，或者貢獻微小（因為它們前面的系數(shù)是0或者是很小的值，即使去掉對模型也沒有什么影響），此時我們就可以只關(guān)注系數(shù)是非零值的特征。這就是稀疏模型與特征選擇的關(guān)系。

這部分內(nèi)容將解釋為什么L1正則化可以產(chǎn)生稀疏模型（L1是怎么讓系數(shù)等于零的），以及為什么L2正則化可以防止過擬合。

假設(shè)有如下帶L1正則化的損失函數(shù)：

其中是原始的損失函數(shù)，加號后面的一項是L1正則化項，α是正則化系數(shù)。注意到L1正則化是權(quán)值的絕對值之和，J是帶有絕對值符號的函數(shù)，因此J是不完全可微的。機器學(xué)習(xí)的任務(wù)就是要通過一些方法（比如梯度下降）求出損失函數(shù)的最小值。當(dāng)我們在原始損失函數(shù)J0后添加L1正則化項時，相當(dāng)于對J0做了一個約束。令L=α∑w|w|，則J=J0+L，此時我們的任務(wù)變成在L約束下求出J0取最小值的解。考慮二維的情況，即只有兩個權(quán)值w1和w2，此時L=|w1|+|w2|對于梯度下降法，求解J0的過程可以畫出等值線，同時L1正則化的函數(shù)L也可以在w1w2的二維平面上畫出來。如下圖：

圖中等值線是J0的等值線，黑色方形是L函數(shù)的圖形。在圖中，當(dāng)J0等值線與L圖形首次相交的地方就是最優(yōu)解。上圖中J0與L在L的一個頂點處相交，這個頂點就是最優(yōu)解。注意到這個頂點的值是(w1,w2)=(0,w)。可以直觀想象，因為L函數(shù)有很多『突出的角』（二維情況下四個，多維情況下更多），J0與這些角接觸的機率會遠大于與L其它部位接觸的機率，而在這些角上，會有很多權(quán)值等于0，這就是為什么L1正則化可以產(chǎn)生稀疏模型，進而可以用于特征選擇。

而正則化前面的系數(shù)α，可以控制L圖形的大小。α越小，L的圖形越大（上圖中的黑色方框）；α越大，L的圖形就越小，可以小到黑色方框只超出原點范圍一點點，這是最優(yōu)點的值(w1,w2)=(0,w)中的w可以取到很小的值。

類似，假設(shè)有如下帶L2正則化的損失函數(shù)：

同樣可以畫出他們在二維平面上的圖形，如下：

二維平面下L2正則化的函數(shù)圖形是個圓，與方形相比，被磨去了棱角。因此J0與L相交時使得w1或w2等于零的機率小了許多，這就是為什么L2正則化不具有稀疏性的原因。

6、選擇L2正則項的原因

給損失函數(shù)加上的正則化項可以有多種形式，下面給出了正則化的一般形式：

不同函數(shù)值圖像對應(yīng)的等高線（即俯視圖）為：

7、總結(jié)

L2 regularizer?：使得模型的解偏向于范數(shù)較小的 W，通過限制 W 范數(shù)的大小實現(xiàn)了對模型空間的限制，從而在一定程度上避免了 overfitting 。不過 ridge regression 并不具有產(chǎn)生稀疏解的能力，得到的系數(shù)仍然需要數(shù)據(jù)中的所有特征才能計算預(yù)測結(jié)果，從計算量上來說并沒有得到改觀。

L1 regularizer?：它的優(yōu)良性質(zhì)是能產(chǎn)生稀疏性，導(dǎo)致 W 中許多項變成零。稀疏的解除了計算量上的好處之外，更重要的是更具有“可解釋性”。

總結(jié)

以上是生活随笔為你收集整理的正则化与L0、L1、L2范数祥解的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： linux中用户识别码,C语言中设置用户
下一篇： L0、L1、L2范数在机器学习中的应用