日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

正则化与L0、L1、L2范数祥解

發(fā)布時間:2025/3/15 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 正则化与L0、L1、L2范数祥解 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1、范數(shù)

范數(shù)是衡量某個向量空間(或矩陣)中的每個向量以長度或大小。范數(shù)的一般化定義:對實數(shù)p>=1, 范數(shù)定義如下:

  • L1范數(shù)
    當(dāng)p=1時,是L1范數(shù),其表示某個向量中所有元素絕對值的和。
  • L2范數(shù)
    當(dāng)p=2時,是L2范數(shù), 表示某個向量中所有元素平方和再開根, 也就是歐幾里得距離公式。

2、拉普拉斯分布

如果隨機變量的概率密度函數(shù)分布為:

那么它就是拉普拉斯分布。其中,μ 是數(shù)學(xué)期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度為 1/2 的指數(shù)分布。

3、高斯分布

又叫正態(tài)分布,若隨機變量X服從一個數(shù)學(xué)期望為μ、標準方差為σ2的高斯分布,記為:X~N(μ,σ2),其概率密度函數(shù)為:

其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時的正態(tài)分布是標準正態(tài)分布。

4、正則化詳解

正則化通過降低模型的復(fù)雜性, 達到避免過擬合的問題。 正則化是如何解決過擬合的問題的呢?從網(wǎng)上找了很多相關(guān)文章, 下面列舉兩個主流的解釋方式。

原因1:來自知乎上一種比較直觀和簡單的理解, 模型過于復(fù)雜是因為模型嘗試去兼顧各個測試數(shù)據(jù)點, 導(dǎo)致模型函數(shù)如下圖,處于一種動蕩的狀態(tài), 每個點的到時在某些很小的區(qū)間里,函數(shù)值的變化很劇烈。這就意味著函數(shù)在某些小區(qū)間里的導(dǎo)數(shù)值(絕對值)非常大,由于自變量值可大可小,所以只有系數(shù)足夠大,才能保證導(dǎo)數(shù)值很大。

?

而加入正則能抑制系數(shù)過大的問題。如下公式, 是嶺回歸的計算公式。

如果發(fā)生過擬合, 參數(shù)θ一般是比較大的值, 加入懲罰項后, 只要控制λ的大小,當(dāng)λ很大時,θ1到θn就會很小,即達到了約束數(shù)量龐大的特征的目的。

原因二:從貝葉斯的角度來分析, 正則化是為模型參數(shù)估計增加一個先驗知識,先驗知識會引導(dǎo)損失函數(shù)最小值過程朝著約束方向迭代。 L1正則是拉普拉斯先驗,L2是高斯先驗。整個最優(yōu)化問題可以看做是一個最大后驗估計,其中正則化項對應(yīng)后驗估計中的先驗信息,損失函數(shù)對應(yīng)后驗估計中的似然函數(shù),兩者的乘積即對應(yīng)貝葉斯最大后驗估計。
給定訓(xùn)練數(shù)據(jù), 貝葉斯方法通過最大化后驗概率估計參數(shù)θ:

說明:P(θ)是參數(shù)向量θ的先驗概率。

下面我們從最大后驗估計(MAP)的方式, 推導(dǎo)下加入L1和L2懲罰項的Lasso和嶺回歸的公式。
首先我們看下最小二乘公式的推導(dǎo)(公式推導(dǎo)截圖來自知乎大神)

?

這個是通過最大似然估計的方法, 推導(dǎo)出線性回歸最小二乘計算公式。

最終的公式就是嶺回歸計算公式。與上面最大似然估計推導(dǎo)出的最小二乘相比,最大后驗估計就是在最大似然估計公式乘以高斯先驗, 這里就理解前面L2正則就是加入高斯先驗知識

最終的公式就是Lasso計算公式。與上面最大似然估計推導(dǎo)出的最小二乘相比,最大后驗估計就是在最大似然估計公式乘以拉普拉斯先驗, 這里就理解前面L1正則就是加入拉普拉斯先驗知識

5、L1和L2正則化的直觀理解

稀疏矩陣指的是很多元素為0,只有少數(shù)元素是非零值的矩陣,即得到的線性回歸模型的大部分系數(shù)都是0. 通常機器學(xué)習(xí)中特征數(shù)量很多,例如文本處理時,如果將一個詞組(term)作為一個特征,那么特征數(shù)量會達到上萬個(bigram)。在預(yù)測或分類時,那么多特征顯然難以選擇,但是如果代入這些特征得到的模型是一個稀疏模型,表示只有少數(shù)特征對這個模型有貢獻,絕大部分特征是沒有貢獻的,或者貢獻微小(因為它們前面的系數(shù)是0或者是很小的值,即使去掉對模型也沒有什么影響),此時我們就可以只關(guān)注系數(shù)是非零值的特征。這就是稀疏模型與特征選擇的關(guān)系。

這部分內(nèi)容將解釋為什么L1正則化可以產(chǎn)生稀疏模型(L1是怎么讓系數(shù)等于零的),以及為什么L2正則化可以防止過擬合

假設(shè)有如下帶L1正則化的損失函數(shù):

其中是原始的損失函數(shù),加號后面的一項是L1正則化項,α是正則化系數(shù)。注意到L1正則化是權(quán)值的絕對值之和,J是帶有絕對值符號的函數(shù),因此J是不完全可微的。機器學(xué)習(xí)的任務(wù)就是要通過一些方法(比如梯度下降)求出損失函數(shù)的最小值。當(dāng)我們在原始損失函數(shù)J0后添加L1正則化項時,相當(dāng)于對J0做了一個約束。令L=α∑w|w|,則J=J0+L,此時我們的任務(wù)變成在L約束下求出J0取最小值的解。考慮二維的情況,即只有兩個權(quán)值w1和w2,此時L=|w1|+|w2|對于梯度下降法,求解J0的過程可以畫出等值線,同時L1正則化的函數(shù)L也可以在w1w2的二維平面上畫出來。如下圖:

圖中等值線是J0的等值線,黑色方形是L函數(shù)的圖形。在圖中,當(dāng)J0等值線與L圖形首次相交的地方就是最優(yōu)解。上圖中J0與L在L的一個頂點處相交,這個頂點就是最優(yōu)解。注意到這個頂點的值是(w1,w2)=(0,w)。可以直觀想象,因為L函數(shù)有很多『突出的角』(二維情況下四個,多維情況下更多),J0與這些角接觸的機率會遠大于與L其它部位接觸的機率,而在這些角上,會有很多權(quán)值等于0,這就是為什么L1正則化可以產(chǎn)生稀疏模型,進而可以用于特征選擇。

而正則化前面的系數(shù)α,可以控制L圖形的大小。α越小,L的圖形越大(上圖中的黑色方框);α越大,L的圖形就越小,可以小到黑色方框只超出原點范圍一點點,這是最優(yōu)點的值(w1,w2)=(0,w)中的w可以取到很小的值。

類似,假設(shè)有如下帶L2正則化的損失函數(shù):

同樣可以畫出他們在二維平面上的圖形,如下:

二維平面下L2正則化的函數(shù)圖形是個圓,與方形相比,被磨去了棱角。因此J0與L相交時使得w1或w2等于零的機率小了許多,這就是為什么L2正則化不具有稀疏性的原因。

6、選擇L2正則項的原因

給損失函數(shù)加上的正則化項可以有多種形式,下面給出了正則化的一般形式:

不同函數(shù)值圖像對應(yīng)的等高線(即俯視圖)為

?

7、總結(jié)

  • L2 regularizer?:使得模型的解偏向于范數(shù)較小的 W,通過限制 W 范數(shù)的大小實現(xiàn)了對模型空間的限制,從而在一定程度上避免了 overfitting 。不過 ridge regression 并不具有產(chǎn)生稀疏解的能力,得到的系數(shù)仍然需要數(shù)據(jù)中的所有特征才能計算預(yù)測結(jié)果,從計算量上來說并沒有得到改觀。
  • L1 regularizer?:它的優(yōu)良性質(zhì)是能產(chǎn)生稀疏性,導(dǎo)致 W 中許多項變成零。 稀疏的解除了計算量上的好處之外,更重要的是更具有“可解釋性”。
  • ?

    總結(jié)

    以上是生活随笔為你收集整理的正则化与L0、L1、L2范数祥解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。