日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

L1、L2正则化详解

發(fā)布時(shí)間:2025/4/16 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 L1、L2正则化详解 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

正則化是一種回歸的形式,它將系數(shù)估計(jì)(coefficient estimate)朝零的方向進(jìn)行約束、調(diào)整或縮小。也就是說,正則化可以在學(xué)習(xí)過程中降低模型復(fù)雜度和不穩(wěn)定程度,從而避免過擬合的危險(xiǎn)。

一、數(shù)學(xué)基礎(chǔ)

1. 范數(shù)

?

?

范數(shù)是衡量某個(gè)向量空間(或矩陣)中的每個(gè)向量以長(zhǎng)度或大小。范數(shù)的一般化定義:對(duì)實(shí)數(shù)p>=1, 范數(shù)定義如下:
  • L1范數(shù)
    當(dāng)p=1時(shí),是L1范數(shù),其表示某個(gè)向量中所有元素絕對(duì)值的和。
  • L2范數(shù)
    當(dāng)p=2時(shí),是L2范數(shù), 表示某個(gè)向量中所有元素平方和再開根, 也就是歐幾里得距離公式。

2. 拉普拉斯分布

如果隨機(jī)變量的概率密度函數(shù)分布為:

那么它就是拉普拉斯分布。其中,μ 是數(shù)學(xué)期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度為 1/2 的指數(shù)分布。 拉普拉斯分布的概率密度函數(shù)

?

3. 高斯分布

?

?

又叫正態(tài)分布,若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、標(biāo)準(zhǔn)方差為σ2的高斯分布,記為:X~N(μ,σ2),其概率密度函數(shù)為:

?

其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。 高斯分布的概率密度函數(shù)

還有涉及極大似然估計(jì)、概率論相關(guān)的先驗(yàn)和后驗(yàn)相關(guān)概率, 為了控制篇幅, 本文就不詳細(xì)介紹, wiki百科和百度百科都講得很清楚。

二、正則化解決過擬合問題

正則化通過降低模型的復(fù)雜性, 達(dá)到避免過擬合的問題。 正則化是如何解決過擬合的問題的呢?從網(wǎng)上找了很多相關(guān)文章, 下面列舉兩個(gè)主流的解釋方式。

?

原因1:來自知乎上一種比較直觀和簡(jiǎn)單的理解, 模型過于復(fù)雜是因?yàn)槟P蛧L試去兼顧各個(gè)測(cè)試數(shù)據(jù)點(diǎn), 導(dǎo)致模型函數(shù)如下圖,處于一種動(dòng)蕩的狀態(tài), 每個(gè)點(diǎn)的到時(shí)在某些很小的區(qū)間里,函數(shù)值的變化很劇烈。這就意味著函數(shù)在某些小區(qū)間里的導(dǎo)數(shù)值(絕對(duì)值)非常大,由于自變量值可大可小,所以只有系數(shù)足夠大,才能保證導(dǎo)數(shù)值很大。 而加入正則能抑制系數(shù)過大的問題。如下公式, 是嶺回歸的計(jì)算公式。

如果發(fā)生過擬合, 參數(shù)θ一般是比較大的值, 加入懲罰項(xiàng)后, 只要控制λ的大小,當(dāng)λ很大時(shí),θ1到θn就會(huì)很小,即達(dá)到了約束數(shù)量龐大的特征的目的。

原因二:從貝葉斯的角度來分析, 正則化是為模型參數(shù)估計(jì)增加一個(gè)先驗(yàn)知識(shí),先驗(yàn)知識(shí)會(huì)引導(dǎo)損失函數(shù)最小值過程朝著約束方向迭代。 L1正則是拉普拉斯先驗(yàn),L2是高斯先驗(yàn)。整個(gè)最優(yōu)化問題可以看做是一個(gè)最大后驗(yàn)估計(jì),其中正則化項(xiàng)對(duì)應(yīng)后驗(yàn)估計(jì)中的先驗(yàn)信息,損失函數(shù)對(duì)應(yīng)后驗(yàn)估計(jì)中的似然函數(shù),兩者的乘積即對(duì)應(yīng)貝葉斯最大后驗(yàn)估計(jì)。
給定訓(xùn)練數(shù)據(jù), 貝葉斯方法通過最大化后驗(yàn)概率估計(jì)參數(shù)θ:

說明:P(θ)是參數(shù)向量θ的先驗(yàn)概率。

?

下面我們從最大后驗(yàn)估計(jì)(MAP)的方式, 推導(dǎo)下加入L1和L2懲罰項(xiàng)的Lasso和嶺回歸的公式。
首先我們看下最小二乘公式的推導(dǎo)(公式推導(dǎo)截圖來自知乎大神)

這個(gè)是通過最大似然估計(jì)的方法, 推導(dǎo)出線性回歸最小二乘計(jì)算公式。

?

  • 假設(shè)1: w參數(shù)向量服從高斯分布
    以下為貝葉斯最大后驗(yàn)估計(jì)推導(dǎo):

    最終的公式就是嶺回歸計(jì)算公式。與上面最大似然估計(jì)推導(dǎo)出的最小二乘相比,最大后驗(yàn)估計(jì)就是在最大似然估計(jì)公式乘以高斯先驗(yàn), 這里就理解前面L2正則就是加入高斯先驗(yàn)知識(shí)。

    ?

  • 假設(shè)2: w參數(shù)服從拉普拉斯分布
    以下為貝葉斯最大后驗(yàn)估計(jì)推導(dǎo):

    最終的公式就是Lasso計(jì)算公式。與上面最大似然估計(jì)推導(dǎo)出的最小二乘相比,最大后驗(yàn)估計(jì)就是在最大似然估計(jì)公式乘以拉普拉斯先驗(yàn), 這里就理解前面L1正則就是加入拉普拉斯先驗(yàn)知識(shí)。

    ?

L1和L2正則化的比較

為了幫助理解,我們來看一個(gè)直觀的例子:假定x僅有兩個(gè)屬性,于是無論嶺回歸還是Lasso接觸的w都只有兩個(gè)分量,即w1,w2,我們將其作為兩個(gè)坐標(biāo)軸,然后在圖中繪制出兩個(gè)式子的第一項(xiàng)的”等值線”,即在(w1,w2)空間中平方誤差項(xiàng)取值相同的點(diǎn)的連線。再分別繪制出L1范數(shù)和L2范數(shù)的等值線,即在(w1,w2)空間中L1范數(shù)取值相同的點(diǎn)的連線,以及L2范數(shù)取值相同的點(diǎn)的連線(如下圖所示)。


L1正則化比L2正則化更易于得到稀疏解

嶺回歸與Lasso的解都要在平方誤差項(xiàng)與正則化項(xiàng)之間折中,即出現(xiàn)在圖中平方誤差項(xiàng)等值線與正則化項(xiàng)等值線相交處。而由上圖可以看出,采用L1范數(shù)時(shí)平方誤差項(xiàng)等值線與正則化項(xiàng)等值線的交點(diǎn)常出現(xiàn)在坐標(biāo)軸上,即w1或w2為0,而在采用L2范數(shù)時(shí),兩者的交點(diǎn)常出現(xiàn)在某個(gè)象限中,即w1或w2均非0。

這說明了嶺回歸的一個(gè)明顯缺點(diǎn):模型的可解釋性。它將把不重要的預(yù)測(cè)因子的系數(shù)縮小到趨近于 0,但永不達(dá)到 0。也就是說,最終的模型會(huì)包含所有的預(yù)測(cè)因子。但是,在 Lasso 中,如果將調(diào)整因子 λ 調(diào)整得足夠大,L1 范數(shù)懲罰可以迫使一些系數(shù)估計(jì)值完全等于 0。因此,Lasso 可以進(jìn)行變量選擇,產(chǎn)生稀疏模型。注意到w取得稀疏解意味著初始的d個(gè)特征中僅有對(duì)應(yīng)著w的非零分量的特征才會(huì)出現(xiàn)在最終模型中,于是求解L1范數(shù)正則化的結(jié)果時(shí)得到了僅采用一部分初始特征的模型;換言之,基于L1正則化的學(xué)習(xí)方法就是一種嵌入式特征選擇方法,其特征選擇過程和學(xué)習(xí)器訓(xùn)練過程融為一體,同時(shí)完成。

總結(jié)

  • L2 regularizer :使得模型的解偏向于范數(shù)較小的 W,通過限制 W 范數(shù)的大小實(shí)現(xiàn)了對(duì)模型空間的限制,從而在一定程度上避免了 overfitting 。不過 ridge regression 并不具有產(chǎn)生稀疏解的能力,得到的系數(shù)仍然需要數(shù)據(jù)中的所有特征才能計(jì)算預(yù)測(cè)結(jié)果,從計(jì)算量上來說并沒有得到改觀。
  • L1 regularizer :它的優(yōu)良性質(zhì)是能產(chǎn)生稀疏性,導(dǎo)致 W 中許多項(xiàng)變成零。 稀疏的解除了計(jì)算量上的好處之外,更重要的是更具有“可解釋性”。


  • 作者:suwi
    鏈接:https://www.jianshu.com/p/c9bb6f89cfcc

    轉(zhuǎn)載于:https://www.cnblogs.com/USTC-ZCC/p/10123610.html

    總結(jié)

    以上是生活随笔為你收集整理的L1、L2正则化详解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。