當(dāng)前位置：首頁 > 人工智能 > 循环神经网络 >内容正文

循环神经网络

tikhonov正则化 matlab_4 L1和l2正则化详解（花书7.1 参数范数惩罚）

發(fā)布時間：2025/4/5 循环神经网络 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 tikhonov正则化 matlab_4 L1和l2正则化详解（花书7.1 参数范数惩罚）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

7.1 參數(shù)范數(shù)懲罰

許多正則化方法通過對目標(biāo)函數(shù)

添加一個參數(shù)范數(shù)懲罰，限制模型（如神經(jīng)網(wǎng)絡(luò)、線性回歸和邏輯回歸）的學(xué)習(xí)能力。將正則化后的目標(biāo)函數(shù)記為：

其中

是權(quán)衡范數(shù)懲罰項和標(biāo)準(zhǔn)目標(biāo)函數(shù) 相對貢獻的超參數(shù)。

在神經(jīng)網(wǎng)絡(luò)中，參數(shù)包括每一層仿射變換的權(quán)重和偏置，我們通常只對權(quán)重做懲罰而不對偏置做正則懲罰。

精確擬合偏置所需的數(shù)據(jù)通常比擬合權(quán)重少得多
每個權(quán)重會指定兩個變量如何相互作用。而每個偏置僅控制一個單變量。這意味著不對偏置進行正則化也不會導(dǎo)致太大的方差
正則化偏置參數(shù)可能會導(dǎo)致明顯的欠擬合。

因此，我們使用向量

表示所有應(yīng)受范數(shù)懲罰的權(quán)重，而表示所有參數(shù)（包括和無須正則化的參數(shù)）。

7.1.1

參數(shù)正則化

權(quán)重衰減（weight decay）：

參數(shù)范數(shù)懲罰。向目標(biāo)函數(shù)添加一個正則項，使權(quán)重更加接近原點。在其他學(xué)術(shù)圈，又被稱為嶺回歸或Tikhonov正則。

通過研究正則化后目標(biāo)函數(shù)的梯度，洞察一些權(quán)重衰減的正則化表現(xiàn)。

對應(yīng)梯度為：

使用單步梯度下降更新權(quán)重，即執(zhí)行以下更新：

換種寫法：

我們可以看到，加入權(quán)重衰減后會引起學(xué)習(xí)規(guī)則的修改，即在每步執(zhí)行通常的梯度更新之前先收縮權(quán)重向量（將權(quán)重向量乘以一個常數(shù)因子

）。這是單個步驟發(fā)生的變化。在訓(xùn)練的整個過程會發(fā)生什么呢？

1.

未正則化的目標(biāo)函數(shù)最小訓(xùn)練誤差時的權(quán)重向量

令

為未正則化的目標(biāo)函數(shù)取得最小訓(xùn)練誤差時的權(quán)重向量，即

并在

的領(lǐng)域?qū)ξ凑齽t化的目標(biāo)函數(shù)做二次近似^[1]。如果目標(biāo)函數(shù)確實是二次的（如以均方誤差擬合線性回歸模型的情況），則該近似是完美的。近似的如下：

其中

是在處計算的Hessian矩陣（關(guān)于）。

因為被定義為最優(yōu)，即梯度消失為，所以該二次近似中沒有一階項。
同樣地，因為是的一個最優(yōu)點，我們可以得出是半正定^[2]的結(jié)論。

當(dāng)

取最小時，其梯度

為0。

2.

正則化后的目標(biāo)函數(shù)最小訓(xùn)練誤差時的權(quán)重向量

當(dāng)

趨向于時，正則化的解會趨向于

當(dāng)

增加時會發(fā)生什么呢？開始高危操作：因為Hessian 是實對稱^[3]的，所以可以分解為一個對角矩陣和一組特征向量的標(biāo)準(zhǔn)正交基。并且有，所以：

注意：

推導(dǎo)過程需要嚴(yán)謹(jǐn)，待確認(rèn)

我們可以看到權(quán)重衰減的效果是沿著

的特征向量所定義的軸縮放。具體來說，我們會根據(jù) 因子縮放與第個特征向量對齊的的分量。（可查看圖2.3，回顧這種縮放的原理）

7.1.2

正則化

權(quán)重衰減是權(quán)重衰減最常見的形式；

限制參數(shù)的規(guī)模；

形式地，對模型參數(shù)

的正則化定義為，即各個參數(shù)的絕對值之和：

正則化的目標(biāo)函數(shù)：

對應(yīng)的梯度（實際上是次梯度）

其中

只是簡單地取各個元素的正負(fù)號，例如：。

觀察式(7.20)，我們立刻發(fā)現(xiàn)

的正則化效果與大不一樣。具體來說，正則化對梯度的影響不再是線性地縮放每個；而是添加了一項與同號的常數(shù)。使用這種形式的梯度之后，我們不一定能得到二次近似的直接算術(shù)解（正則化時可以）。

假設(shè)1：簡單的線性模型具有二次代價函數(shù)，我們可以通過泰勒級數(shù)表示。或者我們可以設(shè)想，這是逼近更復(fù)雜模型的代價函數(shù)的階段泰勒級數(shù)。在這個設(shè)定下，梯度由下式給出：

假設(shè)2：由于

懲罰項在完全一般化的Hessian的情況下，無法得到直接清晰的代數(shù)表達式，因此我們將進一步簡化假設(shè)Hessian是對角的，即，其中每個。如果線性回歸問題中的數(shù)據(jù)已被預(yù)處理（如可以使用PCA），去除了輸入特征之間的相關(guān)性，那么這一假設(shè) 成立。

將

正則化目標(biāo)函數(shù)的二次近似分解成關(guān)于參數(shù)的求和：

其中：

是常數(shù)項

如下列形式的解析解（對每一維

）可以最小化上面這個近似代價函數(shù) ：

如果:

，
，
推導(dǎo)過程需要嚴(yán)謹(jǐn)，待確認(rèn)

，求最小值，去掉絕對值號，無非兩種情況：

a肯定大于0
對b分情況討論
- b>0
  - a-b>0，最為值
  - a-b<0，
- b<0
  - a+b>0
  - a_b<0

相比

正則化，正則化會產(chǎn)生更稀疏（sparse）的解。正則化有可能通過足夠大的實現(xiàn)稀疏。由正則化導(dǎo)出的稀疏性質(zhì)已經(jīng)被廣泛地用于特征選擇。

正則化的目標(biāo)函數(shù)：

標(biāo)準(zhǔn)目標(biāo)函數(shù)：

正則化目標(biāo)函數(shù)的近似：

泰勒級數(shù)

定義：如果

在點具有任意階導(dǎo)數(shù)，則冪級數(shù)

稱為

在點處的泰勒級數(shù)。

在泰勒公式中，取

，得到的級數(shù) 稱為麥克勞林級數(shù)。函數(shù)的麥克勞林級數(shù)是的冪級數(shù)，那么這種展開是唯一的，且必然與的麥克勞林級數(shù)一致。

半正定

在線性代數(shù)里，正定矩陣 (positive definite matrix) 有時會簡稱為正定陣。在線性代數(shù)中，正定矩陣的性質(zhì)類似復(fù)數(shù)中的正實數(shù)。

復(fù)數(shù)：我們把形如（均為實數(shù)）的數(shù)稱為復(fù)數(shù)。
實數(shù)：實數(shù)，是有理數(shù)和無理數(shù)的總稱。數(shù)學(xué)上，實數(shù)定義為與數(shù)軸上的實數(shù)，點相對應(yīng)的數(shù)。
正定矩陣廣義定義：設(shè) 是階方陣，如果對任何非零向量，都有，其中表示的轉(zhuǎn)置，就稱為正定矩陣。
半正定矩陣：是正定矩陣的推廣。實對稱矩陣稱為半正定的，如果二次型半正定，即對于任意不為0的實列向量，都有。

參考

^泰勒公式

^半正定

^實對稱矩陣

總結(jié)

以上是生活随笔為你收集整理的tikhonov正则化 matlab_4 L1和l2正则化详解（花书7.1 参数范数惩罚）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： centos 部署mysql5.7_ce
下一篇：兜兜在赶来的路上怎么读？