tikhonov正则化 matlab_4 L1和l2正则化详解(花书7.1 参数范数惩罚)
7.1 參數(shù)范數(shù)懲罰
許多正則化方法通過對目標(biāo)函數(shù)
添加一個參數(shù)范數(shù)懲罰 ,限制模型(如神經(jīng)網(wǎng)絡(luò)、線性回歸和邏輯回歸)的學(xué)習(xí)能力。將正則化后的目標(biāo)函數(shù)記為:其中
是權(quán)衡范數(shù)懲罰項 和標(biāo)準(zhǔn)目標(biāo)函數(shù) 相對貢獻的超參數(shù)。在神經(jīng)網(wǎng)絡(luò)中,參數(shù)包括每一層仿射變換的權(quán)重和偏置,我們通常只對權(quán)重做懲罰而不對偏置做正則懲罰。
- 精確擬合偏置所需的數(shù)據(jù)通常比擬合權(quán)重少得多
- 每個權(quán)重會指定兩個變量如何相互作用。而每個偏置僅控制一個單變量。這意味著不對偏置進行正則化也不會導(dǎo)致太大的方差
- 正則化偏置參數(shù)可能會導(dǎo)致明顯的欠擬合。
因此,我們使用向量
表示所有應(yīng)受范數(shù)懲罰的權(quán)重,而 表示所有參數(shù)(包括 和無須正則化的參數(shù))。7.1.1
參數(shù)正則化權(quán)重衰減(weight decay):
參數(shù)范數(shù)懲罰。向目標(biāo)函數(shù)添加一個正則項 ,使權(quán)重更加接近原點。在其他學(xué)術(shù)圈, 又被稱為嶺回歸或Tikhonov正則。通過研究正則化后目標(biāo)函數(shù)的梯度,洞察一些權(quán)重衰減的正則化表現(xiàn)。
對應(yīng)梯度為:
使用單步梯度下降更新權(quán)重,即執(zhí)行以下更新:
換種寫法:
我們可以看到,加入權(quán)重衰減后會引起學(xué)習(xí)規(guī)則的修改,即在每步執(zhí)行通常的梯度更新之前先收縮 權(quán)重向量(將權(quán)重向量乘以一個常數(shù)因子
)。這是單個步驟發(fā)生的變化。在訓(xùn)練的整個過程會發(fā)生什么呢?1.
未正則化的目標(biāo)函數(shù)最小訓(xùn)練誤差時的權(quán)重向量令
為未正則化的目標(biāo)函數(shù)取得最小訓(xùn)練誤差時的權(quán)重向量,即并在
的領(lǐng)域?qū)ξ凑齽t化的目標(biāo)函數(shù)做二次近似[1]。如果目標(biāo)函數(shù)確實是二次的(如以均方誤差擬合線性回歸模型的情況),則該近似是完美的。近似的 如下:其中
是 在 處計算的Hessian矩陣(關(guān)于 )。- 因為 被定義為最優(yōu),即梯度消失為 ,所以該二次近似中沒有一階項。
- 同樣地,因為 是 的一個最優(yōu)點,我們可以得出 是半正定[2]的結(jié)論。
當(dāng)
取最小時,其梯度為0。
2.
正則化后的目標(biāo)函數(shù)最小訓(xùn)練誤差時 的權(quán)重向量當(dāng)
趨向于 時,正則化的解 會趨向于當(dāng)
增加時會發(fā)生什么呢?開始高危操作:因為Hessian 是實對稱[3]的,所以可以分解為一個對角矩陣 和一組特征向量的標(biāo)準(zhǔn)正交基 。并且有 ,所以:注意:
- 推導(dǎo)過程需要嚴(yán)謹(jǐn),待確認(rèn)
我們可以看到權(quán)重衰減的效果是沿著
的特征向量所定義的軸縮放 。具體來說,我們會根據(jù) 因子縮放與 第 個特征向量對齊的 的分量。(可查看圖2.3,回顧這種縮放的原理)7.1.2
正則化 權(quán)重衰減是 權(quán)重衰減最常見的形式; 限制參數(shù)的規(guī)模;形式地,對模型參數(shù)
的 正則化定義為,即各個參數(shù)的絕對值之和:正則化的目標(biāo)函數(shù):
對應(yīng)的梯度(實際上是次梯度)
其中
只是簡單地取 各個元素的正負(fù)號,例如: 。觀察式(7.20),我們立刻發(fā)現(xiàn)
的正則化效果與 大不一樣。具體來說,正則化對梯度的影響不再是線性地縮放每個 ;而是添加了一項與 同號的常數(shù)。使用這種形式的梯度之后,我們不一定能得到 二次近似的直接算術(shù)解( 正則化時可以)。假設(shè)1:簡單的線性模型具有二次代價函數(shù),我們可以通過泰勒級數(shù)表示。或者我們可以設(shè)想,這是逼近更復(fù)雜模型的代價函數(shù)的階段泰勒級數(shù)。在這個 設(shè)定 下,梯度由下式給出:
假設(shè)2:由于
懲罰項在完全一般化的Hessian的情況下,無法得到直接清晰的代數(shù)表達式,因此我們將進一步簡化假設(shè)Hessian是對角的,即 ,其中每個 。如果線性回歸問題中的數(shù)據(jù)已被預(yù)處理(如可以使用PCA),去除了輸入特征之間的相關(guān)性,那么這一 假設(shè) 成立。將
正則化目標(biāo)函數(shù)的二次近似分解成關(guān)于參數(shù)的求和:其中:
是常數(shù)項如下列形式的解析解(對每一維
)可以最小化上面這個近似代價函數(shù) :如果:
- ,
- ,
- 推導(dǎo)過程需要嚴(yán)謹(jǐn),待確認(rèn)
- a肯定大于0
- 對b分情況討論
- b>0
- a-b>0,最為值
- a-b<0,
- b<0
- a+b>0
- a_b<0
- b>0
相比
正則化, 正則化會產(chǎn)生更稀疏(sparse)的解。 正則化有可能通過足夠大的 實現(xiàn)稀疏。由 正則化導(dǎo)出的稀疏性質(zhì)已經(jīng)被廣泛地用于特征選擇。正則化的目標(biāo)函數(shù):
標(biāo)準(zhǔn)目標(biāo)函數(shù):
正則化目標(biāo)函數(shù)的近似:
泰勒級數(shù)
定義:如果
在點 具有任意階導(dǎo)數(shù),則冪級數(shù)稱為
在點 處的泰勒級數(shù)。在泰勒公式中,取
,得到的級數(shù) 稱為麥克勞林級數(shù)。函數(shù)的麥克勞林級數(shù)是 的冪級數(shù),那么這種展開是唯一的,且必然與的麥克勞林級數(shù)一致。半正定
在線性代數(shù)里,正定矩陣 (positive definite matrix) 有時會簡稱為正定陣。在線性代數(shù)中,正定矩陣的性質(zhì)類似復(fù)數(shù)中的正實數(shù)。
- 復(fù)數(shù):我們把形如 ( 均為實數(shù))的數(shù)稱為復(fù)數(shù)。
- 實數(shù):實數(shù),是有理數(shù)和無理數(shù)的總稱。數(shù)學(xué)上,實數(shù)定義為與數(shù)軸上的實數(shù),點相對應(yīng)的數(shù)。
- 正定矩陣廣義定義:設(shè) 是 階方陣,如果對任何非零向量 ,都有 ,其中 表示 的轉(zhuǎn)置,就稱 為正定矩陣。
- 半正定矩陣:是正定矩陣的推廣。實對稱矩陣 稱為半正定的,如果二次型 半正定,即對于任意不為0的實列向量 ,都有 。
參考
總結(jié)
以上是生活随笔為你收集整理的tikhonov正则化 matlab_4 L1和l2正则化详解(花书7.1 参数范数惩罚)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: centos 部署mysql5.7_ce
- 下一篇: 兜兜在赶来的路上怎么读?