當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

L2正则没有想象那么好？可能是“权重尺度偏移”惹的祸

發布時間：2024/10/8 编程问答 68 豆豆

生活随笔收集整理的這篇文章主要介紹了 L2正则没有想象那么好？可能是“权重尺度偏移”惹的祸小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 · 作者｜蘇劍林

單位｜追一科技

研究方向｜NLP、神經網絡

L2 正則是機器學習常用的一種防止過擬合的方法（應該也是一道經常遇到的面試題）。簡單來說，它就是希望權重的模長盡可能小一點，從而能抵御的擾動多一點，最終提高模型的泛化性能。但是讀者可能也會發現，L2 正則的表現通常沒有理論上說的那么好，很多時候加了可能還有負作用。

最近的一篇文章 Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations 從“權重尺度偏移”這個角度分析了 L2 正則的弊端，并提出了新的?WEISSI 正則項。整個分析過程頗有意思，在這里與大家分享一下。

論文標題：Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations

論文鏈接：https://arxiv.org/abs/2008.02965

相關內容

這一節中我們先簡單回顧一下 L2 正則，然后介紹它與權重衰減的聯系以及與之相關的 AdamW 優化器 [1]?。

1.1 L2正則的理解

為什么要添加 L2 正則？這個問題可能有多個答案。有從 Ridge 回歸角度回答的，有從貝葉斯推斷角度回答的，這里給出從擾動敏感性的角度的理解。

對于兩個（列）向量，我們有柯西不等式。根據這個結果，我們就可以證明：

這里的等于矩陣的所有元素的平方和。證明并不困難，有興趣的讀者自行完成。

這個結果告訴我們：的變化量，可以被和控制住，因此如果我們希望很小時的變化量也盡可能小，那么我們可以降低，這時候就可以加入正則項。

不難發現，這其實就是 L2 正則。這個角度的相關討論還可以參考深度學習中的Lipschitz約束：泛化與生成模型（不過要注意兩篇文章的記號略有不同）。

1.2 AdamW優化器

在使用 SGD 進行優化時，假設原來的迭代為，那么不難證明加入 L2 正則后變成了：

由于，所以這會使得整個優化過程中參數有“收縮”到 0 的傾向，這樣的改動稱為“權重衰減（Weight Decay）”。

不過，L2 正則與權重衰減的等價性僅僅是在 SGD 優化器下成立，如果用了自適應學習率優化器如 Adagrad、Adam 等，那么兩者不等價。在自適應學習率優化器中，L2 正則的作用約等于往優化過程里邊加入而不是。

也就是說每個元素的懲罰都很均勻，而不是絕對值更大的元素懲罰更大，這部分抵消了 L2 正則的作用。論文 Decoupled Weight Decay Regularization [1] 首次強調了這個問題，并且提出了改進的 AdamW 優化器。

新的正則

在這一節中，我們將指出常見的深度學習模型中往往存在“權重尺度偏移（Weight Scale Shif）”現象，這個現象可能會導致了 L2 正則的作用沒那么明顯。進一步地，我們可以構建一個新的正則項，它具有跟 L2 類似的作用，但是與權重尺度偏移現象更加協調，理論上來說會更加有效。

2.1 權重尺度偏移

我們知道深度學習模型的基本結構就是“線性變換+非線性激活函數”，而現在最常用的激活函數之一是。有意思的是，這兩者都滿足“正齊次性”，也就是對于，我們有恒成立。

對于其他的激活函數如 SoftPlus、GELU、Swish 等，其實它們都是的光滑近似，因此可以認為它們是近似滿足“正齊次性”。

“正齊次性”使得深度學習模型對于權重尺度偏移具有一定的不變性。具體來說，假設一個L層的模型：

假設每個參數引入偏移，那么根據正齊次性可得：

如果，那么參數為就跟參數為的模型完全等價了。

換句話說，模型對于的權重尺度偏移具有不變性（WEIght-Scale-Shift-Invariance，WEISSI）。

2.2 與L2正則不協調

剛才我們說只要尺度偏移滿足，那么兩組參數對應的模型就等價了，但問題是它們對應的 L2 正則卻不等價：

并且可以證明，如果固定，并且保持約束，那么的最小值在：

事實上，這就體現了 L2 正則的低效性。試想一下，假如我們已經訓練得到一組參數，這組參數泛化性能可能不大好，于是我們希望 L2 正則能幫助優化器找到一組更好參數（犧牲一點，降低一點）。

但是，上述結果告訴我們，由于權重尺度偏移不變性的存在，模型完全可以找到一組新的參數，它跟原來參數的模型完全等價（沒有提升泛化性能），但是 L2 正則還更小（L2 正則起作用了）。說白了，就是 L2 正則確實起作用了，但沒有提升模型泛化性能，沒有達到使用 L2 正則的初衷。

2.3 WEISSI正則

上述問題的根源在于，模型對權重尺度偏移具有不變性，但是 L2 正則對權重尺度偏移沒有不變性。如果我們能找到一個新的正則項，它有類似的作用，同時還對權重尺度偏移不變，那么就能解決這個問題了。個人感覺原論文對這部分的講解并不夠清晰，下面的推導以筆者的個人理解為主。

我們考慮如下的一般形式的正則項：

對于 L2 正則來說，，只要是關于 x 在上的單調遞增函數，那么就能保證優化但目標是縮小。要注意我們希望正則項具有尺度偏移不變性，并不需要，而只需要：

因為優化過程只需要用到它的梯度。可能有的讀者都能直接看出它的一個解了，其實就是對數函數。所以新提出來的正則項就是：

除此之外，原論文可能擔心上述正則項懲罰力度還不夠，還對參數方向加了個 L1 的懲罰，總的形式為：

2.4 實驗效果簡述

按慣例展示一下原論文的是實驗結果，當然既然作者都整理成文了，顯然說明是有正面結果的：

▲原論文對WEISSI正則的實驗結果之一

對于我們來說，無非就是知道有這么個新的選擇，煉丹的時候多一種嘗試罷了。畢竟正則項這種東西，沒有什么理論能保證它一定能起作用，還是用了才能知道結果，別人說得再漂亮也沒用。

文章小結

本文介紹了神經網絡模型中的權重尺度偏移不變性的現象，并指出它與 L2 正則的不協調性，繼而提出了作用類似但能夠解決不協調性的正則項。

參考文獻

[1] https://arxiv.org/abs/1711.05101

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的L2正则没有想象那么好？可能是“权重尺度偏移”惹的祸的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：长安汽车 2024 年 9 月销量 21
下一篇：岗位内推 | 阿里巴巴高德动态信息部招聘