日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

L2正则没有想象那么好?可能是“权重尺度偏移”惹的祸

發布時間:2024/10/8 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 L2正则没有想象那么好?可能是“权重尺度偏移”惹的祸 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 · 作者|蘇劍林

單位|追一科技

研究方向|NLP、神經網絡

L2 正則是機器學習常用的一種防止過擬合的方法(應該也是一道經常遇到的面試題)。簡單來說,它就是希望權重的模長盡可能小一點,從而能抵御的擾動多一點,最終提高模型的泛化性能。但是讀者可能也會發現,L2 正則的表現通常沒有理論上說的那么好,很多時候加了可能還有負作用。

最近的一篇文章 Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations 從“權重尺度偏移”這個角度分析了 L2 正則的弊端,并提出了新的?WEISSI 正則項。整個分析過程頗有意思,在這里與大家分享一下。

論文標題:Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations

論文鏈接:https://arxiv.org/abs/2008.02965

相關內容

這一節中我們先簡單回顧一下 L2 正則,然后介紹它與權重衰減的聯系以及與之相關的 AdamW 優化器 [1]?。

1.1 L2正則的理解

為什么要添加 L2 正則?這個問題可能有多個答案。有從 Ridge 回歸角度回答的,有從貝葉斯推斷角度回答的,這里給出從擾動敏感性的角度的理解。

對于兩個(列)向量 ,我們有柯西不等式 。根據這個結果,我們就可以證明:

這里的 等于矩陣 的所有元素的平方和。證明并不困難,有興趣的讀者自行完成。

這個結果告訴我們: 的變化量,可以被 和 控制住,因此如果我們希望 很小時 的變化量也盡可能小,那么我們可以降低 ,這時候就可以加入正則項 。

不難發現,這其實就是 L2 正則。這個角度的相關討論還可以參考深度學習中的Lipschitz約束:泛化與生成模型(不過要注意兩篇文章的記號略有不同)。

1.2 AdamW優化器

在使用 SGD 進行優化時,假設原來的迭代為 ,那么不難證明加入 L2 正則 后變成了:

由于 ,所以這會使得整個優化過程中參數 有“收縮”到 0 的傾向,這樣的改動稱為“權重衰減(Weight Decay)”。

不過,L2 正則與權重衰減的等價性僅僅是在 SGD 優化器下成立,如果用了自適應學習率優化器如 Adagrad、Adam 等,那么兩者不等價。在自適應學習率優化器中,L2 正則的作用約等于往優化過程里邊加入 而不是 。

也就是說每個元素的懲罰都很均勻,而不是絕對值更大的元素懲罰更大,這部分抵消了 L2 正則的作用。論文 Decoupled Weight Decay Regularization [1] 首次強調了這個問題,并且提出了改進的 AdamW 優化器。

新的正則

在這一節中,我們將指出常見的深度學習模型中往往存在“權重尺度偏移(Weight Scale Shif)”現象,這個現象可能會導致了 L2 正則的作用沒那么明顯。進一步地,我們可以構建一個新的正則項,它具有跟 L2 類似的作用,但是與權重尺度偏移現象更加協調,理論上來說會更加有效。

2.1 權重尺度偏移

我們知道深度學習模型的基本結構就是“線性變換+非線性激活函數”,而現在最常用的激活函數之一是 。有意思的是,這兩者都滿足“正齊次性”,也就是對于 ,我們有 恒成立。

對于其他的激活函數如 SoftPlus、GELU、Swish 等,其實它們都是 的光滑近似,因此可以認為它們是近似滿足“正齊次性”。

“正齊次性”使得深度學習模型對于權重尺度偏移具有一定的不變性。具體來說,假設一個L層的模型:

假設每個參數引入偏移 ,那么根據正齊次性可得:

如果 ,那么參數為 就跟參數為 的模型完全等價了。

換句話說,模型對于 的權重尺度偏移具有不變性(WEIght-Scale-Shift-Invariance,WEISSI)。

2.2 與L2正則不協調

剛才我們說只要尺度偏移滿足 ,那么兩組參數對應的模型就等價了,但問題是它們對應的 L2 正則卻不等價:

并且可以證明,如果固定 ,并且保持約束 ,那么 的最小值在:

事實上,這就體現了 L2 正則的低效性。試想一下,假如我們已經訓練得到一組參數 ,這組參數泛化性能可能不大好,于是我們希望 L2 正則能幫助優化器找到一組更好參數(犧牲一點 ,降低一點 )。

但是,上述結果告訴我們,由于權重尺度偏移不變性的存在,模型完全可以找到一組新的參數 ,它跟原來參數的模型完全等價(沒有提升泛化性能),但是 L2 正則還更小(L2 正則起作用了)。說白了,就是 L2 正則確實起作用了,但沒有提升模型泛化性能,沒有達到使用 L2 正則的初衷。

2.3 WEISSI正則

上述問題的根源在于,模型對權重尺度偏移具有不變性,但是 L2 正則對權重尺度偏移沒有不變性。如果我們能找到一個新的正則項,它有類似的作用,同時還對權重尺度偏移不變,那么就能解決這個問題了。個人感覺原論文對這部分的講解并不夠清晰,下面的推導以筆者的個人理解為主。

我們考慮如下的一般形式的正則項:

對于 L2 正則來說,,只要 是關于 x 在 上的單調遞增函數,那么就能保證優化但目標是縮小。要注意我們希望正則項具有尺度偏移不變性,并不需要 ,而只需要:

因為優化過程只需要用到它的梯度。可能有的讀者都能直接看出它的一個解了,其實就是對數函數 。所以新提出來的正則項就是:

除此之外,原論文可能擔心上述正則項懲罰力度還不夠,還對參數方向加了個 L1 的懲罰,總的形式為:

2.4 實驗效果簡述

按慣例展示一下原論文的是實驗結果,當然既然作者都整理成文了,顯然說明是有正面結果的:

▲原論文對WEISSI正則的實驗結果之一

對于我們來說,無非就是知道有這么個新的選擇,煉丹的時候多一種嘗試罷了。畢竟正則項這種東西,沒有什么理論能保證它一定能起作用,還是用了才能知道結果,別人說得再漂亮也沒用。

文章小結

本文介紹了神經網絡模型中的權重尺度偏移不變性的現象,并指出它與 L2 正則的不協調性,繼而提出了作用類似但能夠解決不協調性的正則項。

參考文獻

[1] https://arxiv.org/abs/1711.05101

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的L2正则没有想象那么好?可能是“权重尺度偏移”惹的祸的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。