输入梯度惩罚与参数梯度惩罚的一个不等式
?PaperWeekly 原創(chuàng) ·?作者 |?蘇劍林
單位 |?追一科技
研究方向 |?NLP、神經(jīng)網(wǎng)絡(luò)
在本博客中,已經(jīng)多次討論過梯度懲罰相關(guān)內(nèi)容了。從形式上來看,梯度懲罰項分為兩種,一種是關(guān)于輸入梯度懲罰與參數(shù)梯度懲罰的一個不等式在本博客中,已經(jīng)多次討論過梯度懲罰相關(guān)內(nèi)容了。從形式上來看,梯度懲罰項分為兩種,一種是關(guān)于輸入的梯度懲罰 ,在《對抗訓(xùn)練淺談:意義、方法和思考(附Keras實現(xiàn))》、《泛化性亂彈:從隨機噪聲、梯度懲罰到虛擬對抗訓(xùn)練》等文章中我們討論過,另一種則是關(guān)于參數(shù)的梯度懲罰 ,在《從動力學(xué)角度看優(yōu)化算法(五):為什么學(xué)習(xí)率不宜過小?》、《我們真的需要把訓(xùn)練集的損失降低到零嗎?》[1] 等文章我們討論過。
在相關(guān)文章中,兩種梯度懲罰都聲稱有著提高模型泛化性能的能力,那么兩者有沒有什么聯(lián)系呢?筆者從 Google 最近的一篇論文《The Geometric Occam's Razor Implicit in Deep Learning》[2] 學(xué)習(xí)到了兩者的一個不等式,感覺以后可能用得上,在此做個筆記。
最終結(jié)果
假設(shè)有一個 l 層的 MLP 模型,記為:
其中 是當前層的激活函數(shù),,并記為,即模型的原始輸入,為了方便后面的推導(dǎo),我們記 ;參數(shù)全體為 。設(shè) 是 的任意標量函數(shù),那么成立不等式:
其中上式中 、和 用的是普通的 范數(shù),也就是每個元素的平方和再開平方,而 和 用的則是矩陣的“譜范數(shù)”(參考《深度學(xué)習(xí)中的 Lipschitz 約束:泛化與生成模型》)。該不等式顯示,參數(shù)的梯度懲罰一定程度上包含了輸入的梯度懲罰。
推導(dǎo)過程
顯然,為了不等式(2),我們只需要對每一個參數(shù)證明:
然后遍歷所有 ,將每一式左右兩端相加即可。這兩個不等式的證明本質(zhì)上是一個矩陣求導(dǎo)問題,但多數(shù)讀者可能跟筆者一樣,都不熟悉矩陣求導(dǎo),這時候最佳的辦法就是寫出分量形式,然后就變成標量的求導(dǎo)問題。
具體來說, 寫成分量形式:
然后由鏈式法則:
然后:
這里 是克羅內(nèi)克符號。現(xiàn)在我們可以寫出:
代入(6)得到:
兩邊乘以 得:
約定原始向量為列向量,求梯度后矩陣的形狀反轉(zhuǎn),那么上述可以寫成矩陣形式:
兩邊左乘 得:
兩邊取范數(shù)得:
等于第二個不等號來說,矩陣的范數(shù)用 范數(shù)或者譜范數(shù)都是成立的。于是選擇所需要的范數(shù)后,整理可得式(3);至于式(4)的證明類似,這里不再重復(fù)。
簡單評析
可能有讀者會想問具體該如何理解式(2)?事實上,筆者主要覺得式(2)本身有點意思,以后說不準在某個場景用得上,所以本文主要是對此做個“筆記”,但對它并沒有很好的解讀結(jié)果。
至于原論文的邏輯順序是這樣的:在《從動力學(xué)角度看優(yōu)化算法(五):為什么學(xué)習(xí)率不宜過小?》中我們介紹了《Implicit Gradient Regularization》(跟本篇論文同一作者),里邊指出 SGD 隱式地包含了對參數(shù)的梯度懲罰項,而式(2)則說明對參數(shù)的梯度懲罰隱式地包含了對輸入的梯度懲罰,而對輸入的梯度懲罰又跟 Dirichlet 能量有關(guān),Dirichlet 能量則可以作為模型復(fù)雜度的表征。所以總的一串推理下來,結(jié)論就是:SGD 本身會傾向于選擇復(fù)雜度比較小的模型。
不過,原論文在解讀式(2)時,犯了一個小錯誤。它說初始階段的 會很接近于 0,所以式(2)中括號的項會很大,因此如果要降低式(2)右邊的參數(shù)梯度懲罰,那么必須要使得式(2)左邊的輸入梯度懲罰足夠小。然而從《從幾何視角來理解模型參數(shù)的初始化策略》[3] 我們知道,常用的初始化方法其實接近于正交初始化,而正交矩陣的譜范數(shù)其實為 1,如果考慮激活函數(shù),那么初始化的譜范數(shù)其實還大于 1,所以初始化階段 會很接近于 0 是不成立的。
事實上,對于一個沒有訓(xùn)練崩的網(wǎng)絡(luò),模型的參數(shù)和每一層的輸入輸出基本上都會保持一種穩(wěn)定的狀態(tài),所以其實整個訓(xùn)練過程中 、、 其實波動都不大,因此右端對參數(shù)的梯度懲罰近似等價于左端對輸入的乘法懲罰。這是筆者的理解,不需要“ 會很接近于 0”的假設(shè)。
文章小結(jié)
本文主要介紹了兩種梯度懲罰項之間的一個不等式,并給出了自己的證明以及一個簡單的評析。
參考文獻
[1] https://kexue.fm/archives/7643
[2 ]https://arxiv.org/abs/2111.15090
[3] https://kexue.fm/archives/7180
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的输入梯度惩罚与参数梯度惩罚的一个不等式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 喜马拉雅将递交上市计划 又是一个跑去港股
- 下一篇: 北京内推 | 微软亚洲研究院自然语言计算