當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

突破模糊定性分析，批归一化和权重衰减的球面优化机制

發布時間：2024/10/8 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了突破模糊定性分析，批归一化和权重衰减的球面优化机制小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文內容整理自 PaperWeekly 和 biendata 在 B 站組織的直播回顧，點擊文末閱讀原文即可跳轉至 B 站收看本次分享完整視頻錄像，如需嘉賓課件，請在?PaperWeekly?公眾號回復關鍵詞課件下載獲取下載鏈接。

作者簡介：萬若斯，現為曠視研究院基礎模型組的算法研究員。在北京大學數學科學學院取得應用數學學士學位，并在北京大學前沿交叉學院獲得數據科學碩士學位。主要研究方向是深度學習模型與訓練方法的理論基礎。

批歸一化（Batch Normalization，BN）和權重衰減（weight decay，WD）以其出色穩定的表現成為了當今各種深度學習模型的標準配置，但它們的理論機制，一直以來僅有模糊的定性分析。

本文將主要介紹 BN 和 WD 對深度神經網絡的訓練過程的共同作用的球面優化機制（Spherical Motion Dynamics， SMD）。基于球面優化機制的定量理論結果，不受限于模型的結構、數據集或任務類型，可以在諸如 ImageNet，COCO 等基于真實數據的復雜計算機視覺任務上得到完美驗證。

放縮不變性

首先回顧一下關于 batch normalization（以下簡稱 BN）的形式和性質。BN 是深度神經網絡技術里面最常用的標準方法之一，除了比較特殊的一些情形以外，幾乎所有的神經網絡如果訓練出現了問題，加個 BN 基本上都可以得到一些不錯的結果。BN 的主要形式如下（訓練階段）：

如果一個網絡帶上 BN 會有什么樣的性質？本文將重點探討其中的一個性質，即 scale invariant property，中文翻譯為放縮不變性。

它的具體含義是，一般構建一個神經網絡，以經典網絡 ResNet 為例，它組成元件順序為，首先是 conv 層，接一個 BN 層，再經過一個 relu，下面又重復 conv、BN、relu，后面可能會接個 short cut。單就 conv 層本身的參數而言，由于它后面經過了一個 BN，所以它會有一個 scale invariant 性質。具體的數學定義如下：

給定任意一個正系數 K，如果其他的參數都不變，只對 conv 層的參數放大 K 倍，它的 loss 不會有任何變化。其實不只是 loss 不會有變化，如果做分類任務，分類的值相對大小也不會有任何變化。這個 scale invariant property 是由于 BN 在 conv 后面除以 variance 所導致的。

由于 scale invariant property 會有更進一步的性質，這里面以 lemma 1 的形式給出來了。主要有兩個性質，第一個是正交性，如果我們把 Weight（以下簡稱 Wt）看成是一個向量，在 Wt 上的梯度也看成一個向量，它們內積為 0，就是嚴格正交。

第二個是所謂的反比例關系，就是如果把梯度乘上 K 倍，它所對應的 gradience 方向和原來保持一致，但是它 gradience 方向的模長會是原來的 1/k。

下面來探討一下，這兩個性質對優化造成的影響。如果只考慮 SGD 的更新或者 GD 的更新，不考慮 Weight Decay（以下簡稱 WD）的話，那么就會有影響。

第一個影響是 Wt 的模長始終在增加。原因是一般 gradience 是乘上一個 learning rate, 然后去更新 Wt，那么就會形成一個直角三角形。然后新的 Wt 的模長是這個直角三角形的斜邊，它始終會大于原來的 Wt。而且每一次用 SGD 的更新，都會比原來的大，所以只要這個 gradience 不恰好等于 0，那么 Wt 的模長便單調遞增。

但是這個單調遞增會導致另外一個性質，即梯度的模長可能會因為 Wt 的增加而減少。梯度模長本身除了它自己的一些方向不變，然后得到的那個梯度以外，還跟這個 Wt 的模長成反比。

所以可以想象一下，假設初始化一個網絡，它的 loss 可能很大，需要進行優化。經過傳統的優化的理論，應該會找到一個 local minima，一般來說 local minima 是個 stationary point，它的 gradience 范數很小。

但是在帶有 BN 的情況下，如果不改變 Wt 的方向，只是無限的增大這個 Wt 的范數長度，最后得到的這個 gradience 它的范數仍然很小，就不能確定它是否是一個 stationary point，但可以肯定它不是一個 local minimal。

此時就會出現一個問題，似乎傳統的優化，在帶 BN 的網絡里面會出現一些奇怪的現象，而且也可以說明了一點，WD 是必要的。

再來探討一下，如果加了 WD 又會發生什么樣的事？假設 objective function 如下：

此時會有以下兩個結論，第一個結論是，由于 W 的 scale environment 性質，所以 W 的范數大小是不會影響到 loss 的大小，但是它的范數大小會影響到 L2 recognize part 的大小。因此，如果對 W 乘上任意一個 0~1 之間的一個系數，都可以得到 objective function，它會嚴格的比原來小。

這樣就有個直觀的理解，對于一個帶 BN 的網絡，在它的定義上面（注意：定義域是不包含 0 的），任何一個點都不是它的 local minimal。它附近總有一些點，或者值會比它更小。

這樣如果以收斂性的角度去看問題，或者說以 gradient flow，就是所謂的 learning rate 無窮小形成一個 gradient 流的情況去優化的狀況，就會出現一個很自然的現象，即 Wt 會無限的趨近于 0。

但是 Wt 趨近于 0 又會出現另外一個問題。objective function 這個梯度在 0 附近，不是一個 lipschitz 的梯度。這個條件其實在很多非凸優化里面都是一個非常常用的必要條件。所以大家會默認符合這個條件。

但實際上在最常用的帶 BN 和 WD 的網絡，它很可能不符合這個要求。原因在于在帶 BN 的網絡中，V=0 這個位置是一個所謂的奇點。舉例說明，lose function 的形式如下：

可以看到單就 loss 而言，它的 lipschitz 是非常規整的，它的最小解為 1。但是一旦加上了 BN 和 WD 之后，它的 lipschitz 是非常奇怪的。

直觀來講，這個收斂可能收斂到接近 0 的位置，但是這個 0 的位置又因為過于突兀的變化，有可能跑到其他的位置。所以這里面就展示了帶 BN 和 WD 的網絡，不能夠直接單純的把它作為 objective function 的一個部分，把它們 join 的去考慮怎么去對它們優化，形成了什么樣的性質。

因為如果這樣考慮，得到的很多最基本的 assumption 都可能是不滿足的。我們實際中我們還是用 objective，不需要什么精心調參，也可以得到不錯的結果，這是為什么呢？

單位梯度和角度更新量

在解釋這個問題之前，首先介紹一些基本概念。第一個概念是單位梯度（Unit gradient），考慮到 WtWt 的 gradient 的范數大小會受到 Wt 范數本身大小的影響，所以定義單位梯度公式如下：

這樣就可以把 Wt 的范數和 gradient 方向給它的影響各自區分開。

第二個概念是角度更新量（Angular update）, 這個詞是來自于物理學中，球面運動的角速度的概念，就是圓周運動角速度概念。這里借用了這個概念，用它來衡量一次更新前后 Wt 和 Wt+1 之間的角度。具體數學公式如下：

這里均假設 Wt 為非 0，這樣定義的原因是去掉 Wt 的范數的影響，因為一般情況下，只要 Wt 方向固定，它的范數完全不會影響到深度學習網絡的性能表現。Angular update 是真正可以表示出單步更新內 weight 變化情況的量。

有了以上兩個概念就可以理解球面優化動態過程了，為了說明方便，在這里只討論了 SGD case，SGD 的一般更新法則如下圖的公式所示，通過示意圖可以看到，對于 wt 的范數的影響，如果借用物理學里圓周運動或球面運動概念的話，其實可以分為兩個影響，第一個影響就是所謂的向心力，向心力實際上是完全由 WD 所提供的，它的大小就等于范數。

這個就意味著向心力是一個正比于球面半徑的力；第二個影響力是離心力，離心力是由于 gradience 始終是垂直于 Wt 方向的。所以它總是會傾向于把 Wt 的 norm 變大，可以大致的推算出離心力的大小。可以看出離心力是一個反比例關系，它的反比例是關于 Wt 的三次方。

公式中的 unit gradient，剛才已經介紹了它是跟范數沒有關系的量，故假設它約等于不變。直覺上來講，這個向心力和離心力應該是會達到一個平衡的。因為向心力的大小是正比于這個球面半徑的，離心率是反比關系的。這樣的話如果球面半徑過小，那么向心力就比較偏弱，離心力比偏強，所以球的半徑就會偏大。

但球門半徑大了以后，向心力又會變強，離心力會變弱。這樣它就會有一個平穩狀態，而當向心力和離心力已經達到平衡的時候，就應該滿足下圖中第一個等式關系。當這個等式關系成立以后，就可以去推導此時的 Angular update，推導公式如下圖第二個公式，

所以這里可以得到一個結論，當達到平穩狀態以后，角度更新量是約等于??，其中 ?? 是 wd 的系數，?? 是 learning rate，而這兩個都是人為手調的，跟網絡本身的形狀或者是它的 grandience 大小、數據集等都沒有關系。

所以這里面就凸顯一點，之前有很多文章討論說，這個球面動態可以等效為一個 manifold organization，即在球面上優化。但根據上述的一些粗略的推導就可以看出，實際上它們是不是等價的。

因為 manifold 在一個單位球面上的優化，它的每一步的更新量是不定的，如果用 constant learning rate 的話，一方面它的 learning rate 是 constant，另一方面它的 gradience 是不可控的，它的更新量也是不可控的。而且理論上來說如果你這個 manifold loss 如果小的話，你的這個更新量會越來趨近于 0，它就意味著它收斂到一個 local minimal 或 stationary point。

其實在這之前已經有很多文章在做相關工作了，他們都是認為前文所說的平穩狀態一定會出現，假設 Wt 的范數是 coverge 的情況下，得出相關的結果。如下圖所示：

最早是于 2017 年 NeurIPS, 由 Twan van Laarhoven 提出了 efficient learningrate 的概念，就是上文所說的 scale invariant 性質，如何去真正衡量有效更新量？在他的那個論文里面倒是提到了這個應該對于 SGD/SGDM 的性質都是成立的。

2018 年的這篇 NeurIPS 作者的結論比其他的都薄弱，但是與眾不同之處在于它假設沒有 wt 的 converge，只是單純的研究了 wt，wt+1 更新以后的結果，所以它的結果是非常的薄弱的，而且也只能適用于 SGD 形式。

2019 年的 NeurIPS，這篇文章實際上他本身做的是針對小 BN 提出了一個方法的文章，只不過他在討論里面專門有一小節，提了一下關于 BN 的一些 efficient learning rate 的現象，得到了類似的結果，不過在他的那個描述里面，只是把 Wt 放在一維圓上面去討論的，沒有推廣到高維上。

還有 2019 年的 ICLR 最新的一篇，這一篇它形式看上去比較的復雜一點，公式如上圖所示，這個是在 SGDM 里面成立的，它直接討論了 SGDM 的形式，同時包含了 SGD 的形式。當然其中是用了非常強的假設，關于他們的累計相對更新量的比值必須是各自為 converge 的情況下，才會有這樣的結論。

所以這里面就出現兩個問題，第一個問題如果 Wt 真的 converge 了嗎？大家都之前的討論的都是假設它 converge 了，但是它是否真的 converge 了？第二個問題是絕大多數情況下考慮的都是 SGD 形式，但是大家更多常用的是 SGDM 的形式，那么 SGD 它是否也有像 SGD 這樣的平穩狀態的情形。

主要定理

本文就是針對以上兩個問題，給出相應的解答。下圖是我們的主要定理，本文討論的是最常用的 heavy ball method 的 SGDM 的形式。

SGDM 的公式如下，當 α=0 的時候，它恰好就是純 SGD 形式。

下面是需要滿足的兩個 assumption 的情況。第一個 assumption 大致是在說 unit gradient，它平均表現會收斂到某一個值 L，但對 L 不做約束，它的相對誤差會是一個比較小的值。第二個就是 WD 系數和 learning rate 的乘積遠遠要小于 1，就是一個比較小的數，這個一般來說常用的神經網絡任務都是可以滿足。

最后得到這個結果說明了 Wt 的平均值會 coverge 一個固定的值，而這個固定的值一方面依賴于這兩個超參，另一方面依賴于 unit gradient 的一個大小。而 Angular update 就是角度更新量，則是會收斂到一個跟其他完全無關，只跟超參數 λ，η 有關的地方。

上圖是 SGD 的情形，相對來說比較好做一些，比較難的就是 SGDM 形式，它需要依賴額外的兩個 assumption，第一個 assumption 是 WD 的系數 λ 要小于某一個值，但一般來說 λ 本身就是特別小的。第二個 assumption 是關于第 T 次算出來的 gradience 和第 T 次的 momentum 的內積值要比較小，這是一個 technical 的一個 assumption，但是實際在實驗中它基本上都是滿足的，后面會展示到。

有了額外兩個 assumption 就可以得到以下結論，在 moment 的情況下，weight 的范數也會收斂到一個值，只不過這個值相對于原來的話，它是乘上 2 (1-α)，然后角度更新量的值則會是除以 (1+α）再開方，這里面是說明了這個 Angular update 它本身還是一個只跟超參有關的東西。

下面來介紹一下，從主要定理的結構中可以得到一些 Insight。主要列出其中三條：

第一條 insight 是：它完全解釋了為什么 scale-invariant 帶了 WD 的情況下是完全不會遇到 vanishing 和 exploding gradients 的問題，因為一般說 vanishing gradient 時它的 gradients 太小，結果會導致 learning rate 幾乎不更新，exploding gradients 的 gradients 太大，導致 learning rate 每次更新都過大，就跑偏了。

但是如果有了球面優化的性質的話，經過一段時間的迭代之后，它會自動的去調整自己的 gradients 和 weight 的相對大小。最后當它平穩之后就會自然的滿足 Angular update 下的情形，而 Angular update 實際上代表了真正的更新量，而這個更新量完全由超參決定，所以只要 gradients 不等于 0，然后訓練只要不會出現 NAN，這個球面優化總是可以讓你的這個訓練最后變得正常起來。

第二條 insight 是：有了 BN 和 WD,SGD 和 SGDM 是不可能被限制在一個 sharp local minimum 里面，這個就是現在常討論關于神經網絡的泛化問題時，總會提到一個 sharp/flap local minimum，原因在于這個神經網絡的本身它是一個非凸優化，而且它有很多很多的 local minimum，廣泛的認知是說比較 sharp 的，即窄而細長的 local minimum 一般來說是比較糟糕的。

然后 flap minimum，即相對來說地勢比較寬的會好一點。有了球形優化后，Angular update 是定義在球面上的一個 local minimum，當達到平穩狀態后 Angular update 始終是個 fix，同時它又是由超參決定的，所以它的更新量一般不會落入比它小的半徑內。這是一個不太精確的東西，所以本文只是將其作為一個 insight 的給出。

但是它從某種上意義上說明了一個問題，因為過去人們認為正常 SGD 或者 SGDM 不會落到 sharp local minimum，把這全部歸因為是隨機的影響，認為說它可以 escape sharp local minimum ，但實際上由于 SD 和 SGD 它可能根本就不會落下去，或者說它落下去，可能一下就跑出來了，不是一個高概率 escape 的結論。

第三條 inside 是解釋了為什么實際用 BN 和 WD 的時候，如果不做 learning rate decay，這個 loss 在下降到一定程度之后就不會再下降了。原因其實比較直觀了，就是因為如果我們不 decay learning rate，同時不縮小 WD 的系數，也不碰這個 moment 系數的話，那么它的 Angular update 就始終是這個值，不會更小，那就意味著你不可能落到小于這個半徑的坑里面。

這樣會出現一個現象，找到一個 flap minimal，在這個地方來回震蕩，一直落不下去。原因就是步子邁太大。而此時如果將 learning rate 減小，loss 便會收斂。

總結

以上是生活随笔為你收集整理的突破模糊定性分析，批归一化和权重衰减的球面优化机制的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：联想u盘软驱怎么用 &quot;
下一篇： BERT可以上几年级了？Seq2Seq“

编程问答

突破模糊定性分析，批归一化和权重衰减的球面优化机制

放縮不變性

主要定理

相關實驗結果

總結