日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

突破模糊定性分析,批归一化和权重衰减的球面优化机制

發布時間:2024/10/8 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 突破模糊定性分析,批归一化和权重衰减的球面优化机制 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文內容整理自 PaperWeekly 和 biendata 在 B 站組織的直播回顧,點擊文末閱讀原文即可跳轉至 B 站收看本次分享完整視頻錄像,如需嘉賓課件,請在?PaperWeekly?公眾號回復關鍵詞課件下載獲取下載鏈接。

作者簡介:萬若斯,現為曠視研究院基礎模型組的算法研究員。在北京大學數學科學學院取得應用數學學士學位,并在北京大學前沿交叉學院獲得數據科學碩士學位。主要研究方向是深度學習模型與訓練方法的理論基礎。

批歸一化(Batch Normalization,BN)和權重衰減(weight decay,WD)以其出色穩定的表現成為了當今各種深度學習模型的標準配置,但它們的理論機制,一直以來僅有模糊的定性分析。

本文將主要介紹 BN 和 WD 對深度神經網絡的訓練過程的共同作用的球面優化機制(Spherical Motion Dynamics, SMD)。基于球面優化機制的定量理論結果,不受限于模型的結構、數據集或任務類型,可以在諸如 ImageNet,COCO 等基于真實數據的復雜計算機視覺任務上得到完美驗證。


放縮不變性

首先回顧一下關于 batch normalization(以下簡稱 BN)的形式和性質。BN 是深度神經網絡技術里面最常用的標準方法之一,除了比較特殊的一些情形以外,幾乎所有的神經網絡如果訓練出現了問題,加個 BN 基本上都可以得到一些不錯的結果。BN 的主要形式如下(訓練階段):

如果一個網絡帶上 BN 會有什么樣的性質?本文將重點探討其中的一個性質,即 scale invariant property,中文翻譯為放縮不變性。

它的具體含義是,一般構建一個神經網絡,以經典網絡 ResNet 為例,它組成元件順序為,首先是 conv 層,接一個 BN 層,再經過一個 relu,下面又重復 conv、BN、relu,后面可能會接個 short cut。單就 conv 層本身的參數而言,由于它后面經過了一個 BN,所以它會有一個 scale invariant 性質。具體的數學定義如下:

給定任意一個正系數 K,如果其他的參數都不變,只對 conv 層的參數放大 K 倍,它的 loss 不會有任何變化。其實不只是 loss 不會有變化,如果做分類任務,分類的值相對大小也不會有任何變化。這個 scale invariant property 是由于 BN 在 conv 后面除以 variance 所導致的。

由于 scale invariant property 會有更進一步的性質,這里面以 lemma 1 的形式給出來了。主要有兩個性質,第一個是正交性,如果我們把 Weight(以下簡稱 Wt)看成是一個向量,在 Wt 上的梯度也看成一個向量,它們內積為 0,就是嚴格正交。

第二個是所謂的反比例關系,就是如果把梯度乘上 K 倍,它所對應的 gradience 方向和原來保持一致,但是它 gradience 方向的模長會是原來的 1/k。

下面來探討一下,這兩個性質對優化造成的影響。如果只考慮 SGD 的更新或者 GD 的更新,不考慮 Weight Decay(以下簡稱 WD)的話,那么就會有影響。

第一個影響是 Wt 的模長始終在增加。原因是一般 gradience 是乘上一個 learning rate, 然后去更新 Wt,那么就會形成一個直角三角形。然后新的 Wt 的模長是這個直角三角形的斜邊,它始終會大于原來的 Wt。而且每一次用 SGD 的更新,都會比原來的大,所以只要這個 gradience 不恰好等于 0,那么 Wt 的模長便單調遞增。

但是這個單調遞增會導致另外一個性質,即梯度的模長可能會因為 Wt 的增加而減少。梯度模長本身除了它自己的一些方向不變,然后得到的那個梯度以外,還跟這個 Wt 的模長成反比。

所以可以想象一下,假設初始化一個網絡,它的 loss 可能很大,需要進行優化。經過傳統的優化的理論,應該會找到一個 local minima,一般來說 local minima 是個 stationary point,它的 gradience 范數很小。

但是在帶有 BN 的情況下,如果不改變 Wt 的方向,只是無限的增大這個 Wt 的范數長度,最后得到的這個 gradience 它的范數仍然很小,就不能確定它是否是一個 stationary point,但可以肯定它不是一個 local minimal。

此時就會出現一個問題,似乎傳統的優化,在帶 BN 的網絡里面會出現一些奇怪的現象,而且也可以說明了一點,WD 是必要的。

再來探討一下,如果加了 WD 又會發生什么樣的事?假設 objective function 如下:

此時會有以下兩個結論,第一個結論是,由于 W 的 scale environment 性質,所以 W 的范數大小是不會影響到 loss 的大小,但是它的范數大小會影響到 L2 recognize part 的大小。因此,如果對 W 乘上任意一個 0~1 之間的一個系數,都可以得到 objective function,它會嚴格的比原來小。

這樣就有個直觀的理解,對于一個帶 BN 的網絡,在它的定義上面(注意:定義域是不包含 0 的),任何一個點都不是它的 local minimal。它附近總有一些點,或者值會比它更小。

這樣如果以收斂性的角度去看問題,或者說以 gradient flow,就是所謂的 learning rate 無窮小形成一個 gradient 流的情況去優化的狀況,就會出現一個很自然的現象,即 Wt 會無限的趨近于 0。

但是 Wt 趨近于 0 又會出現另外一個問題。objective function 這個梯度在 0 附近,不是一個 lipschitz 的梯度。這個條件其實在很多非凸優化里面都是一個非常常用的必要條件。所以大家會默認符合這個條件。

但實際上在最常用的帶 BN 和 WD 的網絡,它很可能不符合這個要求。原因在于在帶 BN 的網絡中,V=0 這個位置是一個所謂的奇點。舉例說明,lose function 的形式如下:

可以看到單就 loss 而言,它的 lipschitz 是非常規整的,它的最小解為 1。但是一旦加上了 BN 和 WD 之后,它的 lipschitz 是非常奇怪的。

直觀來講,這個收斂可能收斂到接近 0 的位置,但是這個 0 的位置又因為過于突兀的變化,有可能跑到其他的位置。所以這里面就展示了帶 BN 和 WD 的網絡,不能夠直接單純的把它作為 objective function 的一個部分,把它們 join 的去考慮怎么去對它們優化,形成了什么樣的性質。

因為如果這樣考慮,得到的很多最基本的 assumption 都可能是不滿足的。我們實際中我們還是用 objective,不需要什么精心調參,也可以得到不錯的結果,這是為什么呢?

單位梯度和角度更新量

在解釋這個問題之前,首先介紹一些基本概念。第一個概念是單位梯度(Unit gradient),考慮到 WtWt 的 gradient 的范數大小會受到 Wt 范數本身大小的影響,所以定義單位梯度公式如下:

這樣就可以把 Wt 的范數和 gradient 方向給它的影響各自區分開。

第二個概念是角度更新量(Angular update), 這個詞是來自于物理學中,球面運動的角速度的概念,就是圓周運動角速度概念。這里借用了這個概念,用它來衡量一次更新前后 Wt 和 Wt+1 之間的角度。具體數學公式如下:

這里均假設 Wt 為非 0,這樣定義的原因是去掉 Wt 的范數的影響,因為一般情況下,只要 Wt 方向固定,它的范數完全不會影響到深度學習網絡的性能表現。Angular update 是真正可以表示出單步更新內 weight 變化情況的量。

有了以上兩個概念就可以理解球面優化動態過程了,為了說明方便,在這里只討論了 SGD case,SGD 的一般更新法則如下圖的公式所示,通過示意圖可以看到,對于 wt 的范數的影響,如果借用物理學里圓周運動或球面運動概念的話,其實可以分為兩個影響,第一個影響就是所謂的向心力,向心力實際上是完全由 WD 所提供的,它的大小就等于范數。

這個就意味著向心力是一個正比于球面半徑的力;第二個影響力是離心力,離心力是由于 gradience 始終是垂直于 Wt 方向的。所以它總是會傾向于把 Wt 的 norm 變大,可以大致的推算出離心力的大小。可以看出離心力是一個反比例關系,它的反比例是關于 Wt 的三次方。

公式中的 unit gradient,剛才已經介紹了它是跟范數沒有關系的量,故假設它約等于不變。直覺上來講,這個向心力和離心力應該是會達到一個平衡的。因為向心力的大小是正比于這個球面半徑的,離心率是反比關系的。這樣的話如果球面半徑過小,那么向心力就比較偏弱,離心力比偏強,所以球的半徑就會偏大。

但球門半徑大了以后,向心力又會變強,離心力會變弱。這樣它就會有一個平穩狀態,而當向心力和離心力已經達到平衡的時候,就應該滿足下圖中第一個等式關系。當這個等式關系成立以后,就可以去推導此時的 Angular update,推導公式如下圖第二個公式,

所以這里可以得到一個結論,當達到平穩狀態以后,角度更新量是約等于??,其中 ?? 是 wd 的系數,?? 是 learning rate,而這兩個都是人為手調的,跟網絡本身的形狀或者是它的 grandience 大小、數據集等都沒有關系。

所以這里面就凸顯一點,之前有很多文章討論說,這個球面動態可以等效為一個 manifold organization,即在球面上優化。但根據上述的一些粗略的推導就可以看出,實際上它們是不是等價的。

因為 manifold 在一個單位球面上的優化,它的每一步的更新量是不定的,如果用 constant learning rate 的話,一方面它的 learning rate 是 constant,另一方面它的 gradience 是不可控的,它的更新量也是不可控的。而且理論上來說如果你這個 manifold loss 如果小的話,你的這個更新量會越來趨近于 0,它就意味著它收斂到一個 local minimal 或 stationary point。

其實在這之前已經有很多文章在做相關工作了,他們都是認為前文所說的平穩狀態一定會出現,假設 Wt 的范數是 coverge 的情況下,得出相關的結果。如下圖所示:

最早是于 2017 年 NeurIPS, 由 Twan van Laarhoven 提出了 efficient learningrate 的概念,就是上文所說的 scale invariant 性質,如何去真正衡量有效更新量?在他的那個論文里面倒是提到了這個應該對于 SGD/SGDM 的性質都是成立的。

2018 年的這篇 NeurIPS 作者的結論比其他的都薄弱,但是與眾不同之處在于它假設沒有 wt 的 converge,只是單純的研究了 wt,wt+1 更新以后的結果,所以它的結果是非常的薄弱的,而且也只能適用于 SGD 形式。

2019 年的 NeurIPS,這篇文章實際上他本身做的是針對小 BN 提出了一個方法的文章,只不過他在討論里面專門有一小節,提了一下關于 BN 的一些 efficient learning rate 的現象,得到了類似的結果,不過在他的那個描述里面, 只是把 Wt 放在一維圓上面去討論的,沒有推廣到高維上。

還有 2019 年的 ICLR 最新的一篇,這一篇它形式看上去比較的復雜一點,公式如上圖所示,這個是在 SGDM 里面成立的,它直接討論了 SGDM 的形式,同時包含了 SGD 的形式。當然其中是用了非常強的假設,關于他們的累計相對更新量的比值必須是各自為 converge 的情況下,才會有這樣的結論。

所以這里面就出現兩個問題,第一個問題如果 Wt 真的 converge 了嗎?大家都之前的討論的都是假設它 converge 了,但是它是否真的 converge 了?第二個問題是絕大多數情況下考慮的都是 SGD 形式,但是大家更多常用的是 SGDM 的形式,那么 SGD 它是否也有像 SGD 這樣的平穩狀態的情形。


主要定理

本文就是針對以上兩個問題,給出相應的解答。下圖是我們的主要定理,本文討論的是最常用的 heavy ball method 的 SGDM 的形式。

SGDM 的公式如下,當 α=0 的時候,它恰好就是純 SGD 形式。

下面是需要滿足的兩個 assumption 的情況。第一個 assumption 大致是在說 unit gradient,它平均表現會收斂到某一個值 L,但對 L 不做約束,它的相對誤差會是一個比較小的值。第二個就是 WD 系數和 learning rate 的乘積遠遠要小于 1,就是一個比較小的數,這個一般來說常用的神經網絡任務都是可以滿足。

最后得到這個結果說明了 Wt 的平均值會 coverge 一個固定的值,而這個固定的值一方面依賴于這兩個超參,另一方面依賴于 unit gradient 的一個大小。而 Angular update 就是角度更新量,則是會收斂到一個跟其他完全無關,只跟超參數 λ,η 有關的地方。

上圖是 SGD 的情形,相對來說比較好做一些,比較難的就是 SGDM 形式,它需要依賴額外的兩個 assumption,第一個 assumption 是 WD 的系數 λ 要小于某一個值,但一般來說 λ 本身就是特別小的。第二個 assumption 是關于第 T 次算出來的 gradience 和第 T 次的 momentum 的內積值要比較小,這是一個 technical 的一個 assumption,但是實際在實驗中它基本上都是滿足的,后面會展示到。

有了額外兩個 assumption 就可以得到以下結論,在 moment 的情況下,weight 的范數也會收斂到一個值,只不過這個值相對于原來的話,它是乘上 2 (1-α),然后角度更新量的值則會是除以 (1+α)再開方,這里面是說明了這個 Angular update 它本身還是一個只跟超參有關的東西。

下面來介紹一下,從主要定理的結構中可以得到一些 Insight。主要列出其中三條:

第一條 insight 是:它完全解釋了為什么 scale-invariant 帶了 WD 的情況下是完全不會遇到 vanishing 和 exploding gradients 的問題,因為一般說 vanishing gradient 時它的 gradients 太小,結果會導致 learning rate 幾乎不更新,exploding gradients 的 gradients 太大,導致 learning rate 每次更新都過大,就跑偏了。

但是如果有了球面優化的性質的話,經過一段時間的迭代之后,它會自動的去調整自己的 gradients 和 weight 的相對大小。最后當它平穩之后就會自然的滿足 Angular update 下的情形,而 Angular update 實際上代表了真正的更新量,而這個更新量完全由超參決定,所以只要 gradients 不等于 0,然后訓練只要不會出現 NAN,這個球面優化總是可以讓你的這個訓練最后變得正常起來。

第二條 insight 是:有了 BN 和 WD,SGD 和 SGDM 是不可能被限制在一個 sharp local minimum 里面,這個就是現在常討論關于神經網絡的泛化問題時,總會提到一個 sharp/flap local minimum,原因在于這個神經網絡的本身它是一個非凸優化,而且它有很多很多的 local minimum,廣泛的認知是說比較 sharp 的,即窄而細長的 local minimum 一般來說是比較糟糕的。

然后 flap minimum,即相對來說地勢比較寬的會好一點。有了球形優化后,Angular update 是定義在球面上的一個 local minimum,當達到平穩狀態后 Angular update 始終是個 fix,同時它又是由超參決定的,所以它的更新量一般不會落入比它小的半徑內。這是一個不太精確的東西,所以本文只是將其作為一個 insight 的給出。

但是它從某種上意義上說明了一個問題,因為過去人們認為正常 SGD 或者 SGDM 不會落到 sharp local minimum,把這全部歸因為是隨機的影響,認為說它可以 escape sharp local minimum ,但實際上由于 SD 和 SGD 它可能根本就不會落下去,或者說它落下去,可能一下就跑出來了,不是一個高概率 escape 的結論。

第三條 inside 是解釋了為什么實際用 BN 和 WD 的時候,如果不做 learning rate decay,這個 loss 在下降到一定程度之后就不會再下降了。原因其實比較直觀了,就是因為如果我們不 decay learning rate,同時不縮小 WD 的系數,也不碰這個 moment 系數的話,那么它的 Angular update 就始終是這個值,不會更小,那就意味著你不可能落到小于這個半徑的坑里面。

這樣會出現一個現象,找到一個 flap minimal,在這個地方來回震蕩,一直落不下去。原因就是步子邁太大。而此時如果將 learning rate 減小,loss 便會收斂。


相關實驗結果

以上是一些理論上的結果,下面來看一些實際的實驗結果。本文直接用了計算機視覺界(CV)分類任務最常用的 baseline:ImageNet 和它最標準的 train setting,同時進一步對比了 detection 任務中的一個經典模型 Mask RCNN 網絡和它的 train setting,在這種情況下,來驗證球面優化的性質。

先看上圖左邊分類任務模型,其中不同的顏色的實線代表了一個 resnet50 的 conv 層,因為 resnet50 所有的 conv 層后面都接 BN,所以所有的 conv 層它都有 scale-invariant 的性質,而且它加入了 WD。

這里面包含了所有 conv,它在訓練階段的 angular update 表示一次前后更新的值,而且為了顯示真實性,本文未對這個結果做任何的處理,這里面看到的就是它真實的 angular update,可以看到在第一個階段,有些層它的 value 很大,有些層 value 很小,但是他們的平均都始終是維持在這個理論值附件,而這個理論值就是利用它們實際的超參算出來的值。

這里面的 learning schedule 采用的是,每 30 個 epoch,60 個 epoch、80 個 epoch,learning rate 會除以 10,可以看到至少在第一個階段,它是比較符合的,第二個階段的后半期,也是比較符合的,不符合的是這里面有一點 drop,最后階段似乎是不符合的。

COCO 也是類似的,COCO 采取的是 4x,4x 大概 36 萬次迭代,DK 的發生在 30 萬次和 34 萬次,learning rate 同樣也是除以 10。可以看到至少在這個地方它是非常符合理論值,而且這里面的 gradience 也是用的 mask rcnn 里面接 BN 的 conv 層,計算出來的 angular update,也沒有做任何的處理,出來的結果似乎是在部分階段是吻合的非常好的,但是也在很多階段,比如說倒數兩個階段似乎吻合的是有問題的。

看上去好像不是吻合的那么好,但實際上這個地方也是可以做解釋的,原因就在于說這里做了一個 learning rate K,learning rate 除以了 10,但是根據上文推導的平衡公式,它在 unit 規點詞保持不變的情況下,wt 應該是滿足是跟根號??????的開 4 次方成正比的。

當我 learning rate 減少的時候,VDK 也會趨于減少。所以,除以 10 的時候,這個值如果打出來,會發現它其實恰好就等于里面平穩狀態是 1/10。因為 learning rate 除以 10,此時 WT 相當于破壞了在第一個 learning rate 階段的平穩狀態,但沒來得及于進入新的平穩狀態。

所以回復結果,其實是在達到新的平穩狀態的過程中。所以這個結果上面我后面會展示一張圖,WT 在這個結果中是在逐漸變小的。因為我的 learning rate 除以了 10 倍,WT 會除以根號 10 的開 4 次方,這是第一個解釋。


第二解釋就是可以估算大概每次 learning rate 直接除以了 K 以后,大概至少需要多少步才能達到一個新的平衡條件。?可以具體地算一下。

在 ImageNet 任務里面,這里面每一個 Epoch 可大概是 5000 步(我這選取的是 256,所以我的每一個 Epoch 是 5000 步)。α=0.9,λ=10 的 - 4 次方,???????等于 10 的 - 3 次方,K=10,learning rate=10,這時候可以算出它至少需要 57 萬步。

但是在實際的第三個階段,?只有大概 10 萬步迭代,所以說它還遠遠沒有回復到新的平穩狀態。就更不用說最后一個階段只有 5 萬步。但是最后一階段 learning rate 更小,所以它需要的迭代次數又是原來的 10 倍。

最后一個就是 500 萬步,所以就導致了實際上不是它不符,而是因為我這里面展示的是每個階段它應該有的平穩狀態的一個狀態,但是實際里面它還沒有進入到平穩狀態。所以考慮能不能夠去跳過 WT 變小的步驟,每當我做 learning rate decay 的時候,我就讓它立即進入到一個新的平穩狀態?答案是是可以的。


經過剛才推導,當 learning rate 除以 K 倍的時候,WT 的平穩狀態情況下,應該是除以 K 的開 4 次方,可以試著每次做 learning rate decay 除以 K 時,我就可以去除以這個值可以看一下它的效果如何。

上圖是 ImageNet 的實驗結果,就是 rescaling 的結果。每次做 learning rate decay 的時候,把 scale weight 除以 10 的開 4 次方,只做了這一件事。現在看到此時它們每一個階段的理論值和實際值都是完美符合的,而且這里面給出了藍線是標準,不做干涉的情況下的 weight 的一個層。

可以看到原來每次做 learning rate decay 的時候,這邊是緩緩下降的。Rescale 的時讓它立即移除于原來的根號 10 的 4 次方,當然它這里面還是在變動,但這個變動是來自于 unit gradient 的緩緩變動,比 Angular update 回復的 condition 要快,所以可以看到角度更新,它仍然是滿足這個理論值。

上述內容是是 ImageNet 實驗,COCO 也是一樣的,做 learning rate decay 的時候,只需要跟著去 decay weight,也可以達到這樣的效果,理論值和真實值是完美符合的。

除此以外還測試其他的一些網絡結構,比如說 MobileNet_v2 的 Performance,這里面的是沒有做 rescaling 的結果,可以看到它還是有差距,前文已經做了解釋,是正常現象。再比如說 Shufflenet_v2+,其中是有 SE 結構的,但是它對于那些具有放松不變性的 conv 層仍然具有這個性質,就說明這實際上確實是一個普遍的規律,而不是特殊情況。


前文定義里面提到的兩個 assumption做一次 empirical study。上圖是第一個 assumption ,unit gradient 接近于 converge,可以看到在實際的取得某一個層中,在同一個 learning rate stage 的情況下確實變化不大,可以看到它的上升的過程。

由于上升幅度非常的慢,而且迭代次數非常多,所以如果把它拉升來看,其實在某一個局部內都是接近于 converge,說明在 unit gradient 是滿足的。

第二個是關于內積的值和對應 GT 的范數。這個原理其實是有根據的,我 T-1 的 moment 是累積了前 7 次的 gradient 的向量,而我 GT 是取了 DT+1batch 的 sample,所以說這里 T+1 的 sample 是隨機的,跟前面的沒有任何關系,導致了它們之間某種程度上有一定的獨立性。

另一方面又是維度非常的高。獨立性和維度都非常好,就導致了 VT-1 和 GT 約等于是一個正交的關系,導致數值一直在零附近徘徊的。所以就從實驗上來講,這兩個結果也都是 ImageNet 的結果。

所以這一全面優化的理論所依賴的強假設是很少的,而且所依賴的稍微強一點假設又都是符合實際情況的,這讓優化的結果具有普適性,在一些哪怕最復雜的 CV 任務中也能得到驗證。

結尾部分我們看上圖的例子,?來看看 Spherical Motion Dynamics 究竟會給一些什么樣的啟發,這個例子是關于 linear-scaling principle的,是2017 年的何愷明團隊 random net 相關的一個說明性文章,總結出一個非常經典的調參方法:當 batch size 增大的時候,該怎么去調 learning rate。

他們給出的一個方法是,batch size 增大多少倍, learning rate 就增大多少倍,始終成正比。經過了無數的實踐證明這個方法是非常穩定的,基本上效果都還不錯的。

他們的 intuition 是來自于什么呢?假設我的 batch size 是 B,做如上圖 T 加 K 次的 WT 的迭代。相當于是 B 乘 K 個樣本,取梯度,然后累積。如果我的 batch size 是 KB 那是不是可以把它等效為,這里面是 K 次的 gradient,把它放到一次 gradient 里面去算它。

等效以后就發現 learning rate 似乎是原來的 K 倍了。但問題是在球面優化的 setting 下,實際的 update 的量實際上和 learning rate 是沒有關系的,是完全由超參所決定的。

上圖給出了兩個 setting,一個是 baseline b 都是 256,WT 和 WT+4,這里是 T+4,就是 4 次累積的角度更新量的變化情況。紅線是 batch size 乘了 4 倍以后,單步更新的角度變化情況。可以看到 linear-scaling principle 其實并沒有去滿足所謂的等效法則,它實際的更新量其實比大 batch 大太多了,上圖是 16 倍。

補充說明比較有意思的一點,可以看到,即使是 4 次累積,好像也是滿足于某一種平穩狀態的分布的。我做了推導和實驗,發現它確實應該有一些性質,但是并不是每一層都一樣,好像還是跟層與層之間的關系有關系,但是這個紅線它還是滿足球面優化的性質,公式經驗值和理論值是可以吻合的。

還是回到原來的話題,在 linear-scaling principle 的情況下,由于我的在同樣的訓練的 Epoch 數的情況下,我的 batch size 增大了,迭代數就減小了,所以我需要去增大我的 learning rate,去彌補我的減小的更新迭代次數所造成的訓練不充分的損失,所以要把 learning rate 調大。但可以看到,小 batch 比大 batch 訓練程度似乎少了太多,少了幾倍。

經驗上來講,linear-scaling principle 確實在 ImageNet 任務上適用范圍就是在 256 到 8k 左右都,掉點的次數都不多,但是一旦超過了 8k ,就會有非常顯著的掉點。?掉點可能很大一部分程度上就來自于 Spherical motion dynamics 的緣故,一方面,這兩個訓練的程度差得實在是太遠了,另一方面可能是因為迭代次數確實不夠,或者說 update 實在是太大了,導致它不收斂。

總結一下全文,首先本文的工作揭示了 Spherical motion dynamics 在帶 BN 和 WD 的 DNN 自然滿足的狀態。同時也展示了考慮 SMD 的影響是非常有必要的。其次從 SMB 中 得出了一個理論值,給出了關于角度更新量,同時這個理論值可以在真實的數據、復雜的數據中有效。SMD 同時可以給一些常見的、但又沒有很好理論解釋的實驗現象提供一些非常直觀的、本質的解釋。

文章最后審視了一些常用的 parameter method 或優化方法,比方說最簡單 SGDM 方法,會發現如果不考慮 SMD 的話,它的表現實驗上和理論上會非常不一樣,但是考慮 SMD 就會有很有趣的現象。無論是在使用還是設計新的方法,都可能需要有必要去考慮 SMD 的影響。

關于數據實戰派

數據實戰派希望用真實數據和行業實戰案例,幫助讀者提升業務能力,共建有趣的大數據社區。

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的突破模糊定性分析,批归一化和权重衰减的球面优化机制的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。