Switchable Normalization
Switchable Normalization
BN 會對訓練過程產生更重要的影響:它使優化解空間更加平滑了,這種平滑使梯度更具有可預測性和穩定性,從而使訓練過程更快。
Minibatch 對 BN的影響最大,因為BN的均值和方差是在minibatch上統計的,minibatch越小,這些統計量的估計會帶來更大的噪聲,對模型訓練產生的過大正則化,從而影響模型的泛化能力。而LN,IN,GN在計算量時雖然和minibatch無關,卻由于缺乏正則化能力在大的minibatch時無法達到BN的精度(與BN不同,這些技術單獨使用,往往會導致較明顯的過擬合現象)。SN通過學習不同歸一化方法的相互作用,克服上述問題。
Minibatch越小,SN中BN的權重系數越小,IN和LN的權重系數則越大
Minibatch越大,SN中BN的權重系數越大,IN和LN的權重系數越小
(x,y)x是GPU的數目,y是每個GPU的樣本數
?
BN在計算量過程中會引入隨機噪聲,這些隨機噪聲為模型帶來正則化作用,該作用的強度與minibatch size成反比,直觀的說,由BN的均值和方差分別產生的正則化對模型訓練會產生不同的影響。計算樣本均值引入的噪聲要弱于估計樣本方差引入的噪聲(噪聲越大,正則化作用越強)。SN通過分別調節他們的權重,來增加或者減少模型的正則化作用,SN的自主選擇過程旨在抑制噪聲。
?
BN的作用隨著minibatch size的減少會有明顯的下降
BN會隨著batch size的提高而提高,但是BN大了引入噪聲小了,正則化作用弱了
懷疑網絡結構batch_size小了,正則化作用明顯,模型過擬合
?
總結
以上是生活随笔為你收集整理的Switchable Normalization的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html简单的音乐播放器
- 下一篇: echarts实时温度计湿度计