神经网络中使用Batch Normalization 解决梯度问题
BN本質(zhì)上解決的是反向傳播過(guò)程中的梯度問(wèn)題。
詳細(xì)點(diǎn)說(shuō),反向傳播時(shí)經(jīng)過(guò)該層的梯度是要乘以該層的參數(shù)的,即前向有:
那么反向傳播時(shí)便有:
那么考慮從l層傳到k層的情況,有:
上面這個(gè) 便是問(wèn)題所在。因?yàn)榫W(wǎng)絡(luò)層很深,如果 大多小于1,那么傳到這里的時(shí)候梯度會(huì)變得很小比如 ;而如果 又大多大于1,那么傳到這里的時(shí)候又會(huì)有梯度爆炸問(wèn)題 比如 。BN所做的就是解決這個(gè)梯度傳播的問(wèn)題,因?yàn)锽N作用抹去了w的scale影響。
具體有:
() = ()
那么反向求導(dǎo)時(shí)便有了:
可以看到此時(shí)反向傳播乘以的數(shù)不再和 的尺度相關(guān),也就是說(shuō)盡管我們?cè)诟逻^(guò)程中改變了 的值,但是反向傳播的梯度卻不受影響。更進(jìn)一步:
即尺度較大的 將獲得一個(gè)較小的梯度,在同等的學(xué)習(xí)速率下其獲得的更新更少,這樣使得整體 的更新更加穩(wěn)健起來(lái)。
總結(jié)起來(lái)就是BN解決了反向傳播過(guò)程中的梯度問(wèn)題(梯度消失和爆炸),同時(shí)使得不同scale的 整體更新步調(diào)更一致。
?
轉(zhuǎn)載于:https://www.cnblogs.com/mengxiangtiankongfenwailan/p/9895117.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的神经网络中使用Batch Normalization 解决梯度问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 工业机器人智能发展:视觉和触觉感应简化
- 下一篇: 东芝打印机共享怎么设置_东芝2303am