當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

神经网络中使用Batch Normalization 解决梯度问题

發(fā)布時(shí)間：2023/12/10 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了神经网络中使用Batch Normalization 解决梯度问题小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

BN本質(zhì)上解決的是反向傳播過(guò)程中的梯度問(wèn)題。

詳細(xì)點(diǎn)說(shuō)，反向傳播時(shí)經(jīng)過(guò)該層的梯度是要乘以該層的參數(shù)的，即前向有：

那么反向傳播時(shí)便有：

那么考慮從l層傳到k層的情況，有：

上面這個(gè) 便是問(wèn)題所在。因?yàn)榫W(wǎng)絡(luò)層很深，如果大多小于1，那么傳到這里的時(shí)候梯度會(huì)變得很小比如；而如果又大多大于1，那么傳到這里的時(shí)候又會(huì)有梯度爆炸問(wèn)題比如。BN所做的就是解決這個(gè)梯度傳播的問(wèn)題，因?yàn)锽N作用抹去了w的scale影響。

具體有：

() = ()

那么反向求導(dǎo)時(shí)便有了：

可以看到此時(shí)反向傳播乘以的數(shù)不再和的尺度相關(guān)，也就是說(shuō)盡管我們?cè)诟逻^(guò)程中改變了的值，但是反向傳播的梯度卻不受影響。更進(jìn)一步：

即尺度較大的將獲得一個(gè)較小的梯度，在同等的學(xué)習(xí)速率下其獲得的更新更少，這樣使得整體的更新更加穩(wěn)健起來(lái)。

總結(jié)起來(lái)就是BN解決了反向傳播過(guò)程中的梯度問(wèn)題（梯度消失和爆炸），同時(shí)使得不同scale的整體更新步調(diào)更一致。

轉(zhuǎn)載于:https://www.cnblogs.com/mengxiangtiankongfenwailan/p/9895117.html

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的神经网络中使用Batch Normalization 解决梯度问题的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：工业机器人智能发展：视觉和触觉感应简化
下一篇：东芝打印机共享怎么设置_东芝2303am

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

神经网络中使用Batch Normalization 解决梯度问题

總結(jié)