當(dāng)前位置：首頁 >

1.10 梯度消失与梯度爆炸-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

發(fā)布時間：2025/4/5 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 1.10 梯度消失与梯度爆炸-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.9 歸一化輸入

回到目錄

1.11 神經(jīng)網(wǎng)絡(luò)的權(quán)重初始化

梯度消失與梯度爆炸 (Vanishing/Expanding Gradients)

訓(xùn)練神經(jīng)網(wǎng)絡(luò)，尤其是深度神經(jīng)所面臨的一個問題就是梯度消失或梯度爆炸，也就是你訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候，導(dǎo)數(shù)或坡度有時會變得非常大，或者非常小，甚至于以指數(shù)方式變小，這加大了訓(xùn)練的難度。

這節(jié)課，你將會了解梯度消失或梯度爆炸的真正含義，以及如何更明智地選擇隨機初始化權(quán)重，從而避免這個問題。假設(shè)你正在訓(xùn)練這樣一個極深的神經(jīng)網(wǎng)絡(luò)，為了節(jié)約幻燈片上的空間，我畫的神經(jīng)網(wǎng)絡(luò)每層只有兩個隱藏單元，但它可能含有更多，但這個神經(jīng)網(wǎng)絡(luò)會有參數(shù) $w^{[1]}$ ， $w^{[2]}$ ， $w^{[3]}$ 等等，直到 $w^{[l]}$ ，為了簡單起見，假設(shè)我們使用激活函數(shù) $g (z) = z$ ，也就是線性激活函數(shù)，我們忽略 $b$ ，假設(shè) $b^{[l]}$ =0，如果那樣的話，輸出 $y=w[l]w[l?1]w[l?2]?w[3]w[2]w[1]xy=w^{[l]}w^{[l-1]}w^{[l-2]}\cdots w^{[3]}w^{[2]}w^{[1]}x$ ，如果你想考驗我的數(shù)學(xué)水平， $w^{[1]}x=z^{[1]}$ ，因為 $b = 0$ ，所以我想 $z^{[1]}=w^{[1]}x$ ， $a^{[1]}=g(z^{[1]})$ ，因為我們使用了一個線性激活函數(shù)，它等于 $z^{[1]}$ ，所以第一項 $w^{[1]}x=a^{[1]}$ ，通過推理，你會得出 $w^{[2]}w^{[1]}x=a^{[2]}$ ，因為 $a^{[2]}=g(z^{[2]})$ ，還等于 $g(w^{[2]}a^{[1]})$ ，可以用 $w^{[1]}x$ 替換 $a^{[1]}$ ，所以這一項就等于 $a^{[2]}$ ，這個就是 $a^{[3]}(w^{[3]}w^{[2]}w^{[1]}x)$ 。

所有這些矩陣數(shù)據(jù)傳遞的協(xié)議將給出 $y^\hat{y}$ 而不是 $y$ 的值。

假設(shè)每個權(quán)重矩陣 $w[l]=[1.5001.5]w^{[l]}=\left[\begin{matrix}1.5&0\\0&1.5\end{matrix}\right]$ ，從技術(shù)上來講，最后一項有不同維度，可能它就是余下的權(quán)重矩陣， $y=w[1][1.5001.5](L?1)xy=w^{[1]}\left[\begin{matrix}1.5&0\\0&1.5\end{matrix}\right]^{(L-1)}x$ ，因為我們假設(shè)所有矩陣都等于它，它是1.5倍的單位矩陣，最后的計算結(jié)果就是 $y^\hat{y}$ ，也就是等于 $1.5^{(L-1)}x$ 。如果對于一個深度神經(jīng)網(wǎng)絡(luò)來說 $L$ 值較大，那么 $y^\hat{y}$ 的值也會非常大，實際上它呈指數(shù)級增長的，它增長的比率是 $1.5^L$ ，因此對于一個深度神經(jīng)網(wǎng)絡(luò)， $y$ 的值將爆炸式增長。

相反的，如果權(quán)重是0.5， $w[l]=[0.5000.5]w^{[l]}=\left[\begin{matrix}0.5&0\\0&0.5\end{matrix}\right]$ ，它比1小，這項也就變成了 $0.5^L$ ，矩陣 $y=w[1][1.5001.5](L?1)xy=w^{[1]}\left[\begin{matrix}1.5&0\\0&1.5\end{matrix}\right]^{(L-1)}x$ ，再次忽略 $w^{[L]}$ ，因此每個矩陣都小于1，假設(shè) $x_1$ 和 $x_2$ 都是1，激活函數(shù)將變成 $12\frac12$ ， $12\frac12$ ， $14\frac14$ ， $14\frac14$ ， $18\frac18$ ， $18\frac18$ 等，直到最后一項變成 $12L\frac1{2^L}$ ，所以作為自定義函數(shù)，激活函數(shù)的值將以指數(shù)級下降，它是與網(wǎng)絡(luò)層數(shù)數(shù)量相關(guān)的函數(shù)，在深度網(wǎng)絡(luò)中，激活函數(shù)以指數(shù)級遞減。

我希望你得到的直觀理解是，權(quán)重 $w$ 只比1略大一點，或者說只是比單位矩陣大一點，深度神經(jīng)網(wǎng)絡(luò)的激活函數(shù)將爆炸式增長，如果 $w$ 比1略小一點，可能是 $[0.9000.9]\left[\begin{matrix}0.9&0\\0&0.9\end{matrix}\right]$ 。

在深度神經(jīng)網(wǎng)絡(luò)中，激活函數(shù)將以指數(shù)級遞減，雖然我只是討論了激活函數(shù)以與 $L$ 相關(guān)的指數(shù)級數(shù)增長或下降，它也適用于與層數(shù) $L$ 相關(guān)的導(dǎo)數(shù)或梯度函數(shù)，也是呈指數(shù)級增長或呈指數(shù)遞減。

對于當(dāng)前的神經(jīng)網(wǎng)絡(luò)，假設(shè) $L = 150$ ，最近Microsoft對152層神經(jīng)網(wǎng)絡(luò)的研究取得了很大進展，在這樣一個深度神經(jīng)網(wǎng)絡(luò)中，如果激活函數(shù)或梯度函數(shù)以與 $L$ 相關(guān)的指數(shù)增長或遞減，它們的值將會變得極大或極小，從而導(dǎo)致訓(xùn)練難度上升，尤其是梯度指數(shù)小于 $L$ 時，梯度下降算法的步長會非常非常小，梯度下降算法將花費很長時間來學(xué)習(xí)。

總結(jié)一下，我們講了深度神經(jīng)網(wǎng)絡(luò)是如何產(chǎn)生梯度消失或爆炸問題的，實際上，在很長一段時間內(nèi)，它曾是訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的阻力，雖然有一個不能徹底解決此問題的解決方案，但是已在如何選擇初始化權(quán)重問題上提供了很多幫助。

課程PPT

1.9 歸一化輸入

回到目錄

1.11 神經(jīng)網(wǎng)絡(luò)的權(quán)重初始化

總結(jié)

以上是生活随笔為你收集整理的1.10 梯度消失与梯度爆炸-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 1.9 归一化输入-深度学习第二课《改善
下一篇： 1.11 神经网络的权重初始化-深度学习

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

1.10 梯度消失与梯度爆炸-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

梯度消失與梯度爆炸 (Vanishing/Expanding Gradients)

課程PPT

總結(jié)