當(dāng)前位置：首頁 >

2.3 指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

發(fā)布時間：2025/4/5 59 豆豆

生活随笔收集整理的這篇文章主要介紹了 2.3 指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2.2 理解 mini-batch 梯度下降法

回到目錄

2.4 理解指數(shù)加權(quán)平均

指數(shù)加權(quán)平均 (Exponentially Weighted Averages)

我想向你展示幾個優(yōu)化算法，它們比梯度下降法快，要理解這些算法，你需要用到指數(shù)加權(quán)平均，在統(tǒng)計(jì)中也叫做指數(shù)加權(quán)移動平均，我們首先講這個，然后再來講更復(fù)雜的優(yōu)化算法。

雖然現(xiàn)在我生活在美國，實(shí)際上我生于英國倫敦。比如我這兒有去年倫敦的每日溫度，所以1月1號，溫度是40華氏度，相當(dāng)于4攝氏度。我知道世界上大部分地區(qū)使用攝氏度，但是美國使用華氏度。在1月2號是9攝氏度等等。在年中的時候，一年365天，年中就是說，大概180天的樣子，也就是5月末，溫度是60華氏度，也就是15攝氏度等等。夏季溫度轉(zhuǎn)暖，然后冬季降溫。

你用數(shù)據(jù)作圖，可以得到以下結(jié)果，起始日在1月份，這里是夏季初，這里是年末，相當(dāng)于12月末。

這里是1月1號，年中接近夏季的時候，隨后就是年末的數(shù)據(jù)，看起來有些雜亂，如果要計(jì)算趨勢的話，也就是溫度的局部平均值，或者說移動平均值。

你要做的是，首先使 $v_0=0$ ，每天，需要使用0.9的加權(quán)數(shù)之前的數(shù)值加上當(dāng)日溫度的0.1倍，即 $v1=0.9v0+0.1θ1v_1=0.9v_0+0.1\theta_1$ ，所以這里是第一天的溫度值。

第二天，又可以獲得一個加權(quán)平均數(shù)，0.9乘以之前的值加上當(dāng)日的溫度0.1倍，即 $v2=0.9v1+0.1θ2v_2=0.9v_1+0.1\theta_2$ ，以此類推。

第二天值加上第三日數(shù)據(jù)的0.1，如此往下。大體公式就是某天的 $v$ 等于前一天 $v$ 值的0.9加上當(dāng)日溫度的0.1。

如此計(jì)算，然后用紅線作圖的話，便得到這樣的結(jié)果。

你得到了移動平均值，每日溫度的指數(shù)加權(quán)平均值。

看一下上一張幻燈片里的公式， $vt=0.9vt?1+0.1θtv_t=0.9v_{t-1}+0.1\theta_t$ ，我們把0.9這個常數(shù)變成 $β\beta$ ，將之前的0.1變成 $(1?β)(1-\beta)$ ，即 $vt=βvt?1+(1?β)θtv_t=\beta v_{t-1}+(1-\beta)\theta_t$

由于以后我們要考慮的原因，在計(jì)算時可視 $v_t$ 大概是 $1(1?β)\frac 1{(1-\beta)}$ 的每日溫度，如果 $β\beta$ 是0.9，你會想，這是十天的平均值，也就是紅線部分。

我們來試試別的，將 $β\beta$ 設(shè)置為接近1的一個值，比如0.98，計(jì)算 $1(1?0.98)=50\frac1{(1-0.98)}=50$ ，這就是粗略平均了一下，過去50天的溫度，這時作圖可以得到綠線。

這個高值 $β\beta$ 要注意幾點(diǎn)，你得到的曲線要平坦一些，原因在于你多平均了幾天的溫度，所以這個曲線，波動更小，更加平坦，缺點(diǎn)是曲線進(jìn)一步右移，因?yàn)楝F(xiàn)在平均的溫度值更多，要平均更多的值，指數(shù)加權(quán)平均公式在溫度變化時，適應(yīng)地更緩慢一些，所以會出現(xiàn)一定延遲，因?yàn)楫?dāng) $β=0.98\beta=0.98$ ，相當(dāng)于給前一天的值加了太多權(quán)重，只有0.02的權(quán)重給了當(dāng)日的值，所以溫度變化時，溫度上下起伏，當(dāng) $β\beta$ 較大時，指數(shù)加權(quán)平均值適應(yīng)地更緩慢一些。

我們可以再換一個值試一試，如果 $β\beta$ 是另一個極端值，比如說0.5，根據(jù)右邊的公式（ $1(1?β)\frac1{(1-\beta)}$ ），這是平均了兩天的溫度。

作圖運(yùn)行后得到黃線。

由于僅平均了兩天的溫度，平均的數(shù)據(jù)太少，所以得到的曲線有更多的噪聲，有可能出現(xiàn)異常值，但是這個曲線能夠更快適應(yīng)溫度變化。

所以指數(shù)加權(quán)平均數(shù)經(jīng)常被使用，再說一次，它在統(tǒng)計(jì)學(xué)中被稱為指數(shù)加權(quán)移動平均值，我們就簡稱為指數(shù)加權(quán)平均數(shù)。通過調(diào)整這個參數(shù)（ $β\beta$ ），或者說后面的算法學(xué)習(xí)，你會發(fā)現(xiàn)這是一個很重要的參數(shù)，可以取得稍微不同的效果，往往中間有某個值效果最好， $β\beta$ 為中間值時得到的紅色曲線，比起綠線和黃線更好地平均了溫度。

現(xiàn)在你知道計(jì)算指數(shù)加權(quán)平均數(shù)的基本原理，下一個視頻中，我們再聊聊它的本質(zhì)作用。

課程PPT

2.2 理解 mini-batch 梯度下降法

回到目錄

2.4 理解指數(shù)加權(quán)平均

總結(jié)

以上是生活随笔為你收集整理的2.3 指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2.2 理解 Mini-batch 梯度
下一篇： 2.4 理解指数加权平均-深度学习第二课

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

2.3 指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

指數(shù)加權(quán)平均 (Exponentially Weighted Averages)

課程PPT

總結(jié)