2.3 指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
| 2.2 理解 mini-batch 梯度下降法 | 回到目錄 | 2.4 理解指數(shù)加權(quán)平均 |
指數(shù)加權(quán)平均 (Exponentially Weighted Averages)
我想向你展示幾個優(yōu)化算法,它們比梯度下降法快,要理解這些算法,你需要用到指數(shù)加權(quán)平均,在統(tǒng)計(jì)中也叫做指數(shù)加權(quán)移動平均,我們首先講這個,然后再來講更復(fù)雜的優(yōu)化算法。
雖然現(xiàn)在我生活在美國,實(shí)際上我生于英國倫敦。比如我這兒有去年倫敦的每日溫度,所以1月1號,溫度是40華氏度,相當(dāng)于4攝氏度。我知道世界上大部分地區(qū)使用攝氏度,但是美國使用華氏度。在1月2號是9攝氏度等等。在年中的時候,一年365天,年中就是說,大概180天的樣子,也就是5月末,溫度是60華氏度,也就是15攝氏度等等。夏季溫度轉(zhuǎn)暖,然后冬季降溫。
你用數(shù)據(jù)作圖,可以得到以下結(jié)果,起始日在1月份,這里是夏季初,這里是年末,相當(dāng)于12月末。
這里是1月1號,年中接近夏季的時候,隨后就是年末的數(shù)據(jù),看起來有些雜亂,如果要計(jì)算趨勢的話,也就是溫度的局部平均值,或者說移動平均值。
你要做的是,首先使 v0=0v_0=0v0?=0 ,每天,需要使用0.9的加權(quán)數(shù)之前的數(shù)值加上當(dāng)日溫度的0.1倍,即 v1=0.9v0+0.1θ1v_1=0.9v_0+0.1\theta_1v1?=0.9v0?+0.1θ1? ,所以這里是第一天的溫度值。
第二天,又可以獲得一個加權(quán)平均數(shù),0.9乘以之前的值加上當(dāng)日的溫度0.1倍,即 v2=0.9v1+0.1θ2v_2=0.9v_1+0.1\theta_2v2?=0.9v1?+0.1θ2? ,以此類推。
第二天值加上第三日數(shù)據(jù)的0.1,如此往下。大體公式就是某天的 vvv 等于前一天 vvv 值的0.9加上當(dāng)日溫度的0.1。
如此計(jì)算,然后用紅線作圖的話,便得到這樣的結(jié)果。
你得到了移動平均值,每日溫度的指數(shù)加權(quán)平均值。
看一下上一張幻燈片里的公式, vt=0.9vt?1+0.1θtv_t=0.9v_{t-1}+0.1\theta_tvt?=0.9vt?1?+0.1θt? ,我們把0.9這個常數(shù)變成 β\betaβ ,將之前的0.1變成 (1?β)(1-\beta)(1?β) ,即 vt=βvt?1+(1?β)θtv_t=\beta v_{t-1}+(1-\beta)\theta_tvt?=βvt?1?+(1?β)θt?
由于以后我們要考慮的原因,在計(jì)算時可視 vtv_tvt? 大概是 1(1?β)\frac 1{(1-\beta)}(1?β)1? 的每日溫度,如果 β\betaβ 是0.9,你會想,這是十天的平均值,也就是紅線部分。
我們來試試別的,將 β\betaβ 設(shè)置為接近1的一個值,比如0.98,計(jì)算 1(1?0.98)=50\frac1{(1-0.98)}=50(1?0.98)1?=50 ,這就是粗略平均了一下,過去50天的溫度,這時作圖可以得到綠線。
這個高值 β\betaβ 要注意幾點(diǎn),你得到的曲線要平坦一些,原因在于你多平均了幾天的溫度,所以這個曲線,波動更小,更加平坦,缺點(diǎn)是曲線進(jìn)一步右移,因?yàn)楝F(xiàn)在平均的溫度值更多,要平均更多的值,指數(shù)加權(quán)平均公式在溫度變化時,適應(yīng)地更緩慢一些,所以會出現(xiàn)一定延遲,因?yàn)楫?dāng) β=0.98\beta=0.98β=0.98 ,相當(dāng)于給前一天的值加了太多權(quán)重,只有0.02的權(quán)重給了當(dāng)日的值,所以溫度變化時,溫度上下起伏,當(dāng) β\betaβ 較大時,指數(shù)加權(quán)平均值適應(yīng)地更緩慢一些。
我們可以再換一個值試一試,如果 β\betaβ 是另一個極端值,比如說0.5,根據(jù)右邊的公式( 1(1?β)\frac1{(1-\beta)}(1?β)1? ),這是平均了兩天的溫度。
作圖運(yùn)行后得到黃線。
由于僅平均了兩天的溫度,平均的數(shù)據(jù)太少,所以得到的曲線有更多的噪聲,有可能出現(xiàn)異常值,但是這個曲線能夠更快適應(yīng)溫度變化。
所以指數(shù)加權(quán)平均數(shù)經(jīng)常被使用,再說一次,它在統(tǒng)計(jì)學(xué)中被稱為指數(shù)加權(quán)移動平均值,我們就簡稱為指數(shù)加權(quán)平均數(shù)。通過調(diào)整這個參數(shù)( β\betaβ ),或者說后面的算法學(xué)習(xí),你會發(fā)現(xiàn)這是一個很重要的參數(shù),可以取得稍微不同的效果,往往中間有某個值效果最好, β\betaβ 為中間值時得到的紅色曲線,比起綠線和黃線更好地平均了溫度。
現(xiàn)在你知道計(jì)算指數(shù)加權(quán)平均數(shù)的基本原理,下一個視頻中,我們再聊聊它的本質(zhì)作用。
課程PPT
| 2.2 理解 mini-batch 梯度下降法 | 回到目錄 | 2.4 理解指數(shù)加權(quán)平均 |
總結(jié)
以上是生活随笔為你收集整理的2.3 指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2.2 理解 Mini-batch 梯度
- 下一篇: 2.4 理解指数加权平均-深度学习第二课