2.2.4 RMSprop
生活随笔
收集整理的這篇文章主要介紹了
2.2.4 RMSprop
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
RMSprop
這個(gè)算法的全稱(chēng)是root mean square prop.下面我們來(lái)談一下他是如何工作的。
如圖所示,你想減緩b方向的學(xué)習(xí)率,然后加速w方向的學(xué)習(xí)率。這里,所不同的是我們使用
Sdw=βSdw+(1?β)dw2Sdw=βSdw+(1?β)dw2
使用微分平方的加權(quán)平均數(shù)。
另外一個(gè)不同是最后w更新學(xué)習(xí)率的時(shí)候變得不同了。
我們來(lái)解釋一下這個(gè)原理。我們希望dw要比較小,這樣最后w的變化就會(huì)快。同時(shí),我們也希望db要比較大,這樣最后b的變化就不會(huì)那么快。我們從batch的變化圖中的確可以看出,db變化是比較大的而dw相對(duì)比較小。因?yàn)樵诳v軸上,也就是b方向上函數(shù)傾斜程度更大一些。
所以最后RMSprop的變化情況就如同圖中綠色線條的樣子,這樣,我們就可以選擇更大的學(xué)習(xí)率,加快學(xué)習(xí)進(jìn)度。
對(duì)于更高維的空間也是一樣的道理,RMSporp的作用就是讓那些抖動(dòng)十分劇烈的部分變得平緩一些。
另外在實(shí)際情況中為了不讓分母為0,所以我們加上一個(gè)十分十分小的數(shù)εε,這個(gè)數(shù)具體是多少?zèng)]有關(guān)系,它的作用是保證整體的穩(wěn)定性。
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專(zhuān)家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的2.2.4 RMSprop的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 2.2.3 动量梯度下降法
- 下一篇: 2.2.5 Adam优化算法