日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

1SGD、Momention原理

發(fā)布時(shí)間:2025/3/15 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 1SGD、Momention原理 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

(1)SGD為隨機(jī)梯度下降算法,每一次迭代計(jì)算數(shù)據(jù)集的小批次的梯度,然后對(duì)參數(shù)進(jìn)行更新。隨機(jī)梯度下降算法比較簡(jiǎn)單在這里不展開(kāi)說(shuō),關(guān)于隨機(jī)梯度下降算法公式的推導(dǎo)就是運(yùn)用鏈?zhǔn)角髮?dǎo)法則一頓求偏導(dǎo),使得數(shù)據(jù)預(yù)測(cè)值和真實(shí)值的差最小。

公式:

(2)參考了物理中動(dòng)量的概念,考慮到前幾次的梯度,但是前幾輪的梯度疊加在當(dāng)前計(jì)算中會(huì)有一定的衰減。可以使最優(yōu)解的曲線更加的平滑,其原理使移動(dòng)平均加權(quán)公式為(和c++中的動(dòng)態(tài)規(guī)劃有些相似,不同的是帶有權(quán)重):

其中β為權(quán)重,vt-1是前幾次的梯度,為當(dāng)前梯度。

β的選擇尤為的重要。在預(yù)測(cè)溫度的例子中,吳恩達(dá)老師令β=0.9 。使曲線要平坦一點(diǎn),這是因?yàn)槟闫骄藥滋斓臏囟?#xff0c;所以這個(gè)曲線波動(dòng)更小,更加平坦,缺點(diǎn)就是曲線會(huì)失去時(shí)效性。如果選擇的β值過(guò)小,平均的數(shù)據(jù)就會(huì)很少,得到的曲線會(huì)有更多的噪聲也就是(穩(wěn)定性差)更有可能出現(xiàn)異常值,但是趨勢(shì)曲線能夠更加適應(yīng)擬合你的原始數(shù)據(jù),也就是趨勢(shì)曲線的(時(shí)效性高)。

β是一個(gè)很重要的參數(shù),可以取得稍微不同的效果,往往中間某個(gè)值效果最好。

該方法和隨機(jī)梯度下降算法相比的優(yōu)勢(shì)是,由于引入動(dòng)量的原因,可以使梯度輕松的跳出偽最優(yōu)解。但是由于加入前期梯度的原因可能會(huì)導(dǎo)致前期的預(yù)測(cè)效果不好我們可以引入帶修正偏差的指數(shù)加權(quán)平均公式:

我們可以發(fā)現(xiàn)當(dāng)數(shù)據(jù)量比較大的時(shí)候即t比較大的時(shí)候,會(huì)出現(xiàn)vt‘=vt的現(xiàn)象。

參考資料:https://zhuanlan.zhihu.com/p/32335746

(3)AdaGrad算法

1)從AdaGrad算法中可以看出,隨著算法不斷迭代,r會(huì)越來(lái)越大,整體的學(xué)習(xí)率會(huì)越來(lái)越小。所以,一般來(lái)說(shuō)AdaGrad算法一開(kāi)始是激勵(lì)收斂,到了后面就慢慢變成懲罰收斂,速度越來(lái)越慢。

(2)在SGD中,隨著梯度的增大,我們的學(xué)習(xí)步長(zhǎng)應(yīng)該是增大的。但是在AdaGrad中,隨著梯度g的增大,我們的r也在逐漸的增大,且在梯度更新時(shí)r在分母上,也就是整個(gè)學(xué)習(xí)率是減少的,這是為什么呢?這是因?yàn)殡S著更新次數(shù)的增大,我們希望學(xué)習(xí)率越來(lái)越慢。因?yàn)槲覀冋J(rèn)為在學(xué)習(xí)率的最初階段,我們距離損失函數(shù)最優(yōu)解還很遠(yuǎn),隨著更新次數(shù)的增加,越來(lái)越接近最優(yōu)解,所以學(xué)習(xí)率也隨之變慢。
(3)經(jīng)驗(yàn)上已經(jīng)發(fā)現(xiàn),對(duì)于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型而言,從訓(xùn)練開(kāi)始時(shí)積累梯度平方會(huì)導(dǎo)致有效學(xué)習(xí)率過(guò)早和過(guò)量的減小。AdaGrade在某些深度學(xué)習(xí)模型上效果不錯(cuò),但不是全部。

優(yōu)勢(shì):

在數(shù)據(jù)分布稀疏的場(chǎng)景,能更好利用稀疏梯度的信息,比標(biāo)準(zhǔn)的SGD算法更有效地收斂。

缺點(diǎn):

主要缺陷來(lái)自分母項(xiàng)的對(duì)梯度平方不斷累積,隨之時(shí)間步地增加,分母項(xiàng)越來(lái)越大,最終導(dǎo)致學(xué)習(xí)率收縮到太小無(wú)法進(jìn)行有效更新
————————————————
版權(quán)聲明:本文為CSDN博主「bl128ve900」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/bl128ve900/article/details/98211689

?

?

?

總結(jié)

以上是生活随笔為你收集整理的1SGD、Momention原理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。