當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

【深度学习】常用优化器总结

發(fā)布時間：2024/8/26 综合教程 32 生活家

生活随笔收集整理的這篇文章主要介紹了【深度学习】常用优化器总结小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在訓(xùn)練模型時，我們可以基于梯度使用不同的優(yōu)化器（optimizer，或者稱為“優(yōu)化算法”）來最小化損失函數(shù)。這篇文章對常用的優(yōu)化器進行了總結(jié)。

BGD

BGD 的全稱是 Batch Gradient Descent，中文名稱是批量梯度下降。顧名思義，BGD 根據(jù)整個訓(xùn)練集計算梯度進行梯度下降

[ heta = heta - etaDelta_{ heta}J( heta)
]

其中，(J( heta)) 是根據(jù)整個訓(xùn)練集計算出來的損失。

優(yōu)點

當(dāng)損失函數(shù)是凸函數(shù)（convex）時，BGD 能收斂到全局最優(yōu)；當(dāng)損失函數(shù)非凸（non-convex）時，BGD 能收斂到局部最優(yōu)；

缺點

每次都要根據(jù)全部的數(shù)據(jù)來計算梯度，速度會比較慢；
BGD 不能夠在線訓(xùn)練，也就是不能根據(jù)新數(shù)據(jù)來實時更新模型；

SGD

SGD 的全稱是 Stochastic Gradient Descent，中文名稱是隨機梯度下降。和 BGD 相反，SGD 每次只使用一個訓(xùn)練樣本來進行梯度更新：

[ heta = heta - etaDelta_{ heta}J( heta;x^{(i)};y^{(i)})
]

其中，(J( heta;x^{(i)};y^{(i)})) 是只根據(jù)樣本 ((x^{(i)};y^{(i)})) 計算出的損失。

優(yōu)點

SGD 每次只根據(jù)一個樣本計算梯度，速度較快；
SGD 可以根據(jù)新樣本實時地更新模型；

缺點

SGD 在優(yōu)化的過程中損失的震蕩會比較嚴重；

MBGD

MBGD 的全稱是 Mini-batch Gradient Descent，中文名稱是小批量梯度下降。MBGD 是 BGD 和 SGD 的折中。MBGD 每次使用包含 m 個樣本的小批量數(shù)據(jù)來計算梯度

[ heta = heta - etaDelta_{ heta}J( heta;x^{(i:i+m)};y^{(i:i+m)})
]

其中，(m) 為小批量的大小，范圍是 ([1, n])，(n) 為訓(xùn)練集的大小；(J( heta;x^{(i:i+m)};y^{(i:i+m)})) 是根據(jù)第 (i) 個樣本到第 (i+m) 個樣本計算出來的損失。
當(dāng) (m==1) 時，MBGD 變?yōu)?SGD；當(dāng) (m==n) 時，MBGD 變?yōu)?BGD。

優(yōu)點

收斂更加穩(wěn)定；
可以利用高度優(yōu)化的矩陣庫來加速計算過程；

缺點

選擇一個合適的學(xué)習(xí)率比較困難；
相同的學(xué)習(xí)率被應(yīng)用到了所有的參數(shù)，我們希望對出現(xiàn)頻率低的特征進行大一點的更新，所以我們希望對不同的參數(shù)應(yīng)用不同的學(xué)習(xí)率；
容易被困在鞍點（saddle point）；

上圖的紅點就是一個鞍點。上面 MBGD 的 3 個缺點也可以說是 SGD 和 BGD 的 3 個缺點。為了解決這 3 個缺點，研究人員提出了 Momentum、Adagrad、RMSprop、Adadelta、Adam 等優(yōu)化器。在這介紹這些優(yōu)化器之前，需要介紹一下指數(shù)加權(quán)平均（Exponentially Weighted Sum），因為這些改進的優(yōu)化器或多或少都用了它。

指數(shù)加權(quán)平均

假設(shè)用 ( heta_t) 表示一年中第 (t) 天的溫度，(tin[1,365])。我們以天為橫軸，以溫度為縱軸，可以得到下圖

如果我們想要獲得這些數(shù)據(jù)的局部平均或滑動平均，我們可以設(shè)置一個變量 (v_t)，(v_t) 的計算方法如下

[v_t = eta v_{t-1} + (1-eta) heta_t, t>1
]

當(dāng) (t==1) 時，我們令 (v_t=0)。這樣，(v_t) 就約等于第 t 天之前 (frac{1}{1-eta}) 天的平均溫度（局部平均）。例如，當(dāng) (eta=0.9) 時，(v_t) 就約等于第 (t) 天前 (frac{1}{1-0.9}=10) 天的平均溫度。我們計算出 (v_t) 可以得到下圖中的紅色曲線

可以看到，(v_t) 對原始數(shù)據(jù)做了平滑，降低了原始數(shù)據(jù)的震蕩程度。
當(dāng)我們將 (eta) 設(shè)為 0.98 并計算 (v_t)，可以得到下圖中的綠色曲線

偏差修正

當(dāng)我們將 (eta) 設(shè)為 0.98 并使用公式 (v_t = eta v_{t-1} + (1-eta) heta_t) 計算 (v_t) 并將其畫在坐標系中，我們得到的其實不是上圖中的綠色曲線，而是下圖中的紫色曲線

可以看到，紫色曲線在后半段和藍色曲線是重合的，前半段有一些偏差，而且紫色曲線的剛開始時非常接近于 0 的，原因是我們設(shè)置 (v_1=0)，所以剛開始的 (v_t) 會比較接近 0，也就不能代表前 (frac{1}{1-eta}) 天的平均溫度。為了修正這個偏差，我們對 (v_t) 將縮放為 (frac{v_t}{1-eta^t})，這樣 t 比較小時分母會是一個小于 1 的小數(shù)，能對 (v_t) 進行放大；隨著 (t) 的增大，分母會越來越接近 1，(frac{v_t}{1-eta^t}) 也就變成了 (v_t)。所以上圖中，紫色曲線和綠色曲線在后半段重合。

指數(shù)加權(quán)平均減小了原始數(shù)據(jù)的震蕩程度，能對原始數(shù)據(jù)起到平滑的效果。

Momentum

假設(shè)模型在時間 (t) 的梯度為 (Delta J( heta))，則 Momentum 的梯度更新方法如下

[v_t = eta v_{t-1} + (1-eta) Delta J( heta) \
heta = heta - alpha v_t
]

其中，(v_t) 就是模型前 (frac{1}{1-eta}) 步梯度的平均值，(eta) 通常設(shè)為 0.9，(alpha) 為學(xué)習(xí)率。

也可以換一種寫法，就是將 ((1-eta)) 這一項去掉

[v_t = eta v_{t-1} + alpha Delta J( heta) \
heta = heta - v_t
]

第一種寫法更容易理解，所以下面的公式都采用第一種寫法。

在上圖中，左圖是不使用 Momentum 的 SGD，而右圖是使用 Momentum 的 SGD。可以看到，Momentum 通過對前面一部分梯度的指數(shù)加權(quán)平均使得梯度下降的過程更加平滑，減少了震蕩，收斂也比普通的 SGD 更快。

NAG

NAG（Nesterov Accelerated Gradient） 對 Momentum 進行了輕微的修改

[v_t = eta v_{t-1} + (1-eta) Delta J( heta-eta v_{t-1}) \
heta = heta - alpha v_t
]

也就是，在進行梯度更新前，我們先看一下 Momentum 指向的位置，然后在 Momentum 指向的位置計算梯度并進行更新。如下圖

有很多優(yōu)化器的名稱中包含 Ada ，Ada 的含義是 Adaptive，代表“自適應(yīng)性的”。名稱中帶有 Ada 的優(yōu)化器一般意味著能夠自動適應(yīng)（調(diào)節(jié)）參數(shù)的學(xué)習(xí)率。

Adagrad

在我們訓(xùn)練模型的初期我們的學(xué)習(xí)率一般比較大，因為這時我們的位置離最優(yōu)點比較遠；當(dāng)訓(xùn)練快結(jié)束時，我們通常會降低學(xué)習(xí)率，因為訓(xùn)練快結(jié)束時我們離最優(yōu)點比較近，這時使用大的學(xué)習(xí)率可能會跳過最優(yōu)點。Adagrad 能使得參數(shù)的學(xué)習(xí)率在訓(xùn)練的過程中越來越小，具體計算方法如下：

[ heta = heta - frac{eta}{sqrt{sum_tg_t^2+epsilon}}g_t
]

其中，(g_t) 是模型在 (t) 時刻的梯度，(sum_tg_t^2) 是模型前 t 個時刻梯度的平方和，(epsilon) 防止分母為 0，一般將 (epsilon) 設(shè)為一個很小的數(shù)，例如 (10^{-8})。在訓(xùn)練的過程中，(sqrt{sum_tg_t^2+epsilon}) 會越來越大，(frac{eta}{sqrt{sum_tg_t^2+epsilon}}) 會越來越小，所以學(xué)習(xí)率也會越來越小。(eta) 通常設(shè)為 0.01。

優(yōu)點

自動調(diào)節(jié)參數(shù)的學(xué)習(xí)率；

缺點

學(xué)習(xí)率下降會比較快，可能造成學(xué)習(xí)提早停止；

Adadelta

Adadelta 對 Adagrad 做了輕微的修改，使其比 Adagrad 更加穩(wěn)定。Adadelta 的計算方法如下：

[ heta = heta - frac{eta}{sqrt{E[g^2]_t+epsilon}}g_t \
E[g_t^2] = eta E[g^2]_{t-1} + (1-eta) g_{t-1}^2
]

其中，(E[g^2]_t) 表示前 (t) 個梯度平方和的期望，也就是梯度平方和的指數(shù)加權(quán)平均。Adadelta 把 Adagrad 分母中的梯度平方和換成了梯度平方的指數(shù)加權(quán)平均，這使得 Adadelta 學(xué)習(xí)率的下降速度沒有 Adagrad 那么快。

RMSprop

RMSprop 的全稱是 Root Mean Squre propogation，也就是均方根（反向）傳播。RMSprop 可以看做是 Adadelta 的一個特例

[E[g^2]_t = eta E[g^2]_{t-1} + (1-eta) g_{t-1}^2
]

Adadelta 中使用了上式來計算 (E[g_t^2])。當(dāng)參數(shù) (eta=0.5) 時，(E[g_t^2]) 就變成了梯度平方和的平均數(shù)，再求根的話，就變成了 RMS，也就是

[RMS[g]_t = sqrt{E[g^2]_t+epsilon}
]

RMSprop 中參數(shù)的更新方法為

[ heta = heta - frac{eta}{RMS[g]_t}g_t \
]

Adam

Adam 的全稱是 Adaptive Moment Estimation，其可看作是 Momentum + RMSprop。Adam 使用梯度的指數(shù)加權(quán)平均（一階矩估計）和梯度平方的指數(shù)加權(quán)平均（二階矩估計）來動態(tài)地調(diào)整每個參數(shù)的學(xué)習(xí)率。

[m_t = eta m_{t-1} + (1-eta) g_t \
n_t = gamma n_{t-1} + (1-gamma) g_t^2
]

其中，(m_t、n_t) 分別是梯度的指數(shù)加權(quán)平均（一階矩估計）和梯度平方的指數(shù)加權(quán)平均（二階矩估計）。然后，對(m_t) 和 (n_t) 進行偏差修正

[hat m_t = frac{m_t}{1-eta^t} \
hat n_t = frac{n_t}{1-gamma^t}
]

(m_t、n_t) 分別是梯度的一階矩估計和二階矩估計，可以看做是對期望 (E[g]_t) 和 (E[g^2]_t) 的估計。通過偏差修正，(hat m_t) 和 (hat n_t) 可以看做是為期望的無偏估計。最后，梯度的更新方法為

[ heta = heta - frac{eta}{sqrt{hat n_t}+epsilon} hat m_t
]

在使用中，(eta) 通常設(shè)為 0.9，(gamma) 通常設(shè)為 0.999，(epsilon) 通常設(shè)為 (10^{-8})。

參考

1、ruder.io/optimizing-gradient-descent/
2、towardsdatascience.com/stochastic-gradient-descent-with-momentum-a84097641a5d
3、akyrillidis.github.io/notes/AdaDelta
4、zhuanlan.zhihu.com/p/22252270
5、jiqizhixin.com/graph/technologies/173c1ba6-0a13-45f6-9374-ec0389124832
6、https://www.cnblogs.com/guoyaohua/p/8542554.html
7、吳恩達《深度學(xué)習(xí)》課程：https://www.bilibili.com/video/BV1gb411j7Bs?p=60

總結(jié)

以上是生活随笔為你收集整理的【深度学习】常用优化器总结的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。