當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习知识总结系列-机器学习中的优化算法总结（1-4）

發(fā)布時(shí)間：2023/12/13 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习知识总结系列-机器学习中的优化算法总结（1-4）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

- 1.梯度下降
- - 1.1批量梯度下降(BGD)
  - 1.2隨機(jī)梯度下降（SGD）
  - 1.3 小批量隨機(jī)梯度下降（MSGD）
  - 1.4 比較：
  - 1.5 動(dòng)量算法（momentum）
  - 1.6 Nestrov Momentum
- 2. 自適應(yīng)方法
- - 2.1 自適應(yīng)學(xué)習(xí)率算法（AdaGrad）
  - 2.2 均方根反向傳播算法(RMSprop)
  - 2.3 Adadelta
  - 2.4 自適應(yīng)矩估計(jì)優(yōu)化算法(Adam)
- 3.牛頓法
- - 3.1 牛頓法
  - 3.2 擬牛頓法
- 總結(jié)

幾乎所有的的機(jī)器學(xué)習(xí)問題最終都將轉(zhuǎn)換為一個(gè)最優(yōu)化問題，而一般回轉(zhuǎn)換為最小化問題
傳統(tǒng)的解析方法在機(jī)器學(xué)習(xí)的優(yōu)化問題中常常不適用，通常使用的是迭代優(yōu)化的問題，需要確定兩個(gè)關(guān)鍵點(diǎn)：1.下降的方向 2.確定下降的步長
參考博客

1.梯度下降

每次都沿著目標(biāo)函數(shù)的負(fù)梯度方向進(jìn)行下降，更新參數(shù)

1.1批量梯度下降(BGD)

BGD 采用整個(gè)訓(xùn)練集的數(shù)據(jù)來計(jì)算 cost function 對參數(shù)的梯度

1.2隨機(jī)梯度下降（SGD）

和批量梯度下降(BGD) 的一次用所有數(shù)據(jù)計(jì)算梯度相比，隨機(jī)梯度下降(SGD)每次更新時(shí)對每個(gè)樣本進(jìn)行梯度更新，
對于很大的數(shù)據(jù)集來說，可能會有相似的樣本，這樣 BGD 在計(jì)算梯度時(shí)會出現(xiàn)冗余，而 SGD 一次只進(jìn)行一次更新，
就沒有冗余，而且比較快，并且可以新增樣本。

缺點(diǎn)
隨機(jī)梯度下降(SGD)因?yàn)楦卤容^頻繁，會造成 cost function 有嚴(yán)重的震蕩，此外隨機(jī)梯度下降(SGD)對噪聲比較敏感；批量梯度下降(BGD)可以收斂到局部極小值，當(dāng)然隨機(jī)梯度下降(SGD)的震蕩可能會跳到更好的局部極小值處。；當(dāng)我們稍微減小 learning rate，隨機(jī)梯度下降(SGD)和批量梯度下降(BGD)的收斂性是一樣的。

1.3 小批量隨機(jī)梯度下降（MSGD）

MBGD 每一次利用一小批樣本，即 n 個(gè)樣本進(jìn)行計(jì)算，這樣它可以降低參數(shù)更新時(shí)的方差，收斂更穩(wěn)定，

另一方面可以充分地利用深度學(xué)習(xí)庫中高度優(yōu)化的矩陣操作來進(jìn)行更有效的梯度計(jì)算。
和 SGD 的區(qū)別是每一次循環(huán)不是作用于每個(gè)樣本，而是具有 n 個(gè)樣本的Batch。

缺點(diǎn)

1.選擇合適的學(xué)習(xí)率非常困難。太大會使得手?jǐn)坎▌?dòng)大，太小使得手?jǐn)克俣嚷?/li>
2.所有的參數(shù)使用相同的學(xué)習(xí)率。對于不經(jīng)常出現(xiàn)的特征的參數(shù)希望更新快些，對于常常出現(xiàn)的特征則希望跟新慢一些
3.sgd容易收斂到局部最優(yōu)解，并且在某些會受到鞍點(diǎn)影響；通過合適的初始化和step size設(shè)置下，鞍點(diǎn)影響可以降低。

minibatchSGD是梯度下降方法中較常用的方法，而且性能比其他兩種都要好一些。但是仍然存在很多的問題，于是就有后面的那些改進(jìn)的方法。

1.4 比較：

1.5 動(dòng)量算法（momentum）

1.6 Nestrov Momentum

2. 自適應(yīng)方法

2.1 自適應(yīng)學(xué)習(xí)率算法（AdaGrad）

2.2 均方根反向傳播算法(RMSprop)

2.3 Adadelta

2.4 自適應(yīng)矩估計(jì)優(yōu)化算法(Adam)

3.牛頓法

3.1 牛頓法

3.2 擬牛頓法

總結(jié)

以上是生活随笔為你收集整理的机器学习知识总结系列-机器学习中的优化算法总结（1-4）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：用Python连接MySQL并进行CRU
下一篇：算法(27)-最大系列