日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习知识总结系列-机器学习中的优化算法总结(1-4)

發(fā)布時(shí)間:2023/12/13 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习知识总结系列-机器学习中的优化算法总结(1-4) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

    • 1.梯度下降
      • 1.1批量梯度下降(BGD)
      • 1.2隨機(jī)梯度下降(SGD)
      • 1.3 小批量隨機(jī)梯度下降(MSGD)
      • 1.4 比較:
      • 1.5 動(dòng)量算法(momentum)
      • 1.6 Nestrov Momentum
    • 2. 自適應(yīng)方法
      • 2.1 自適應(yīng)學(xué)習(xí)率算法(AdaGrad)
      • 2.2 均方根反向傳播算法(RMSprop)
      • 2.3 Adadelta
      • 2.4 自適應(yīng)矩估計(jì)優(yōu)化算法(Adam)
    • 3.牛頓法
      • 3.1 牛頓法
      • 3.2 擬牛頓法
    • 總結(jié)

幾乎所有的的機(jī)器學(xué)習(xí)問題最終都將轉(zhuǎn)換為一個(gè)最優(yōu)化問題,而一般回轉(zhuǎn)換為最小化問題
傳統(tǒng)的解析方法在機(jī)器學(xué)習(xí)的優(yōu)化問題中常常不適用,通常使用的是迭代優(yōu)化的問題,需要確定兩個(gè)關(guān)鍵點(diǎn):1.下降的方向 2.確定下降的步長
參考博客

1.梯度下降

每次都沿著目標(biāo)函數(shù)的負(fù)梯度方向進(jìn)行下降,更新參數(shù)

1.1批量梯度下降(BGD)

BGD 采用整個(gè)訓(xùn)練集的數(shù)據(jù)來計(jì)算 cost function 對參數(shù)的梯度

1.2隨機(jī)梯度下降(SGD)

和批量梯度下降(BGD) 的一次用所有數(shù)據(jù)計(jì)算梯度相比,隨機(jī)梯度下降(SGD)每次更新時(shí)對每個(gè)樣本進(jìn)行梯度更新,
對于很大的數(shù)據(jù)集來說,可能會有相似的樣本,這樣 BGD 在計(jì)算梯度時(shí)會出現(xiàn)冗余, 而 SGD 一次只進(jìn)行一次更新,
就沒有冗余,而且比較快,并且可以新增樣本。

缺點(diǎn)
隨機(jī)梯度下降(SGD)因?yàn)楦卤容^頻繁,會造成 cost function 有嚴(yán)重的震蕩,此外隨機(jī)梯度下降(SGD)對噪聲比較敏感;批量梯度下降(BGD)可以收斂到局部極小值,當(dāng)然 隨機(jī)梯度下降(SGD)的震蕩可能會跳到更好的局部極小值處。;當(dāng)我們稍微減小 learning rate,隨機(jī)梯度下降(SGD)和批量梯度下降(BGD)的收斂性是一樣的。

1.3 小批量隨機(jī)梯度下降(MSGD)

MBGD 每一次利用一小批樣本,即 n 個(gè)樣本進(jìn)行計(jì)算, 這樣它可以降低參數(shù)更新時(shí)的方差,收斂更穩(wěn)定,

另一方面可以充分地利用深度學(xué)習(xí)庫中高度優(yōu)化的矩陣操作來進(jìn)行更有效的梯度計(jì)算。
和 SGD 的區(qū)別是每一次循環(huán)不是作用于每個(gè)樣本,而是具有 n 個(gè)樣本的Batch。

缺點(diǎn)

  • 1.選擇合適的學(xué)習(xí)率非常困難。太大會使得手?jǐn)坎▌?dòng)大,太小使得手?jǐn)克俣嚷?/li>
  • 2.所有的參數(shù)使用相同的學(xué)習(xí)率。對于不經(jīng)常出現(xiàn)的特征的參數(shù)希望更新快些,對于常常出現(xiàn)的特征則希望跟新慢一些
  • 3.sgd容易收斂到局部最優(yōu)解,并且在某些會受到鞍點(diǎn)影響;通過合適的初始化和step size設(shè)置下,鞍點(diǎn)影響可以降低。

minibatchSGD是梯度下降方法中較常用的方法,而且性能比其他兩種都要好一些。但是仍然存在很多的問題,于是就有后面的那些改進(jìn)的方法。

1.4 比較:

1.5 動(dòng)量算法(momentum)


1.6 Nestrov Momentum

2. 自適應(yīng)方法

2.1 自適應(yīng)學(xué)習(xí)率算法(AdaGrad)

2.2 均方根反向傳播算法(RMSprop)

2.3 Adadelta

2.4 自適應(yīng)矩估計(jì)優(yōu)化算法(Adam)


3.牛頓法

3.1 牛頓法


3.2 擬牛頓法

總結(jié)

總結(jié)

以上是生活随笔為你收集整理的机器学习知识总结系列-机器学习中的优化算法总结(1-4)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。