日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比

發布時間:2025/3/21 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
 隨機梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式對比、實現對比 標簽: 梯度下降最優化迭代 56374人閱讀 評論(26) 收藏 舉報 本文章已收錄于: 分類: 梯度下降(1) 作者同類文章X
    最優化(1) 作者同類文章X

      梯度下降(GD)是最小化風險函數、損失函數的一種常用方法,隨機梯度下降和批量梯度下降是兩種迭代求解思路,下面從公式和實現的角度對兩者進行分析,如有哪個方面寫的不對,希望網友糾正。


      下面的h(x)是要擬合的函數,J(theta)損失函數,theta是參數,要迭代求解的值,theta求解出來了那最終要擬合的函數h(theta)就出來了。其中m是訓練集的記錄條數,j是參數的個數。



      1、批量梯度下降的求解思路如下:

      (1)將J(theta)對theta求偏導,得到每個theta對應的的梯度

      ? ?

      (2)由于是要最小化風險函數,所以按每個參數theta的梯度負方向,來更新每個theta


      (3)從上面公式可以注意到,它得到的是一個全局最優解,但是每迭代一步,都要用到訓練集所有的數據,如果m很大,那么可想而知這種方法的迭代速度!!所以,這就引入了另外一種方法,隨機梯度下降。


      2、隨機梯度下降的求解思路如下:

      (1)上面的風險函數可以寫成如下這種形式,損失函數對應的是訓練集中每個樣本的粒度,而上面批量梯度下降對應的是所有的訓練樣本:


      (2)每個樣本的損失函數,對theta求偏導得到對應梯度,來更新theta

      (3)隨機梯度下降是通過每個樣本來迭代更新一次,如果樣本量很大的情況(例如幾十萬),那么可能只用其中幾萬條或者幾千條的樣本,就已經將theta迭代到最優解了,對比上面的批量梯度下降,迭代一次需要用到十幾萬訓練樣本,一次迭代不可能最優,如果迭代10次的話就需要遍歷訓練樣本10次。但是,SGD伴隨的一個問題是噪音較BGD要多,使得SGD并不是每次迭代都向著整體最優化方向。


      3、對于上面的linear regression問題,與批量梯度下降對比,隨機梯度下降求解的會是最優解嗎?

      (1)批量梯度下降---最小化所有訓練樣本的損失函數,使得最終求解的是全局的最優解,即求解的參數是使得風險函數最小。

      (2)隨機梯度下降---最小化每條樣本的損失函數,雖然不是每次迭代得到的損失函數都向著全局最優方向, 但是大的整體的方向是向全局最優解的,最終的結果往往是在全局最優解附近。


      4、梯度下降用來求最優解,哪些問題可以求得全局最優?哪些問題可能局部最優解?

      對于上面的linear regression問題,最優化問題對theta的分布是unimodal,即從圖形上面看只有一個peak,所以梯度下降最終求得的是全局最優解。然而對于multimodal的問題,因為存在多個peak值,很有可能梯度下降的最終結果是局部最優。


      5、隨機梯度和批量梯度的實現差別

      以前一篇博文中NMF實現為例,列出兩者的實現差別(注:其實對應Python的代碼要直觀的多,以后要練習多寫python!)

      [java] view plaincopyprint?
    • //?隨機梯度下降,更新參數??
    • public?void?updatePQ_stochastic(double?alpha,?double?beta)?{??
    • ????for?(int?i?=?0;?i?<?M;?i++)?{??
    • ????????ArrayList<Feature>?Ri?=?this.dataset.getDataAt(i).getAllFeature();??
    • ????????for?(Feature?Rij?:?Ri)?{??
    • ????????????//?eij=Rij.weight-PQ?for?updating?P?and?Q??
    • ????????????double?PQ?=?0;??
    • ????????????for?(int?k?=?0;?k?<?K;?k++)?{??
    • ????????????????PQ?+=?P[i][k]?*?Q[k][Rij.dim];??
    • ????????????}??
    • ????????????double?eij?=?Rij.weight?-?PQ;??
    • ??
    • ????????????//?update?Pik?and?Qkj??
    • ????????????for?(int?k?=?0;?k?<?K;?k++)?{??
    • ????????????????double?oldPik?=?P[i][k];??
    • ????????????????P[i][k]?+=?alpha??
    • ????????????????????????*?(2?*?eij?*?Q[k][Rij.dim]?-?beta?*?P[i][k]);??
    • ????????????????Q[k][Rij.dim]?+=?alpha??
    • ????????????????????????*?(2?*?eij?*?oldPik?-?beta?*?Q[k][Rij.dim]);??
    • ????????????}??
    • ????????}??
    • ????}??
    • }??
    • ??
    • //?批量梯度下降,更新參數??
    • public?void?updatePQ_batch(double?alpha,?double?beta)?{??
    • ??
    • ????for?(int?i?=?0;?i?<?M;?i++)?{??
    • ????????ArrayList<Feature>?Ri?=?this.dataset.getDataAt(i).getAllFeature();??
    • ??
    • ????????for?(Feature?Rij?:?Ri)?{??
    • ????????????//?Rij.error=Rij.weight-PQ?for?updating?P?and?Q??
    • ????????????double?PQ?=?0;??
    • ????????????for?(int?k?=?0;?k?<?K;?k++)?{??
    • ????????????????PQ?+=?P[i][k]?*?Q[k][Rij.dim];??
    • ????????????}??
    • ????????????Rij.error?=?Rij.weight?-?PQ;??
    • ????????}??
    • ????}??
    • ??
    • ????for?(int?i?=?0;?i?<?M;?i++)?{??
    • ????????ArrayList<Feature>?Ri?=?this.dataset.getDataAt(i).getAllFeature();??
    • ????????for?(Feature?Rij?:?Ri)?{??
    • ????????????for?(int?k?=?0;?k?<?K;?k++)?{??
    • ????????????????//?對參數更新的累積項??
    • ????????????????double?eq_sum?=?0;??
    • ????????????????double?ep_sum?=?0;??
    • ??
    • ????????????????for?(int?ki?=?0;?ki?<?M;?ki++)?{//?固定k和j之后,對所有i項加和??
    • ????????????????????ArrayList<Feature>?tmp?=?this.dataset.getDataAt(i).getAllFeature();??
    • ????????????????????for?(Feature?Rj?:?tmp)?{??
    • ????????????????????????if?(Rj.dim?==?Rij.dim)??
    • ????????????????????????????ep_sum?+=?P[ki][k]?*?Rj.error;??
    • ????????????????????}??
    • ????????????????}??
    • ????????????????for?(Feature?Rj?:?Ri)?{//?固定k和i之后,對多有j項加和??
    • ????????????????????eq_sum?+=?Rj.error?*?Q[k][Rj.dim];??
    • ????????????????}??
    • ??
    • ????????????????//?對參數更新??
    • ????????????????P[i][k]?+=?alpha?*?(2?*?eq_sum?-?beta?*?P[i][k]);??
    • ????????????????Q[k][Rij.dim]?+=?alpha?*?(2?*?ep_sum?-?beta?*?Q[k][Rij.dim]);??
    • ????????????}??
    • ????????}??
    • ????}??
    • }??
    • // 隨機梯度下降,更新參數public void updatePQ_stochastic(double alpha, double beta) {for (int i = 0; i < M; i++) {ArrayList<Feature> Ri = this.dataset.getDataAt(i).getAllFeature();for (Feature Rij : Ri) {// eij=Rij.weight-PQ for updating P and Qdouble PQ = 0;for (int k = 0; k < K; k++) {PQ += P[i][k] * Q[k][Rij.dim];}double eij = Rij.weight - PQ;// update Pik and Qkjfor (int k = 0; k < K; k++) {double oldPik = P[i][k];P[i][k] += alpha* (2 * eij * Q[k][Rij.dim] - beta * P[i][k]);Q[k][Rij.dim] += alpha* (2 * eij * oldPik - beta * Q[k][Rij.dim]);}}}}// 批量梯度下降,更新參數public void updatePQ_batch(double alpha, double beta) {for (int i = 0; i < M; i++) {ArrayList<Feature> Ri = this.dataset.getDataAt(i).getAllFeature();for (Feature Rij : Ri) {// Rij.error=Rij.weight-PQ for updating P and Qdouble PQ = 0;for (int k = 0; k < K; k++) {PQ += P[i][k] * Q[k][Rij.dim];}Rij.error = Rij.weight - PQ;}}for (int i = 0; i < M; i++) {ArrayList<Feature> Ri = this.dataset.getDataAt(i).getAllFeature();for (Feature Rij : Ri) {for (int k = 0; k < K; k++) {// 對參數更新的累積項double eq_sum = 0;double ep_sum = 0;for (int ki = 0; ki < M; ki++) {// 固定k和j之后,對所有i項加和ArrayList<Feature> tmp = this.dataset.getDataAt(i).getAllFeature();for (Feature Rj : tmp) {if (Rj.dim == Rij.dim)ep_sum += P[ki][k] * Rj.error;}}for (Feature Rj : Ri) {// 固定k和i之后,對多有j項加和eq_sum += Rj.error * Q[k][Rj.dim];}// 對參數更新P[i][k] += alpha * (2 * eq_sum - beta * P[i][k]);Q[k][Rij.dim] += alpha * (2 * ep_sum - beta * Q[k][Rij.dim]);}}}}

      總結

      以上是生活随笔為你收集整理的随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比的全部內容,希望文章能夠幫你解決所遇到的問題。

      如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。