當(dāng)前位置：首頁 >

随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比

發(fā)布時(shí)間：2025/3/21 47 豆豆

生活随笔收集整理的這篇文章主要介紹了随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

隨機(jī)梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式對(duì)比、實(shí)現(xiàn)對(duì)比標(biāo)簽：梯度下降最優(yōu)化迭代 2013-05-25 21:21 56374人閱讀評(píng)論(26) 收藏舉報(bào) 本文章已收錄于：分類：梯度下降（1）作者同類文章X

最優(yōu)化（1）作者同類文章X

版權(quán)聲明：本文為博主原創(chuàng)文章，未經(jīng)博主允許不得轉(zhuǎn)載。

梯度下降（GD）是最小化風(fēng)險(xiǎn)函數(shù)、損失函數(shù)的一種常用方法，隨機(jī)梯度下降和批量梯度下降是兩種迭代求解思路，下面從公式和實(shí)現(xiàn)的角度對(duì)兩者進(jìn)行分析，如有哪個(gè)方面寫的不對(duì)，希望網(wǎng)友糾正。

下面的h(x)是要擬合的函數(shù)，J(theta)損失函數(shù)，theta是參數(shù)，要迭代求解的值，theta求解出來了那最終要擬合的函數(shù)h(theta)就出來了。其中m是訓(xùn)練集的記錄條數(shù)，j是參數(shù)的個(gè)數(shù)。

1、批量梯度下降的求解思路如下：

（1）將J(theta)對(duì)theta求偏導(dǎo)，得到每個(gè)theta對(duì)應(yīng)的的梯度

? ?

（2）由于是要最小化風(fēng)險(xiǎn)函數(shù)，所以按每個(gè)參數(shù)theta的梯度負(fù)方向，來更新每個(gè)theta

（3）從上面公式可以注意到，它得到的是一個(gè)全局最優(yōu)解，但是每迭代一步，都要用到訓(xùn)練集所有的數(shù)據(jù)，如果m很大，那么可想而知這種方法的迭代速度！！所以，這就引入了另外一種方法，隨機(jī)梯度下降。

2、隨機(jī)梯度下降的求解思路如下：

（1）上面的風(fēng)險(xiǎn)函數(shù)可以寫成如下這種形式，損失函數(shù)對(duì)應(yīng)的是訓(xùn)練集中每個(gè)樣本的粒度，而上面批量梯度下降對(duì)應(yīng)的是所有的訓(xùn)練樣本：

（2）每個(gè)樣本的損失函數(shù)，對(duì)theta求偏導(dǎo)得到對(duì)應(yīng)梯度，來更新theta

（3）隨機(jī)梯度下降是通過每個(gè)樣本來迭代更新一次，如果樣本量很大的情況（例如幾十萬），那么可能只用其中幾萬條或者幾千條的樣本，就已經(jīng)將theta迭代到最優(yōu)解了，對(duì)比上面的批量梯度下降，迭代一次需要用到十幾萬訓(xùn)練樣本，一次迭代不可能最優(yōu)，如果迭代10次的話就需要遍歷訓(xùn)練樣本10次。但是，SGD伴隨的一個(gè)問題是噪音較BGD要多，使得SGD并不是每次迭代都向著整體最優(yōu)化方向。

3、對(duì)于上面的linear regression問題，與批量梯度下降對(duì)比，隨機(jī)梯度下降求解的會(huì)是最優(yōu)解嗎？

（1）批量梯度下降---最小化所有訓(xùn)練樣本的損失函數(shù)，使得最終求解的是全局的最優(yōu)解，即求解的參數(shù)是使得風(fēng)險(xiǎn)函數(shù)最小。

（2）隨機(jī)梯度下降---最小化每條樣本的損失函數(shù)，雖然不是每次迭代得到的損失函數(shù)都向著全局最優(yōu)方向，但是大的整體的方向是向全局最優(yōu)解的，最終的結(jié)果往往是在全局最優(yōu)解附近。

4、梯度下降用來求最優(yōu)解，哪些問題可以求得全局最優(yōu)？哪些問題可能局部最優(yōu)解？

對(duì)于上面的linear regression問題，最優(yōu)化問題對(duì)theta的分布是unimodal，即從圖形上面看只有一個(gè)peak，所以梯度下降最終求得的是全局最優(yōu)解。然而對(duì)于multimodal的問題，因?yàn)榇嬖诙鄠€(gè)peak值，很有可能梯度下降的最終結(jié)果是局部最優(yōu)。

5、隨機(jī)梯度和批量梯度的實(shí)現(xiàn)差別

以前一篇博文中NMF實(shí)現(xiàn)為例，列出兩者的實(shí)現(xiàn)差別（注：其實(shí)對(duì)應(yīng)Python的代碼要直觀的多，以后要練習(xí)多寫python！）

[java] view plaincopyprint?

//?隨機(jī)梯度下降，更新參數(shù)??

public?void?updatePQ_stochastic(double?alpha,?double?beta)?{??

????for?(int?i?=?0;?i?<?M;?i++)?{??

????????ArrayList<Feature>?Ri?=?this.dataset.getDataAt(i).getAllFeature();??

????????for?(Feature?Rij?:?Ri)?{??

????????????//?eij=Rij.weight-PQ?for?updating?P?and?Q??

????????????double?PQ?=?0;??

????????????for?(int?k?=?0;?k?<?K;?k++)?{??

????????????????PQ?+=?P[i][k]?*?Q[k][Rij.dim];??

????????????}??

????????????double?eij?=?Rij.weight?-?PQ;??

????????????//?update?Pik?and?Qkj??

????????????for?(int?k?=?0;?k?<?K;?k++)?{??

????????????????double?oldPik?=?P[i][k];??

????????????????P[i][k]?+=?alpha??

????????????????????????*?(2?*?eij?*?Q[k][Rij.dim]?-?beta?*?P[i][k]);??

????????????????Q[k][Rij.dim]?+=?alpha??

????????????????????????*?(2?*?eij?*?oldPik?-?beta?*?Q[k][Rij.dim]);??

????????????}??

????????}??

????}??

}??

//?批量梯度下降，更新參數(shù)??

public?void?updatePQ_batch(double?alpha,?double?beta)?{??

????for?(int?i?=?0;?i?<?M;?i++)?{??

????????ArrayList<Feature>?Ri?=?this.dataset.getDataAt(i).getAllFeature();??

????????for?(Feature?Rij?:?Ri)?{??

????????????//?Rij.error=Rij.weight-PQ?for?updating?P?and?Q??

????????????double?PQ?=?0;??

????????????for?(int?k?=?0;?k?<?K;?k++)?{??

????????????????PQ?+=?P[i][k]?*?Q[k][Rij.dim];??

????????????}??

????????????Rij.error?=?Rij.weight?-?PQ;??

????????}??

????}??

????for?(int?i?=?0;?i?<?M;?i++)?{??

????????ArrayList<Feature>?Ri?=?this.dataset.getDataAt(i).getAllFeature();??

????????for?(Feature?Rij?:?Ri)?{??

????????????for?(int?k?=?0;?k?<?K;?k++)?{??

????????????????//?對(duì)參數(shù)更新的累積項(xiàng)??

????????????????double?eq_sum?=?0;??

????????????????double?ep_sum?=?0;??

????????????????for?(int?ki?=?0;?ki?<?M;?ki++)?{//?固定k和j之后,對(duì)所有i項(xiàng)加和??

????????????????????ArrayList<Feature>?tmp?=?this.dataset.getDataAt(i).getAllFeature();??

????????????????????for?(Feature?Rj?:?tmp)?{??

????????????????????????if?(Rj.dim?==?Rij.dim)??

????????????????????????????ep_sum?+=?P[ki][k]?*?Rj.error;??

????????????????????}??

????????????????}??

????????????????for?(Feature?Rj?:?Ri)?{//?固定k和i之后,對(duì)多有j項(xiàng)加和??

????????????????????eq_sum?+=?Rj.error?*?Q[k][Rj.dim];??

????????????????}??

????????????????//?對(duì)參數(shù)更新??

????????????????P[i][k]?+=?alpha?*?(2?*?eq_sum?-?beta?*?P[i][k]);??

????????????????Q[k][Rij.dim]?+=?alpha?*?(2?*?ep_sum?-?beta?*?Q[k][Rij.dim]);??

????????????}??

????????}??

????}??

}??

// 隨機(jī)梯度下降，更新參數(shù)public void updatePQ_stochastic(double alpha, double beta) {for (int i = 0; i < M; i++) {ArrayList<Feature> Ri = this.dataset.getDataAt(i).getAllFeature();for (Feature Rij : Ri) {// eij=Rij.weight-PQ for updating P and Qdouble PQ = 0;for (int k = 0; k < K; k++) {PQ += P[i][k] * Q[k][Rij.dim];}double eij = Rij.weight - PQ;// update Pik and Qkjfor (int k = 0; k < K; k++) {double oldPik = P[i][k];P[i][k] += alpha* (2 * eij * Q[k][Rij.dim] - beta * P[i][k]);Q[k][Rij.dim] += alpha* (2 * eij * oldPik - beta * Q[k][Rij.dim]);}}}}// 批量梯度下降，更新參數(shù)public void updatePQ_batch(double alpha, double beta) {for (int i = 0; i < M; i++) {ArrayList<Feature> Ri = this.dataset.getDataAt(i).getAllFeature();for (Feature Rij : Ri) {// Rij.error=Rij.weight-PQ for updating P and Qdouble PQ = 0;for (int k = 0; k < K; k++) {PQ += P[i][k] * Q[k][Rij.dim];}Rij.error = Rij.weight - PQ;}}for (int i = 0; i < M; i++) {ArrayList<Feature> Ri = this.dataset.getDataAt(i).getAllFeature();for (Feature Rij : Ri) {for (int k = 0; k < K; k++) {// 對(duì)參數(shù)更新的累積項(xiàng)double eq_sum = 0;double ep_sum = 0;for (int ki = 0; ki < M; ki++) {// 固定k和j之后,對(duì)所有i項(xiàng)加和ArrayList<Feature> tmp = this.dataset.getDataAt(i).getAllFeature();for (Feature Rj : tmp) {if (Rj.dim == Rij.dim)ep_sum += P[ki][k] * Rj.error;}}for (Feature Rj : Ri) {// 固定k和i之后,對(duì)多有j項(xiàng)加和eq_sum += Rj.error * Q[k][Rj.dim];}// 對(duì)參數(shù)更新P[i][k] += alpha * (2 * eq_sum - beta * P[i][k]);Q[k][Rij.dim] += alpha * (2 * ep_sum - beta * Q[k][Rij.dim]);}}}}

總結(jié)

以上是生活随笔為你收集整理的随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Uber获土豪沙特35亿美元投资不过别
下一篇：招聘行业的经验

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

随机梯度下降（Stochastic gradient descent）和 批量梯度下降（Batch gradient descent ）的公式对比、实现对比

總結(jié)

随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比