logistic模型原理与推导过程分析(3)
附錄:迭代公式向量化
????????θ相關(guān)的迭代公式為:
?
????????如果按照此公式操作的話,每計(jì)算一個(gè)θ需要循環(huán)m次。為此,我們需要將迭代公式進(jìn)行向量化。
首先我們將樣本矩陣表示如下:
將要求的θ也表示成矩陣的形式:
將x·θ的乘積記為A,有:
將hθ(x)?y記為E:
由上面的式子可以看出,g(A)的參數(shù)是一個(gè)m*1的矩陣,或者說是一個(gè)列向量。如果我們?cè)O(shè)計(jì)函數(shù)g的時(shí)候,支持傳入一個(gè)列向量,并返回一個(gè)列向量,則hθ(x)?y可以一次計(jì)算得到結(jié)果。
附錄2:批量梯度下降BGD與隨機(jī)梯度SGD下降
?對(duì)于迭代公式
最大的好處就是形式簡(jiǎn)單明了,直接將樣本矩陣與殘差矩陣帶入迭代即可。而且這種方式是將所有的訓(xùn)練樣本代入,最終所求得的解也是全局最優(yōu)解,求解出來的參數(shù)將使損失函數(shù)最小。如果將所有樣本矩陣帶入進(jìn)行計(jì)算,這就是所謂的批量梯度下降(BGD)。
????????但在實(shí)際應(yīng)用場(chǎng)景中,最大的問題就是樣本矩陣大到放不進(jìn)內(nèi)存,導(dǎo)致進(jìn)行一輪迭代需要的運(yùn)算時(shí)間非常長(zhǎng),這個(gè)時(shí)候,批量梯度下降就不是那么好用了。這個(gè)時(shí)候,我們可以采用考慮隨機(jī)梯度下降(SGD)。
????????BGD是一次訓(xùn)練帶入所有樣本,SGD則是每來一次樣本進(jìn)行一次計(jì)算:
????????????????????????????????????????????????????????????????i表示是第i個(gè)樣本,j表示樣本第j個(gè)維度。
????????SGD是通過每個(gè)樣本來迭代更新。如果樣本的數(shù)量很多,有可能才迭代了一小部分樣本,就已經(jīng)得到了θ的解。所以SGD的收斂速度可能比BGD要快,而且運(yùn)算量小。但是SGD的問題是每次迭代并不是全局最優(yōu)解的方向,尤其是遇到噪聲數(shù)據(jù),影響會(huì)比較大。有的時(shí)候SGD在最優(yōu)解附近會(huì)存在比較明顯的鋸齒震蕩現(xiàn)象,即損失函數(shù)的值會(huì)在最優(yōu)解附近上下震蕩一段時(shí)間才最終收斂。
?
---------------------------------------------------------------------------------------------------------
連載。。。。
logistic模型原理與推導(dǎo)過程分析(1)_LiBiGor的博客-CSDN博客
https://blog.csdn.net/qq_39237205/article/details/121031296
logistic模型原理與推導(dǎo)過程分析(2)_LiBiGor的博客-CSDN博客
https://blog.csdn.net/qq_39237205/article/details/121031899
logistic模型原理與推導(dǎo)過程分析(2)_LiBiGor的博客-CSDN博客
https://blog.csdn.net/qq_39237205/article/details/121031899
總結(jié)
以上是生活随笔為你收集整理的logistic模型原理与推导过程分析(3)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 聚类(Clustering): K-me
- 下一篇: 机械厂html5手机模板,营销型机械消费