logistic模型原理与推导过程分析(3)
附錄:迭代公式向量化
????????θ相關的迭代公式為:
?
????????如果按照此公式操作的話,每計算一個θ需要循環(huán)m次。為此,我們需要將迭代公式進行向量化。
首先我們將樣本矩陣表示如下:
將要求的θ也表示成矩陣的形式:
將x·θ的乘積記為A,有:
將hθ(x)?y記為E:
由上面的式子可以看出,g(A)的參數(shù)是一個m*1的矩陣,或者說是一個列向量。如果我們設計函數(shù)g的時候,支持傳入一個列向量,并返回一個列向量,則hθ(x)?y可以一次計算得到結果。
附錄2:批量梯度下降BGD與隨機梯度SGD下降
?對于迭代公式
最大的好處就是形式簡單明了,直接將樣本矩陣與殘差矩陣帶入迭代即可。而且這種方式是將所有的訓練樣本代入,最終所求得的解也是全局最優(yōu)解,求解出來的參數(shù)將使損失函數(shù)最小。如果將所有樣本矩陣帶入進行計算,這就是所謂的批量梯度下降(BGD)。
????????但在實際應用場景中,最大的問題就是樣本矩陣大到放不進內(nèi)存,導致進行一輪迭代需要的運算時間非常長,這個時候,批量梯度下降就不是那么好用了。這個時候,我們可以采用考慮隨機梯度下降(SGD)。
????????BGD是一次訓練帶入所有樣本,SGD則是每來一次樣本進行一次計算:
????????????????????????????????????????????????????????????????i表示是第i個樣本,j表示樣本第j個維度。
????????SGD是通過每個樣本來迭代更新。如果樣本的數(shù)量很多,有可能才迭代了一小部分樣本,就已經(jīng)得到了θ的解。所以SGD的收斂速度可能比BGD要快,而且運算量小。但是SGD的問題是每次迭代并不是全局最優(yōu)解的方向,尤其是遇到噪聲數(shù)據(jù),影響會比較大。有的時候SGD在最優(yōu)解附近會存在比較明顯的鋸齒震蕩現(xiàn)象,即損失函數(shù)的值會在最優(yōu)解附近上下震蕩一段時間才最終收斂。
?
---------------------------------------------------------------------------------------------------------
連載。。。。
logistic模型原理與推導過程分析(1)_LiBiGor的博客-CSDN博客
https://blog.csdn.net/qq_39237205/article/details/121031296
logistic模型原理與推導過程分析(2)_LiBiGor的博客-CSDN博客
https://blog.csdn.net/qq_39237205/article/details/121031899
logistic模型原理與推導過程分析(2)_LiBiGor的博客-CSDN博客
https://blog.csdn.net/qq_39237205/article/details/121031899
總結
以上是生活随笔為你收集整理的logistic模型原理与推导过程分析(3)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 聚类(Clustering): K-me
- 下一篇: 机械厂html5手机模板,营销型机械消费