李宏毅深度学习——梯度下降
?Loss function是function的function(function為自變量,線性回歸中w、b為自變量)
一開始離目標遠learning_rate的值要比較大,等到離目標近的時候調小learning_rate
?是導數,是所有之前步驟算出?的均方根(先求平方,再求均值,最后開根號)
?出現矛盾,分母的地方gradient越大步伐越小,分子的地方gradient越大步伐越大
一個參數的時候,最好的步伐和微分大小成正比
a和b比較,a的微分大,a距離最低點是比較遠(只考慮w1)
c和d比較,c的微分大,c距離最低點是比較遠(只考慮w2)
如果比較是跨參數的話,結論就不成立了。c對w2的微分值大,a對w1的微分值小,但是c離最低點更近
所以不僅要考慮一次微分,還要考慮二次微分
最好的step不僅要正比于一次微分,還要和二次微分成反比?
w1這張圖的二次微分小,w2這張圖的二次微分大,這樣就能解釋,c對w2的微分值大,a對w1的微分值小,但是c離最低點更近,因為還要除掉各自的二次微分。
adagrad并沒有直接計算二次微分(要花很長時間),adagrad是利用一次微分來估計二次微分
隨機梯度下降,加快速度
w1對y的影響比較小,所以對loss的影響比較小
w2對y的影響比較大,所以對loss的影響比較大
這對gradient descent有影響(沒直接往圓心走),隨意要去量綱
錯誤,update參數以后loss不一定會下降?
?
?
(u,v) 是一個向量
(delta(theta1),delta(theta2))也是一個向量
要求兩個向量的內集最小
顯然兩者成180度的時候,模模cos(theta)是最小的
前提是learning_rate一定要小,不然不成立
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的李宏毅深度学习——梯度下降的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李宏毅ML作业一
- 下一篇: 李宏毅深度学习——优化方法