當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

李宏毅深度学习——梯度下降

發布時間：2025/3/21 pytorch 56 豆豆

生活随笔收集整理的這篇文章主要介紹了李宏毅深度学习——梯度下降小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?Loss function是function的function（function為自變量，線性回歸中w、b為自變量）

一開始離目標遠learning_rate的值要比較大，等到離目標近的時候調小learning_rate

?是導數，是所有之前步驟算出?的均方根（先求平方，再求均值，最后開根號）

?出現矛盾，分母的地方gradient越大步伐越小，分子的地方gradient越大步伐越大

一個參數的時候，最好的步伐和微分大小成正比

a和b比較，a的微分大，a距離最低點是比較遠（只考慮w1）

c和d比較，c的微分大，c距離最低點是比較遠（只考慮w2）

如果比較是跨參數的話，結論就不成立了。c對w2的微分值大，a對w1的微分值小，但是c離最低點更近

所以不僅要考慮一次微分，還要考慮二次微分

最好的step不僅要正比于一次微分，還要和二次微分成反比?

w1這張圖的二次微分小，w2這張圖的二次微分大，這樣就能解釋，c對w2的微分值大，a對w1的微分值小，但是c離最低點更近，因為還要除掉各自的二次微分。

adagrad并沒有直接計算二次微分（要花很長時間），adagrad是利用一次微分來估計二次微分

隨機梯度下降，加快速度

w1對y的影響比較小，所以對loss的影響比較小

w2對y的影響比較大，所以對loss的影響比較大

這對gradient descent有影響（沒直接往圓心走），隨意要去量綱

錯誤，update參數以后loss不一定會下降?

（u,v）是一個向量

（delta(theta1),delta(theta2)）也是一個向量

要求兩個向量的內集最小

顯然兩者成180度的時候，模模cos（theta）是最小的

前提是learning_rate一定要小，不然不成立

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

以上是生活随笔為你收集整理的李宏毅深度学习——梯度下降的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。