當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关于Increased rates of convergence through learning rate adaptation一文的理解

發布時間：2024/4/14 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了关于Increased rates of convergence through learning rate adaptation一文的理解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文地址：http://www.researchgate.net/profile/Robert_Jacobs9/publication/223108796_Increased_rates_of_convergence_through_learning_rate_adaptation/links/0deec525d8f8dd5ade000000.pdf

　　已經看了CNN，rbm，sae等網絡及算法，所有網絡在訓練時都需要一個learning rate，一直以來都覺得這個量設為定值即可，現在才發現其實這個量也可以變更和學習。

　　文章中提到的時最早的神經網絡learning rate，不過我覺得對現在有啟發作用。文中提出神經網絡中，如果把error function看成是一個多變量函數，每個參數對應一個變量，那么這個函數在每個參數wi方向上變化的速度是不同的，并且如果error function不是圓形的話，負梯度方向并不是指向最小值的（這個畫個橢圓做個切線就知道），因此應該采用不同的learning rate。

　　隨后提出了作者一種啟發式的方法就是在神經網絡中，如果一個參數每次的導數的符號保持不變，說明它一直沿正方向走，那么應該增大learning rate以達到更快地到達最小值點，如果一個參數每次的導數的符號經常變化，說明它已經越過了最小值點，在最小值點附近擺動，那么應該減小learning rate讓它穩定。

　　隨后就是算法，一個是momentum方法，，這樣前面的導數可以影響后面的參數變更，從而使一直沿一個方向走的參數的改變，否則減小參數的改變。

　　第二種是delta-delta learning rule，這個ε(t＋1）是根據

得出的，第二個式子的結果就是learning rate的導數，可以用sgd更新learning rate。但顯然，這會有一個缺陷，結束第二個式子的結果是兩個導數相乘，會比較小，所以這個方法不好，有個改進版的。

這個函數結合了那兩個原則并且防止learning rate減到小于0，線性增加也不會增加的太快。

　　希望本博客對別人有幫助，謝謝。

轉載于:https://www.cnblogs.com/caozj/p/4841344.html

總結

以上是生活随笔為你收集整理的关于Increased rates of convergence through learning rate adaptation一文的理解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Android解决java.lang.O
下一篇：浣溪沙·过杜甫草堂有感

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

关于Increased rates of convergence through learning rate adaptation一文的理解

總結