當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AdaX：一个比Adam更优秀，带”长期记忆“的优化器

發(fā)布時(shí)間：2024/7/5 编程问答 63 豆豆

生活随笔收集整理的這篇文章主要介紹了 AdaX：一个比Adam更优秀，带”长期记忆“的优化器小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

關(guān)注小夕并星標(biāo)，解鎖自然語言處理
搜索、推薦與算法崗求職秘籍

文 | 蘇劍林（追一科技，人稱蘇神）

美 | 人美心細(xì)小謹(jǐn)思密達(dá)

前言

這篇文章簡單介紹一個(gè)叫做AdaX的優(yōu)化器，來自《AdaX: Adaptive Gradient Descent with Exponential Long Term Memory》。介紹這個(gè)優(yōu)化器的原因是它再次印證了之前在《硬核推導(dǎo)Google AdaFactor：一個(gè)省顯存的寶藏優(yōu)化器》一文中提到的一個(gè)結(jié)論，兩篇文章可以對比著閱讀。

Adam & AdaX

AdaX的更新格式是

其中的默認(rèn)值是0.0001。對了，順便附上自己的Keras實(shí)現(xiàn)：https://github.com/bojone/adax 作為比較，Adam的更新格式是

其中的默認(rèn)值是0.999。

等價(jià)形式變換

可以看到，兩者的第一個(gè)差別是AdaX去掉了動(dòng)量的偏置校正（這一步），但這其實(shí)影響不大，AdaX最大的改動(dòng)是在處，本來是滑動(dòng)平均格式，而不像是滑動(dòng)平均了，而且，似乎有指數(shù)爆炸的風(fēng)險(xiǎn)？

原論文稱之為“with Exponential Long Term Memory”，就是指β導(dǎo)致歷史累積梯度的比重不會(huì)越來越小，反而會(huì)越來越大，這就是它的長期記憶性。

事實(shí)上，學(xué)習(xí)率校正用的是，所以有沒有爆炸我們要觀察的是。對于Adam，我們有

所以如果設(shè)，那么更新公式就是

基于同樣的道理，如果設(shè)，那么AdaX的的更新公式也可以寫成上式。

衰減策略比較

所以，從真正用來校正梯度的來看，不管是Adam還是AdaX，其更新公式都是滑動(dòng)平均的格式，只不過對應(yīng)的衰減系數(shù)不一樣。

對于Adam來說，當(dāng)時(shí)t = 0，，這時(shí)候就是，也就是用實(shí)時(shí)梯度來校正學(xué)習(xí)率，這時(shí)候校正力度最大；當(dāng)時(shí)，，這時(shí)候是累積梯度平方與當(dāng)前梯度平方的加權(quán)平均，由于，所以意味著當(dāng)前梯度的權(quán)重不為0，這可能導(dǎo)致訓(xùn)練不穩(wěn)定，因?yàn)橛?xùn)練后期梯度變小，訓(xùn)練本身趨于穩(wěn)定，校正學(xué)習(xí)率的意義就不大了，因此學(xué)習(xí)率的校正力度應(yīng)該變小，并且，學(xué)習(xí)率最好恒定為常數(shù)（這時(shí)候相當(dāng)于退化為SGD），這就要求時(shí)，。

對于AdaX來說，當(dāng)t = 0時(shí)，當(dāng)，，滿足上述的理想性質(zhì)，因此，從這個(gè)角度來看，AdaX確實(shí)是Adam的一個(gè)改進(jìn)。在AdaFactor中使用的則是，它也是從這個(gè)角度設(shè)計(jì)的。至于AdaX和AdaFactor的策略孰優(yōu)孰劣，筆者認(rèn)為就很難從理論上解釋清楚了，估計(jì)只能靠實(shí)驗(yàn)。

就這樣結(jié)束了

嗯，文章就到這兒結(jié)束了。開頭就說了，本文只是簡單介紹一下AdaX，因?yàn)樗俅斡∽C了之前的一個(gè)結(jié)論——應(yīng)當(dāng)滿足條件“”，這也許會(huì)成為日后優(yōu)化器改進(jìn)的基本條件之一。

萌屋公告

喜歡本文的小伙伴們，記得掃描下方二維碼關(guān)注并星標(biāo)置頂，我才能來到你面前哦。

賣萌屋妹子們的原創(chuàng)技術(shù)干貨有?ACL2020學(xué)術(shù)前沿系列、NLP綜述系列、NLP論文清單系列、NLP基礎(chǔ)入門系列、搜索與推薦系列、深度學(xué)習(xí)初/中/高級(jí)煉丹技巧、機(jī)器學(xué)習(xí)入門系列、算法崗offer收割系列等。訂閱號(hào)后臺(tái)回復(fù)【干貨】即可打包帶走。

賣萌屋里有眾多頂會(huì)審稿人、大廠研究員、知乎大V和美麗小姐姐（劃掉?????♀?），我們成立了?自然語言處理 / 知識(shí)圖譜 / 深度學(xué)習(xí) / 機(jī)器學(xué)習(xí) / 校招求職?高質(zhì)量討論群，訂閱號(hào)后臺(tái)回復(fù)【入群】即可上車。

夕小瑤的賣萌屋

關(guān)注&星標(biāo)小夕，帶你解鎖AI秘籍

訂閱號(hào)主頁下方「撩一下」有驚喜哦

總結(jié)

以上是生活随笔為你收集整理的AdaX：一个比Adam更优秀，带”长期记忆“的优化器的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Google Cloud TPUs支持P
下一篇： FedNLP: 首个联邦学习赋能NLP的