AdaX:一个比Adam更优秀,带”长期记忆“的优化器
關(guān)注小夕并星標(biāo),解鎖自然語言處理
搜索、推薦與算法崗求職秘籍
文 | 蘇劍林(追一科技,人稱蘇神)
美 | 人美心細(xì)小謹(jǐn)思密達(dá)
前言
這篇文章簡單介紹一個(gè)叫做AdaX的優(yōu)化器,來自《AdaX: Adaptive Gradient Descent with Exponential Long Term Memory》。介紹這個(gè)優(yōu)化器的原因是它再次印證了之前在《硬核推導(dǎo)Google AdaFactor:一個(gè)省顯存的寶藏優(yōu)化器》一文中提到的一個(gè)結(jié)論,兩篇文章可以對比著閱讀。
Adam & AdaX
AdaX的更新格式是
其中的默認(rèn)值是0.0001。對了,順便附上自己的Keras實(shí)現(xiàn):https://github.com/bojone/adax 作為比較,Adam的更新格式是
其中的默認(rèn)值是0.999。
等價(jià)形式變換
可以看到,兩者的第一個(gè)差別是AdaX去掉了動(dòng)量的偏置校正(這一步),但這其實(shí)影響不大,AdaX最大的改動(dòng)是在處,本來是滑動(dòng)平均格式,而不像是滑動(dòng)平均了,而且,似乎有指數(shù)爆炸的風(fēng)險(xiǎn)?
原論文稱之為“with Exponential Long Term Memory”,就是指β導(dǎo)致歷史累積梯度的比重不會(huì)越來越小,反而會(huì)越來越大,這就是它的長期記憶性。
事實(shí)上,學(xué)習(xí)率校正用的是,所以有沒有爆炸我們要觀察的是。對于Adam,我們有
所以如果設(shè),那么更新公式就是
基于同樣的道理,如果設(shè),那么AdaX的的更新公式也可以寫成上式。
衰減策略比較
所以,從真正用來校正梯度的來看,不管是Adam還是AdaX,其更新公式都是滑動(dòng)平均的格式,只不過對應(yīng)的衰減系數(shù)不一樣。
對于Adam來說,當(dāng)時(shí)t = 0,,這時(shí)候就是,也就是用實(shí)時(shí)梯度來校正學(xué)習(xí)率,這時(shí)候校正力度最大;當(dāng)時(shí),,這時(shí)候是累積梯度平方與當(dāng)前梯度平方的加權(quán)平均,由于,所以意味著當(dāng)前梯度的權(quán)重不為0,這可能導(dǎo)致訓(xùn)練不穩(wěn)定,因?yàn)橛?xùn)練后期梯度變小,訓(xùn)練本身趨于穩(wěn)定,校正學(xué)習(xí)率的意義就不大了,因此學(xué)習(xí)率的校正力度應(yīng)該變小,并且,學(xué)習(xí)率最好恒定為常數(shù)(這時(shí)候相當(dāng)于退化為SGD),這就要求時(shí),。
對于AdaX來說,當(dāng)t = 0時(shí),當(dāng),,滿足上述的理想性質(zhì),因此,從這個(gè)角度來看,AdaX確實(shí)是Adam的一個(gè)改進(jìn)。在AdaFactor中使用的則是,它也是從這個(gè)角度設(shè)計(jì)的。至于AdaX和AdaFactor的策略孰優(yōu)孰劣,筆者認(rèn)為就很難從理論上解釋清楚了,估計(jì)只能靠實(shí)驗(yàn)。
就這樣結(jié)束了
嗯,文章就到這兒結(jié)束了。開頭就說了,本文只是簡單介紹一下AdaX,因?yàn)樗俅斡∽C了之前的一個(gè)結(jié)論——應(yīng)當(dāng)滿足條件“”,這也許會(huì)成為日后優(yōu)化器改進(jìn)的基本條件之一。
萌屋公告
喜歡本文的小伙伴們,記得掃描下方二維碼關(guān)注并星標(biāo)置頂,我才能來到你面前哦。
賣萌屋妹子們的原創(chuàng)技術(shù)干貨有?ACL2020學(xué)術(shù)前沿系列、NLP綜述系列、NLP論文清單系列、NLP基礎(chǔ)入門系列、搜索與推薦系列、深度學(xué)習(xí)初/中/高級(jí)煉丹技巧、機(jī)器學(xué)習(xí)入門系列、算法崗offer收割系列等。訂閱號(hào)后臺(tái)回復(fù)【干貨】即可打包帶走。
賣萌屋里有眾多頂會(huì)審稿人、大廠研究員、知乎大V和美麗小姐姐(劃掉?????♀?),我們成立了?自然語言處理 / 知識(shí)圖譜 / 深度學(xué)習(xí) / 機(jī)器學(xué)習(xí) / 校招求職?高質(zhì)量討論群,訂閱號(hào)后臺(tái)回復(fù)【入群】即可上車。
夕小瑤的賣萌屋
_
關(guān)注&星標(biāo)小夕,帶你解鎖AI秘籍
訂閱號(hào)主頁下方「撩一下」有驚喜哦
總結(jié)
以上是生活随笔為你收集整理的AdaX:一个比Adam更优秀,带”长期记忆“的优化器的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google Cloud TPUs支持P
- 下一篇: FedNLP: 首个联邦学习赋能NLP的