USC提出拟牛顿法深度学习优化器Apollo,效果比肩SGD和Adam
?作者?|?Xuezhe Ma
單位?|?USC助理教授
研究方向?|NLP、機(jī)器學(xué)習(xí)
摘要
本文介紹了 Apollo,一種針對(duì)非凸隨機(jī)優(yōu)化的擬牛頓方法。它通過對(duì)角矩陣逼近 Hessian,動(dòng)態(tài)地將損失函數(shù)的曲率應(yīng)用到優(yōu)化的過程中。重要的是,Apollo 對(duì)于 Hessian 的對(duì)角近似的時(shí)間和空間復(fù)雜度與自適應(yīng)一階優(yōu)化方法一樣。
為了處理目標(biāo)函數(shù)的非凸性,我們用 Hessian 的修正絕對(duì)值(recified absolute value)來代替原始的 Hessian,保證它是正定的。機(jī)器視覺和自然語言處理三項(xiàng)任務(wù)上的實(shí)驗(yàn)表明,Apollo 在收斂速度和泛化性能上都比其它隨機(jī)優(yōu)化方法(包括 SGD 和 ADAM 的變體)有了顯著的改進(jìn)。
論文標(biāo)題:
Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for Nonconvex Stochastic Optimization
論文鏈接:
https://arxiv.org/abs/2009.13586
代碼鏈接:
https://github.com/XuezheMax/apollo
隨機(jī)非凸優(yōu)化和擬牛頓法
本文專注于以下形式的隨機(jī)非凸優(yōu)化問題:
其中 是模型的參數(shù), 是隨機(jī)噪音。擬牛頓法的參數(shù)更新公式如下:
為步長(stepsize),又叫學(xué)習(xí)率(learning rate)。 為每一次參數(shù)更新時(shí)對(duì) Hessian 矩陣的近似。矩陣 的計(jì)算滿足經(jīng)典的 secant equation:
其中 。以上公式中不同矩陣模(norm)的選擇對(duì)應(yīng)不同的經(jīng)典算法,例如 L-BFGS [1] 和 DFP [2]。
總結(jié)來說,擬牛頓法在深度學(xué)習(xí)優(yōu)化問題中存在三個(gè)常見問題:
Time and Memory Efficiency(時(shí)空復(fù)雜度). 在深度學(xué)習(xí)的優(yōu)化問題中,由于模型參數(shù)的維度巨大,現(xiàn)有的擬牛頓法無法在實(shí)際問題中應(yīng)用。比如經(jīng)典的 L-BFGS [1] 算法一般需要記錄至少之前 5 到 10 步的迭代歷史,這在深度學(xué)習(xí)問題中是不實(shí)際的。而現(xiàn)有的一些為隨機(jī)非凸問題設(shè)計(jì)的擬牛頓法,例如 SdLBFGS [3],甚至需要比 L-BFGS 更多的時(shí)間和空間資源。
Stochastic Variance. 優(yōu)化過程中的隨機(jī)性使得對(duì)于 Hessian 的近似存在較大的方差, 導(dǎo)致優(yōu)化算法的不穩(wěn)定甚至失敗。
Nonconvexity(非凸性). 目標(biāo)函數(shù)的非凸性導(dǎo)致很難在優(yōu)化過程中保證 Hessian 的正定性。而目標(biāo)函數(shù)的隨機(jī)性又使得標(biāo)準(zhǔn)的 line search 無法有效的應(yīng)用。
Apollo算法
Time and Memory Efficiency(時(shí)空復(fù)雜度)。為了降低 Apollo 算法的時(shí)空復(fù)雜度,我們仿效之前的工作,用對(duì)角矩陣來近似 Hessian,亦即約束每一步 為對(duì)角矩陣。為了滿足這一約束,我們需要對(duì)公式(5)中的 secant equation 進(jìn)行放松。一個(gè)常用的方法是 weak secant equation [4,5]:
但是對(duì)于參數(shù)為度巨大的深度神經(jīng)網(wǎng)絡(luò)來說,weak secant equation 的約束過于微弱。為了得到一個(gè)折中的辦法,我們利用神經(jīng)網(wǎng)絡(luò)參數(shù)的性質(zhì),將參數(shù)分離成不同的參數(shù)模塊:。例如,一個(gè)多層神經(jīng)網(wǎng)絡(luò)的參數(shù)可以分離成每一層不用功能的參數(shù)。這樣對(duì)于每一個(gè)參數(shù)都會(huì)產(chǎn)生一個(gè)weak secant equation,增強(qiáng)了約束能力。
經(jīng)過簡(jiǎn)單的推到, 的更新公式為:
Stochastic Variance. 為了降低優(yōu)化過程中由于隨機(jī)噪音導(dǎo)致的不穩(wěn)定,我們除了應(yīng)用 Adam 中的 Exponential Moving Average(EMV)之外,還提出了一個(gè)重要的方法:Stepsize Bias Correction。簡(jiǎn)單來說,我們希望矩陣 的更新可以不受步長的影響。具體的做法是對(duì)每一步的 gradient 進(jìn)行修正: ?。這樣公式(7)就演變?yōu)?#xff1a;
其中 。對(duì)于 Stepsize Bias Correction 的具體討論請(qǐng)參考原文。實(shí)際應(yīng)用中,我們發(fā)現(xiàn) Stepsize Bias Correction 對(duì)于 Apollo 算法的收斂穩(wěn)定性起到至關(guān)重要的作用。
Nonconvexity(非凸性). 非凸性是阻礙擬牛頓法應(yīng)用到深度學(xué)習(xí)優(yōu)化的最主要困難之一。如下圖所示,對(duì)于一個(gè)非凸點(diǎn)的曲率是負(fù)的,因此直接應(yīng)用擬牛頓法會(huì)導(dǎo)致參數(shù)更新方向錯(cuò)誤。
Apollo 對(duì)于這個(gè)問題的解決方案很簡(jiǎn)單直接,用 的修正絕對(duì)值(rectified absolute value)來代替 。
其中 是一個(gè)超參數(shù)?,F(xiàn)在的問題是我們是否需要增加一個(gè)需要調(diào)試的超慘 ?幸運(yùn)的是,我們發(fā)現(xiàn) 和 是兩個(gè)耦合在一起的超參數(shù),而實(shí)際中我們可以固定一個(gè)而只調(diào)試另一個(gè)。具體請(qǐng)參考論文中的 Theorem 1.
的取值選擇。在最初的版本中,我們?cè)O(shè)定 。但是我們發(fā)現(xiàn)這樣使得 的取值會(huì)比較大,不太符合大家對(duì)學(xué)習(xí)率(learning rate)的直觀印象。因此我們?cè)谧钚碌陌姹局性O(shè)定 。具體討論參考論文。
Apollo算法的收斂性
我們仿效之前的工作,對(duì) Apollo 在凸函數(shù)和非凸函數(shù)兩種情況下的收斂進(jìn)行了理論分析。具體請(qǐng)參考論文中的 Theorem 2 和 Theorem 3。
實(shí)驗(yàn)
實(shí)驗(yàn)部分,我們做了在三個(gè)常見的任務(wù)上面對(duì)比了 Apollo 和其他優(yōu)化算法的效果,包括 Image Classification, Language Modeling ?以及 Neural Machine Translation。涉及的神經(jīng)網(wǎng)絡(luò)模型包括 ResNet,LSTM 和 Transformer。每個(gè)實(shí)驗(yàn),我們都用 5 個(gè)不同的 random seed,并報(bào)告實(shí)驗(yàn)結(jié)果的平均值。具體的實(shí)驗(yàn)配置,請(qǐng)閱讀論文。
Image Classification
Language Modeling
Neural Machine Translation (WMT-14 English-German)
結(jié)語
這篇文章從去年 9 月開始已經(jīng)在一年內(nèi)被多次拒稿,實(shí)在讓我感慨優(yōu)化領(lǐng)域的水之深。捫心自問,這篇論文我們算是盡心盡力做到能做的最好,也自認(rèn)無論從算法還是實(shí)驗(yàn)結(jié)果都有創(chuàng)新的地方。
據(jù)我們的有限所知,Apollo 是目前第一個(gè)能在實(shí)際中應(yīng)用的深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法,并能在多個(gè)任務(wù)和網(wǎng)絡(luò)結(jié)構(gòu)上取得比肩甚至超過 SGD 和 Adam 的效果。然而,仍有審稿人因?yàn)楦鞣N原因拒稿。其中最多的拒稿原因是 Apollo 中提出的一些方法,例如 stepsize bias correction 和 rectified absolute value 沒有明確的理論證明。
說一句有些偏激的話,現(xiàn)在深度學(xué)習(xí)中有哪個(gè)實(shí)際中有效的方法有嚴(yán)格的理論證明?甚至有一個(gè)審稿人的一條意見是,我們的收斂證明是基于 Adam,而在他/她看來,Adam 的理論證明是達(dá)不到發(fā)表的標(biāo)準(zhǔn)的。我想說的是,在當(dāng)下論文井噴的時(shí)代,做自己心中覺得真正有用的研究才是一個(gè)研究員最該堅(jiān)持的事。
參考文獻(xiàn)
[1] Charles George Broyden. The convergence of a class of double-rank minimization algorithms. IMA Journal of Applied Mathematics, 6(1):76–90, 1970.
[2] William C Davidon. Variable metric method for minimization. SIAM Journal on Optimization, 1(1):1–17, 1991.
[3] Xiao Wang, Shiqian Ma, Donald Goldfarb, and Wei Liu. Stochastic quasi-newton methods for nonconvex stochastic optimization. SIAM Journal on Optimization, 27(2):927–956, 2017.
[4] John E Dennis, Jr and Henry Wolkowicz. Sizing and least-change secant methods. SIAM Journal on Numerical Analysis, 30(5):1291–1314, 1993.
[5] JL Nazareth. If quasi-newton then why not quasi-cauchy. SIAG/Opt Views-and-news, 6: 11–14, 1995.
[6] Sashank J Reddi, Satyen Kale, and Sanjiv Kumar. On the convergence of adam and beyond. In International Conference on Learning Representations, 2018.
[7] X Chen, M Hong, S Liu, and R Sun. On the convergence of a class of adam-type algorithms for non-convex optimization. In 7th International Conference on Learning Representations, ICLR 2019, 2019.
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的USC提出拟牛顿法深度学习优化器Apollo,效果比肩SGD和Adam的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安装光伏板多少钱一组人工费大家好?
- 下一篇: 真的不值得重视吗?ETH Zurich博