當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

USC提出拟牛顿法深度学习优化器Apollo，效果比肩SGD和Adam

發(fā)布時(shí)間：2024/10/8 pytorch 178 豆豆

生活随笔收集整理的這篇文章主要介紹了 USC提出拟牛顿法深度学习优化器Apollo，效果比肩SGD和Adam 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者?|?Xuezhe Ma

單位?|?USC助理教授

研究方向?|NLP、機(jī)器學(xué)習(xí)

摘要

本文介紹了 Apollo，一種針對(duì)非凸隨機(jī)優(yōu)化的擬牛頓方法。它通過對(duì)角矩陣逼近 Hessian，動(dòng)態(tài)地將損失函數(shù)的曲率應(yīng)用到優(yōu)化的過程中。重要的是，Apollo 對(duì)于 Hessian 的對(duì)角近似的時(shí)間和空間復(fù)雜度與自適應(yīng)一階優(yōu)化方法一樣。

為了處理目標(biāo)函數(shù)的非凸性，我們用 Hessian 的修正絕對(duì)值（recified absolute value）來代替原始的 Hessian，保證它是正定的。機(jī)器視覺和自然語言處理三項(xiàng)任務(wù)上的實(shí)驗(yàn)表明，Apollo 在收斂速度和泛化性能上都比其它隨機(jī)優(yōu)化方法（包括 SGD 和 ADAM 的變體）有了顯著的改進(jìn)。

論文標(biāo)題：

Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for Nonconvex Stochastic Optimization

論文鏈接：

https://arxiv.org/abs/2009.13586

代碼鏈接：

https://github.com/XuezheMax/apollo

隨機(jī)非凸優(yōu)化和擬牛頓法

本文專注于以下形式的隨機(jī)非凸優(yōu)化問題：

其中是模型的參數(shù)，是隨機(jī)噪音。擬牛頓法的參數(shù)更新公式如下：

為步長（stepsize），又叫學(xué)習(xí)率（learning rate）。為每一次參數(shù)更新時(shí)對(duì) Hessian 矩陣的近似。矩陣的計(jì)算滿足經(jīng)典的 secant equation：

其中。以上公式中不同矩陣模（norm）的選擇對(duì)應(yīng)不同的經(jīng)典算法，例如 L-BFGS [1] 和 DFP [2]。

總結(jié)來說，擬牛頓法在深度學(xué)習(xí)優(yōu)化問題中存在三個(gè)常見問題：

Time and Memory Efficiency（時(shí)空復(fù)雜度）. 在深度學(xué)習(xí)的優(yōu)化問題中，由于模型參數(shù)的維度巨大，現(xiàn)有的擬牛頓法無法在實(shí)際問題中應(yīng)用。比如經(jīng)典的 L-BFGS [1] 算法一般需要記錄至少之前 5 到 10 步的迭代歷史，這在深度學(xué)習(xí)問題中是不實(shí)際的。而現(xiàn)有的一些為隨機(jī)非凸問題設(shè)計(jì)的擬牛頓法，例如 SdLBFGS [3]，甚至需要比 L-BFGS 更多的時(shí)間和空間資源。

Stochastic Variance. 優(yōu)化過程中的隨機(jī)性使得對(duì)于 Hessian 的近似存在較大的方差，導(dǎo)致優(yōu)化算法的不穩(wěn)定甚至失敗。

Nonconvexity（非凸性）. 目標(biāo)函數(shù)的非凸性導(dǎo)致很難在優(yōu)化過程中保證 Hessian 的正定性。而目標(biāo)函數(shù)的隨機(jī)性又使得標(biāo)準(zhǔn)的 line search 無法有效的應(yīng)用。

Apollo算法

Time and Memory Efficiency（時(shí)空復(fù)雜度）。為了降低 Apollo 算法的時(shí)空復(fù)雜度，我們仿效之前的工作，用對(duì)角矩陣來近似 Hessian，亦即約束每一步為對(duì)角矩陣。為了滿足這一約束，我們需要對(duì)公式（5）中的 secant equation 進(jìn)行放松。一個(gè)常用的方法是 weak secant equation [4,5]：

但是對(duì)于參數(shù)為度巨大的深度神經(jīng)網(wǎng)絡(luò)來說，weak secant equation 的約束過于微弱。為了得到一個(gè)折中的辦法，我們利用神經(jīng)網(wǎng)絡(luò)參數(shù)的性質(zhì)，將參數(shù)分離成不同的參數(shù)模塊：。例如，一個(gè)多層神經(jīng)網(wǎng)絡(luò)的參數(shù)可以分離成每一層不用功能的參數(shù)。這樣對(duì)于每一個(gè)參數(shù)都會(huì)產(chǎn)生一個(gè)weak secant equation，增強(qiáng)了約束能力。

經(jīng)過簡(jiǎn)單的推到，的更新公式為：

Stochastic Variance. 為了降低優(yōu)化過程中由于隨機(jī)噪音導(dǎo)致的不穩(wěn)定，我們除了應(yīng)用 Adam 中的 Exponential Moving Average（EMV）之外，還提出了一個(gè)重要的方法：Stepsize Bias Correction。簡(jiǎn)單來說，我們希望矩陣的更新可以不受步長的影響。具體的做法是對(duì)每一步的 gradient 進(jìn)行修正： ?。這樣公式（7）就演變?yōu)?#xff1a;

其中。對(duì)于 Stepsize Bias Correction 的具體討論請(qǐng)參考原文。實(shí)際應(yīng)用中，我們發(fā)現(xiàn) Stepsize Bias Correction 對(duì)于 Apollo 算法的收斂穩(wěn)定性起到至關(guān)重要的作用。

Nonconvexity（非凸性）. 非凸性是阻礙擬牛頓法應(yīng)用到深度學(xué)習(xí)優(yōu)化的最主要困難之一。如下圖所示，對(duì)于一個(gè)非凸點(diǎn)的曲率是負(fù)的，因此直接應(yīng)用擬牛頓法會(huì)導(dǎo)致參數(shù)更新方向錯(cuò)誤。

Apollo 對(duì)于這個(gè)問題的解決方案很簡(jiǎn)單直接，用的修正絕對(duì)值（rectified absolute value）來代替。

其中是一個(gè)超參數(shù)?，F(xiàn)在的問題是我們是否需要增加一個(gè)需要調(diào)試的超慘？幸運(yùn)的是，我們發(fā)現(xiàn) 和是兩個(gè)耦合在一起的超參數(shù)，而實(shí)際中我們可以固定一個(gè)而只調(diào)試另一個(gè)。具體請(qǐng)參考論文中的 Theorem 1.

的取值選擇。在最初的版本中，我們?cè)O(shè)定。但是我們發(fā)現(xiàn)這樣使得的取值會(huì)比較大，不太符合大家對(duì)學(xué)習(xí)率（learning rate）的直觀印象。因此我們?cè)谧钚碌陌姹局性O(shè)定。具體討論參考論文。

Apollo算法的收斂性

我們仿效之前的工作，對(duì) Apollo 在凸函數(shù)和非凸函數(shù)兩種情況下的收斂進(jìn)行了理論分析。具體請(qǐng)參考論文中的 Theorem 2 和 Theorem 3。

實(shí)驗(yàn)

實(shí)驗(yàn)部分，我們做了在三個(gè)常見的任務(wù)上面對(duì)比了 Apollo 和其他優(yōu)化算法的效果，包括 Image Classification, Language Modeling ?以及 Neural Machine Translation。涉及的神經(jīng)網(wǎng)絡(luò)模型包括 ResNet，LSTM 和 Transformer。每個(gè)實(shí)驗(yàn)，我們都用 5 個(gè)不同的 random seed，并報(bào)告實(shí)驗(yàn)結(jié)果的平均值。具體的實(shí)驗(yàn)配置，請(qǐng)閱讀論文。

Image Classification

Language Modeling

Neural Machine Translation (WMT-14 English-German)

結(jié)語

這篇文章從去年 9 月開始已經(jīng)在一年內(nèi)被多次拒稿，實(shí)在讓我感慨優(yōu)化領(lǐng)域的水之深。捫心自問，這篇論文我們算是盡心盡力做到能做的最好，也自認(rèn)無論從算法還是實(shí)驗(yàn)結(jié)果都有創(chuàng)新的地方。

據(jù)我們的有限所知，Apollo 是目前第一個(gè)能在實(shí)際中應(yīng)用的深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法，并能在多個(gè)任務(wù)和網(wǎng)絡(luò)結(jié)構(gòu)上取得比肩甚至超過 SGD 和 Adam 的效果。然而，仍有審稿人因?yàn)楦鞣N原因拒稿。其中最多的拒稿原因是 Apollo 中提出的一些方法，例如 stepsize bias correction 和 rectified absolute value 沒有明確的理論證明。

說一句有些偏激的話，現(xiàn)在深度學(xué)習(xí)中有哪個(gè)實(shí)際中有效的方法有嚴(yán)格的理論證明？甚至有一個(gè)審稿人的一條意見是，我們的收斂證明是基于 Adam，而在他/她看來，Adam 的理論證明是達(dá)不到發(fā)表的標(biāo)準(zhǔn)的。我想說的是，在當(dāng)下論文井噴的時(shí)代，做自己心中覺得真正有用的研究才是一個(gè)研究員最該堅(jiān)持的事。

參考文獻(xiàn)

[1] Charles George Broyden. The convergence of a class of double-rank minimization algorithms. IMA Journal of Applied Mathematics, 6(1):76–90, 1970.

[2] William C Davidon. Variable metric method for minimization. SIAM Journal on Optimization, 1(1):1–17, 1991.

[3] Xiao Wang, Shiqian Ma, Donald Goldfarb, and Wei Liu. Stochastic quasi-newton methods for nonconvex stochastic optimization. SIAM Journal on Optimization, 27(2):927–956, 2017.

[4] John E Dennis, Jr and Henry Wolkowicz. Sizing and least-change secant methods. SIAM Journal on Numerical Analysis, 30(5):1291–1314, 1993.

[5] JL Nazareth. If quasi-newton then why not quasi-cauchy. SIAG/Opt Views-and-news, 6: 11–14, 1995.

[6] Sashank J Reddi, Satyen Kale, and Sanjiv Kumar. On the convergence of adam and beyond. In International Conference on Learning Representations, 2018.

[7] X Chen, M Hong, S Liu, and R Sun. On the convergence of a class of adam-type algorithms for non-convex optimization. In 7th International Conference on Learning Representations, ICLR 2019, 2019.

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

?????稿件基本要求：

? 文章確系個(gè)人原創(chuàng)作品，未曾在公開渠道發(fā)表，如為其他平臺(tái)已發(fā)表或待發(fā)表的文章，請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發(fā)送，要求圖片清晰，無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

?????投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請(qǐng)備注即時(shí)聯(lián)系方式（微信），以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

總結(jié)

以上是生活随笔為你收集整理的USC提出拟牛顿法深度学习优化器Apollo，效果比肩SGD和Adam的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：安装光伏板多少钱一组人工费大家好？
下一篇：真的不值得重视吗？ETH Zurich博