不能兼顾速度与精度,STOC 2021最佳论文揭示梯度下降复杂度理论
?作者?|?機器之心編輯部
來源?|?機器之心
梯度下降算法具有廣泛的用途,但是關于它的計算復雜度的理論研究卻非常少。最近,來自利物浦大學、牛津大學的研究者從數學的角度證明了梯度下降的計算復雜度,這項研究也入選 STOC 2021 的最佳論文獎 。
當前應用研究的很多方面都依賴于一種名為梯度下降的算法。這是一個求解某個數學函數最大 / 最小值的過程(函數優化),從計算產品的最佳生產方式,到工人輪班的最佳安排方法,這一算法都能派上用場。
盡管梯度下降算法具有廣泛的用途,但是關于它計算復雜度的理論研究卻非常少。現在,來自利物浦大學、牛津大學等機構的研究者在論文《 The Complexity of Gradient Descent: CLS = PPAD ∩ PLS 》中給出了答案,梯度下降從本質上解決了一個非常困難的計算問題。這篇文章也入選了 STOC 2021 的最佳論文。
論文地址:
https://arxiv.org/pdf/2011.01929.pdf
本文作者由牛津大學的 Paul Goldberg 、Alexandros Hollender 與利物浦大學的 John Fearnley 、 Rahul Savani 共同撰寫。
梯度下降計算復雜性
梯度下降是現代應用研究的重要工具,但它在許多常見問題上效果不佳。在這項研究之前,并沒有學者進行全面研究究竟是什么讓梯度下降陷入困境,現在計算復雜性理論有助于回答這個問題。
「梯度下降的很多工作都沒有涉及復雜性理論,」麻省理工學院的副教授 Costis Daskalakis 說。
計算復雜性是對解決或驗證不同計算問題的解決方案所需資源(通常是計算時間)的研究。研究人員將問題分為不同的類別,同一類別中的所有問題共享一些基本的計算特征。
舉例來說,想象一個城鎮,人多于房子,每個人都住在房子里。給你一本電話簿,上面寫著鎮上每個人的姓名和地址,你需要找到住在同一所房子里的兩個人。你可以完成這個任務,不過因為人多于房子,這可能需要一些時間進行查找(特別是如果他們不共享姓氏)。
上述問題屬于 TFNP(total function nondeterministic polynomial) 復雜類問題。它是所有計算問題的集合,能夠保證存在解決方案,并且可以快速檢查解決方案的正確性。?
研究人員專注于 TFNP 中兩個子集問題的交集:
第一個子集稱為 PLS(polynomial local search)。這是一系列問題的集合,涉及在特定區域中尋找函數的最小值或最大值, 這些問題的答案必須確??梢酝ㄟ^相對直接的推理找到。
PLS 類別中的一個典型問題是路徑規劃:假如要求你以盡可能短的旅行距離訪問固定數量的城市,且只能通過切換相鄰城市對的順序來改變行程。要計算所有設想路線的長度并不難,并且由于可以調整行程的方式受到限制,因此很容易看出哪些更改會縮短行程。
也就是說,最終你會找到一條路線,這條路線不能再進一步縮短路程了,那么這條路線就是你要找到的最小值,就是所謂的局部極小值。
TFNP 問題的第二個子集是 PPAD。這些問題的解來自更復雜的過程,稱為布勞威爾不動點定理,即對于任何連續函數,存在一個點保持不變。在日常生活中也是如此,比如你攪拌一杯水,該定理保證一定有一個水分子最終會回到它開始的地方。
PLS 和 PPAD 類的交集本身形成了一類稱為「 PLS ∩ PPAD」 的問題。這類問題包含許多復雜性研究人員所關注的自然問題。然而,直到現在,研究人員都無法找到一個對 「 PLS ∩ PPAD」來說是完全的自然問題,所謂「完全」意味著它可能是這類問題中最難的問題。
而 PLS 與 PPAD 的交集,被他們證明等價于 CLS (連續局域搜索問題)。
在這篇論文之前,唯一已知的「 PLS ∩ PPAD 」完全問題可以說是一個人工構造的問題,這個問題有時被稱為「Either-Solution」。它將來自 PLS 的一個完全問題和來自 PPAD 的一個完全問題聯合,形成了研究人員極少在「 PLS ∩ PPAD 」之外遇到的問題。在這篇論文中,研究人員證明了梯度下降與「Either-Solution」一樣難,梯度下降本身就是「 PLS ∩ PPAD 」完全問題。
速度與精度不能平衡
哥倫比亞大學數據科學中心教授 Tim Roughgarden 說道:「我們人類本來就應該努力去深入了解計算本質的各個方面。所以我對這項研究結果的發現感到十分興奮?!?/p>
這一發現并不意味著梯度下降會一直表現不佳。事實上,對于大多數任務來說,梯度下降與以往一樣快速和高效。
「關于計算復雜性有一種略帶幽默的刻板印象,即我們經常會拿以前在實踐中已經被解決的問題出來,然后在證明它是非常難的,」論文二作 Goldberg 說。
但這一結果確實意味著,應用研究人員不應該期望梯度下降法為一些精度很重要的問題提供精確的解決方案。
精度問題涉及計算復雜性的核心——資源需求的評估。在許多復雜問題中,精度和速度之間存在基本聯系。要使算法被認為是有效的,你必須有能夠提高解決方案的精度,而無需為找到該解決方案所花費的時間付出相應的高昂代價。新的結果也顯示了,對于那些需要非常精確的解決方案的應用,梯度下降也許不是一種可行的方法。
例如,梯度下降在機器學習中經常以不需要極端精確的方式使用。但機器學習研究人員想要將實驗的精度提高一倍。在這種情況下,新的結果意味著他們可能需要將梯度下降算法的運行時間增加四倍。這種做法并不理想,但梯度下降還能起作用。
但對于其他應用,比如在數值分析中,研究人員可能需要將精度進行成倍提升,為了實現這樣的改進,他們可能必須將梯度下降的運行時間進行更多倍的提升,這樣一來,計算更加難以處理。
如果想要使用梯度下降,研究者必須做出妥協,要么接受精度較低的解,做一些比較簡單的問題,要么找到管理冗長運行時間的方法。
但這并意味著快速梯度下降算法不存在,相反,快速算法有可能存在。但這一結果暗示著「 PLS ∩ PPAD 」 的所有問題都存在快速算法,這比僅僅為梯度下降找到快速算法的難度要高得多。
「數學上的進步可以解決許多現有問題,這也是為什么我們希望得到一個非常自然的問題,比如梯度下降,能夠捕捉整個交叉領域的復雜性?!笵askalakis 說道。
參考鏈接:
https://www.quantamagazine.org/computer-scientists-discover-limits-of-major-research-algorithm-20210817/
https://www.youtube.com/watch?v=as720_SRpY0
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的不能兼顾速度与精度,STOC 2021最佳论文揭示梯度下降复杂度理论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深圳市黄贝岭一室租金多少钱一个月?
- 下一篇: ICML 2021文章引发热议:矩阵乘法