斯坦福助理教授马腾宇:ML非凸优化很难,如何破?
作者 |?馬騰宇
編譯?|?陳萍、杜偉
來源?|?機器之心
非凸優化問題被認為是非常難求解的,因為可行域集合可能存在無數個局部最優點,通常求解全局最優的算法復雜度是指數級的(NP 困難)。在近日的一篇文章中,斯坦福大學助理教授馬騰宇介紹了機器學習中的非凸優化問題,包括廣義線性模型、矩陣分解、張量分解等。
非凸優化在現代機器學習中普遍存在。研究人員設計了非凸目標函數,并使用現成的優化器(例如隨機梯度下降及其變體)對其進行了優化,它們利用了局部幾何并進行迭代更新。即使在最壞的情況下求解非凸函數都是 NP 困難的,但實踐中的優化質量通常也不是問題,人們普遍認為優化器會找到近似全局最小值。
最近,在斯坦福大學助理教授馬騰宇(Tengyu Ma)的一篇文章中,他為這種有趣的現象假設了一種統一的解釋:實際使用目標的大多數局部最小值約為全局最小值,并針對機器學習問題的具體實例進行了嚴格地形式化。
文章地址:
https://arxiv.org/pdf/2103.13462.pdf
文章概覽
優化非凸函數已成為現代機器學習和人工智能的標準算法技術。了解現有的優化非凸函數啟發式方法非常重要,我們需要設計更有效的優化器。其中最棘手的問題是尋找非凸優化問題的全局極小值,甚至僅僅是一個 4 階多項式——NP 困難。因此,具有全局保證的理論分析依賴于優化的目標函數的特殊屬性。為了描述真實世界目標函數的屬性特征,研究者假設機器學習問題的許多目標函數具有以下屬性:全部或者絕大多數局部極小值近似于全局極小值。
基于局部導數的優化器可以在多項式時間內求解這一系列函數(下文討論中也增加了一些額外的假設)。經驗證據也表明機器學習和深度學習的實際目標函數可能具有這樣的屬性。
文章共分為七個章節,各章節主旨內容如下:
第一章:非凸函數的基本內容;
第二章:分析技術,包括收斂至局部極小值、局部最優 VS 全局最優和流形約束優化;
第三章:廣義線性模型,包括種群風險分析和經驗風險集中;
第四章:矩陣分解問題,包括主成分分析和矩陣補全;
第五章:張量分解,包括正交張量分解的非凸優化和全局最優;
第六章:神經網絡優化的綜述與展望。
文章細節
廣義線性模型
第三章講了學習廣義線性模型的問題,并證明該模型的損失函數是非凸的,但局部極小值是全局的。在廣義線性模型里,假設標簽生成自,其中σ: R→R 是已知的單調激活函數,ε_i∈R 均為獨立同分布(i.i.d.)的均值零噪聲 (與 x_i 無關),是一個固定的未知真值系數向量。
研究者的目標是從數據中恢復ω*,然后最小化經驗平方風險:。是相應的種群風險(population risk)。
該研究通過對其 landscape 屬性的表征來分析的優化,分析路徑包括兩個部分:a) 所有種群風險的局部極小值都是全局極小值;b) 經驗風險具有同樣的屬性。
不再是凸的。在本節其余部分中,研究者對這個問題進行了規律性假設。為了便于闡述,這些假設比必要的假設更為有力。當σ是恒等函數時,即σ(t)=t 為線性回歸問題,損失函數是凸的。在實踐中,人們已經把σ作為 sigmoid 函數,然后目標不再是凸的。在本節其余部分中,研究者對這個問題進行了規律性假設。為了便于闡述,這些假設比必要的假設更為有力。
PCA 與矩陣補全
第四章討論了基于矩陣分解的兩個優化問題:主成分分析(PCA)和矩陣補全。它們與廣義線性模型的根本區別在于,目標函數具有非局部極小或全局極小的鞍點。這意味著擬凸條件或 Polyak-Lojasiewicz(PL)條件不適用于這些目標。因此,需要更復雜的技術來區分鞍點和局部極小值。
主成分分析的一種解釋是用最佳低秩近似來逼近矩陣。給出一個矩陣,求其最佳秩 r 逼近(Frobenius 范數或譜范數)。為了便于說明,研究者取,并假設 M 是維數為 d×d 的對稱半正定。在這種情況下,最佳秩 1 近似的形式為。
矩陣補全是指從部分觀測項中恢復低秩矩陣的問題,在協同過濾和推薦系統、降維、多類學習等方面得到了廣泛的應用。研究者討論了秩為 1 對稱矩陣補全。
張量分解
第五章分析了另一個機器學習優化問題——張量分解。張量分解與矩陣分解或廣義線性模型的根本區別在于,這里的非凸目標函數具有多個孤立的局部極小值,因此局部極小值集不具有旋轉不變性,而在矩陣補全或主成分分析中,局部極小值集具有旋轉不變性。這從本質上阻止只使用線性代數技術,因為它們本質上是旋轉不變的。
研究者專注于一個最簡單的張量分解問題——正交四階張量分解。假設得到一個對稱的 4 階張量,它具有低秩結構,即:
其中。研究者的目的是恢復底層組件 a_1, . . . , a_n。他假設 a_1, . . . , a_n 是單位范數 R^d 中的正交向量,則目標函數為:
作者簡介
馬騰宇是斯坦福大學計算機科學和統計學助理教授。他本科畢業于清華大學計算機科學系,之后在普林斯頓大學獲得計算機科學博士學位。期間,馬騰宇師從 Sanjeev Arora 教授,并在多個國際頂級學術會議和期刊上發表近 20 篇高質量論文。
他的主要研究興趣為機器學習和算法方面的研究,包括非凸優化、深度學習、強化學習、表征學習、分布式優化、凸松弛以及高維統計等。
個人主頁:https://ai.stanford.edu/~tengyuma/
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的斯坦福助理教授马腾宇:ML非凸优化很难,如何破?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 鸡西至勃利汽车坐几个小时?
- 下一篇: 生成对抗网络(GAN)的统计推断