當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

如何优雅地从四个方面加深对深度学习的理解

發(fā)布時(shí)間：2024/8/23 pytorch 63 豆豆

生活随笔收集整理的這篇文章主要介紹了如何优雅地从四个方面加深对深度学习的理解小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在今年的 ICML 上，深度學(xué)習(xí)理論成為最大的主題之一。會(huì)議第一天，Sanjeev Arora 就展開(kāi)了關(guān)于深度學(xué)習(xí)理論理解的教程，并從四個(gè)方面分析了關(guān)于該領(lǐng)域的研究：非凸優(yōu)化、超參數(shù)和泛化、深度的意義以及生成模型。

2017 年 12 月 NIPS 的 Test-of-Time Award 頒獎(jiǎng)典禮上，Ali Rahimi 這樣呼吁人們加深對(duì)深度學(xué)習(xí)的理解：

我希望生活在這樣的一個(gè)世界，它的系統(tǒng)是建立在嚴(yán)謹(jǐn)可靠而且可證實(shí)的知識(shí)之上，而非煉金術(shù)。[……] 簡(jiǎn)單的實(shí)驗(yàn)和定理是幫助理解復(fù)雜大現(xiàn)象的基石。

Ali 的目標(biāo)不是解散各個(gè)領(lǐng)域，而是「展開(kāi)對(duì)話」。這個(gè)目標(biāo)已經(jīng)實(shí)現(xiàn)了，但對(duì)于目前的深度學(xué)習(xí)應(yīng)被視為煉金術(shù)還是工程或科學(xué)，人們?nèi)源嬖诜制纭?/span>

7 個(gè)月后，在斯德哥爾摩舉行的國(guó)際機(jī)器學(xué)習(xí)會(huì)議 (ICML) 上，機(jī)器學(xué)習(xí)社區(qū)又聚焦了這個(gè)問(wèn)題。此次大會(huì)與會(huì)者有 5000 多名，并累計(jì)發(fā)表論文 629 篇，這是基礎(chǔ)機(jī)器學(xué)習(xí)研究的「年度大戲」。而深度學(xué)習(xí)理論已成為此次會(huì)議的最大主題之一。

會(huì)議第一天，最大的房間里就擠滿(mǎn)了機(jī)器學(xué)習(xí)相關(guān)人員，他們準(zhǔn)備聆聽(tīng) Sanjeev Arora 關(guān)于深度學(xué)習(xí)理論理解的教程。這位普林斯頓大學(xué)計(jì)算機(jī)科學(xué)教授在演講中總結(jié)了目前的深度學(xué)習(xí)理論研究領(lǐng)域，并將其分成四類(lèi)：

非凸優(yōu)化：如何理解與深度神經(jīng)網(wǎng)絡(luò)相關(guān)的高度非凸損失函數(shù)？為什么隨機(jī)梯度下降法會(huì)收斂？

超參數(shù)和泛化：在經(jīng)典統(tǒng)計(jì)理論中，為什么泛化依賴(lài)于參數(shù)的數(shù)量而非深度學(xué)習(xí)？存在其它較好的泛化方法嗎？

深度的意義：深度如何幫助神經(jīng)網(wǎng)絡(luò)收斂？深度和泛化之間的聯(lián)系是什么？

生成模型：為什么生成對(duì)抗網(wǎng)絡(luò)（GAN）效果非常好？有什么理論特性能使模型穩(wěn)定或者避免模式崩潰？

在這一系列的文章中，我們將根據(jù)最新的論文（尤其是 ICML2018 的論文），幫助大家直觀理解這四個(gè)方面。

第一篇文章將重點(diǎn)討論深度網(wǎng)絡(luò)的非凸優(yōu)化問(wèn)題。

?非凸優(yōu)化?

我敢打賭，你們很多人都曾嘗試過(guò)訓(xùn)練自己的「深度網(wǎng)絡(luò)」，結(jié)果卻因?yàn)闊o(wú)法讓它發(fā)揮作用而陷入自我懷疑。這不是你的錯(cuò)。我認(rèn)為都是梯度下降的錯(cuò)。

Ali Rahimi 在 NIPS 演講中曾說(shuō)，隨機(jī)梯度下降 (SGD) 的確是深度學(xué)習(xí)的基石，它應(yīng)該解決高度非凸優(yōu)化問(wèn)題。理解它何時(shí)起作用，以及為什么起作用，是我們?cè)谏疃葘W(xué)習(xí)的基本理論中一定會(huì)提出的最基本問(wèn)題之一。具體來(lái)說(shuō)，對(duì)于深度神經(jīng)網(wǎng)絡(luò)的非凸優(yōu)化研究可以分為兩個(gè)問(wèn)題：

損失函數(shù)是什么樣的？

SGD 為什么收斂？

?損失函數(shù)是什么樣的？?

如果讓你想象一個(gè)全局最小值，很可能你腦海中出現(xiàn)的第一幅圖是這樣的：

二維世界中的全局最小值附近，函數(shù)是嚴(yán)格凸的（這意味著 hessian 矩陣的兩個(gè)特征值都是正數(shù)）。但在一個(gè)有著數(shù)十億參數(shù)的世界里，就像在深度學(xué)習(xí)中，全局最小值附近的方向都不平坦的可能性有多大？或者 hessian 中一個(gè)為零（或近似為零）的特征值都沒(méi)有的概率有多大？

Sanjeev Arora 在教程中寫(xiě)的第一個(gè)評(píng)論是：損失函數(shù)的可能方向數(shù)量會(huì)隨著維度的增長(zhǎng)呈指數(shù)增長(zhǎng)。

直觀上看，全局最小值似乎不是一個(gè)點(diǎn)而是一個(gè)連接管（connected manifold）。這意味著如果找到了全局最小值，你就能夠穿過(guò)一條平坦的路徑，在這條道路上，所有的點(diǎn)都是最小值。海德堡大學(xué)的一個(gè)研究團(tuán)隊(duì)在論文《Essentially No Barriers in Neural Network Energy Landscape》中證明了這一點(diǎn)。他們提出了一個(gè)更常規(guī)的說(shuō)法，即任何兩個(gè)全局最小值都可以通過(guò)一條平坦的路徑連接。

在 MNIST 上的 CNN 或在 PTB 上的 RNN 已經(jīng)是這樣的情況，但是該項(xiàng)研究將這種認(rèn)知擴(kuò)展到了在更高級(jí)的數(shù)據(jù)集（CIFAR10 和 CIFAR100）上訓(xùn)練的更大網(wǎng)絡(luò)（一些 DenseNet 和 ResNet）上。為了找到這條路徑，他們使用了一種來(lái)自分子統(tǒng)計(jì)力學(xué)的啟發(fā)式方法，叫做 AutoNEB。其思想是在兩個(gè)極小值之間創(chuàng)建一個(gè)初始路徑（例如線性），并在該路徑上設(shè)置中心點(diǎn)。然后迭代地調(diào)整中心點(diǎn)的位置，以最小化每個(gè)中心點(diǎn)的損失，并確保中心點(diǎn)之間的距離保持不變（通過(guò)用彈簧建模中心點(diǎn)之間的空間）。

雖然他們沒(méi)有從理論上證明這個(gè)結(jié)果，但他們對(duì)為什么存在這樣的路徑給出了一些直觀的解釋：

如果我們擾亂單個(gè)參數(shù)，比如添加一個(gè)小常數(shù)，然后讓其它部分去自適應(yīng)這種變化，仍然可以使損失最小化。因此可以認(rèn)為，通過(guò)微調(diào)，無(wú)數(shù)其它參數(shù)可以「彌補(bǔ)」強(qiáng)加在一個(gè)參數(shù)上的改變。

因此，本文的結(jié)果可以幫助我們通過(guò)超參數(shù)化和高維空間，以不同的方式看待極小值。

通俗來(lái)說(shuō)，當(dāng)考慮神經(jīng)網(wǎng)絡(luò)的損失函數(shù)時(shí)，你應(yīng)該牢記一個(gè)給定的點(diǎn)周?chē)赡苡蟹浅６嗟姆较颉Ｓ纱说贸隽硪粋€(gè)結(jié)論，鞍點(diǎn)肯定比局部最小值多得多：在給定的關(guān)鍵點(diǎn)上，在數(shù)十億個(gè)可能的方向中，很可能會(huì)找到一個(gè)向下的方向（如果不是在全局最小值上）。這種認(rèn)知在 NIPS 2014 年發(fā)表的論文《Identifying and attacking the saddle point problem in high-dimensional non-convex optimization》中被嚴(yán)格規(guī)范化，并得到了實(shí)證證明。

為什么 SGD 收斂（或不收斂）？

深度神經(jīng)網(wǎng)絡(luò)優(yōu)化的第二個(gè)重要問(wèn)題與 SGD 的收斂性有關(guān)。雖然這種算法長(zhǎng)期以來(lái)被看做是一種快速的近似版梯度下降，但我們現(xiàn)在可以證明 SGD 實(shí)際上收斂于更好、更一般的最小值。但我們能否將其規(guī)范化并定量地解釋 SGD 脫離局部極小值或鞍點(diǎn)的能力？

SGD 修改了損失函數(shù)

論文《An Alternative View: When Does SGD Escape Local Minima?》表明，實(shí)施 SGD 相當(dāng)于在卷積（所以平滑）的損失函數(shù)上進(jìn)行常規(guī)梯度下降。根據(jù)這一觀點(diǎn)并在某些假設(shè)下，他們證明了 SGD 將設(shè)法脫離局部最小值，并收斂到全局最小值附近的一個(gè)小區(qū)域。

?SGD 由隨機(jī)微分方程控制?

連續(xù) SGD 徹底改變了我對(duì)這個(gè)算法的看法。在 ICML 2018 關(guān)于非凸優(yōu)化的研討會(huì)上，Yoshua Bengio 在他關(guān)于隨機(jī)梯度下降、平滑和泛化的演講中提出了這個(gè)想法。SGD 不是在損失函數(shù)上移動(dòng)一個(gè)點(diǎn)，而是一片點(diǎn)云或者說(shuō)一個(gè)分布。

幻燈片摘自 Y. Bengio 在 ICML 2018 發(fā)表的演講。他提出用分布（或點(diǎn)云）代替點(diǎn)來(lái)看待 SGD。

這個(gè)點(diǎn)云的大小（即相關(guān)分布的方差）與 learning_rate / batch_size 因子成正比。Pratik Chaudhari 和 Stefano Soatto 在論文《Stochastic gradient descent performs variational inference, converges to limit cycles for deep networks》中證明了這一點(diǎn)。這個(gè)公式非常直觀：較低的 batch size 意味著梯度非常混亂（因?yàn)橐跀?shù)據(jù)集一個(gè)非常小的子集上計(jì)算），高學(xué)習(xí)率意味著步驟混亂。

將 SGD 視為隨時(shí)間變化的分布可以得出：控制下降的方程現(xiàn)在是隨機(jī)偏微分方程。更準(zhǔn)確地說(shuō)，在某些假設(shè)下，論文表明控制方程實(shí)際上是一個(gè) Fokker-Planck 方程。

幻燈片摘自 P. Chaudhari 和 S. Soatto 在 ICML 2018 發(fā)表的演講——《High-dimensional Geometry and Dynamics of Stochastic Gradient Descent for Deep Networks》。他們展示了如何從離散系統(tǒng)過(guò)渡到 Fokker-Plank 方程所描述的連續(xù)系統(tǒng)。

在統(tǒng)計(jì)物理學(xué)中，這種類(lèi)型的方程描述了暴露在曳力 (使分布推移，即改變平均值) 和隨機(jī)力 (使分布擴(kuò)散，即增加方差) 下的粒子的演化。在 SGD 中，曳力由真實(shí)梯度建模，而隨機(jī)力則對(duì)應(yīng)算法的內(nèi)在噪聲。正如上面的幻燈片所示，擴(kuò)散項(xiàng)與溫度項(xiàng) T = 1 /β= learning_rate /(2 * batch_size) 成正比，這再次顯示了該比值的重要性！

Fokker-Planck 方程下分布的演化。它向左漂移，隨時(shí)間擴(kuò)散。圖源：維基百科

通過(guò)這個(gè)框架，Chaudhari 和 Soatto 證明了我們的分布將單調(diào)地收斂于某個(gè)穩(wěn)定的分布（從 KL 散度的意義來(lái)說(shuō)）：

Pratik Chaudhari 和 Stefano Soatto 論文的一個(gè)主要定理，證明了分布的單調(diào)會(huì)收斂到穩(wěn)定狀態(tài)（在 KL 散度意義中）。第二個(gè)方程表明，使 F 最小化相當(dāng)于最小化某個(gè)潛在的?以及擴(kuò)大熵的分布（溫度 1 /β控制的權(quán)衡）。

在上面的定理中有幾個(gè)有趣的觀點(diǎn)：

SGD 最小化的函數(shù)可以寫(xiě)成兩項(xiàng)之和（Eq. 11）：潛在Φ和熵的分布。溫度 1 /β控制這兩項(xiàng)的權(quán)衡。

潛在Φ只取決于數(shù)據(jù)和網(wǎng)絡(luò)的架構(gòu)（而非優(yōu)化過(guò)程）。如果它等于損失函數(shù)，SGD 將收斂到全局最小值。然而, 本文表明這種情況比較少見(jiàn)。而如果知道Φ與損失函數(shù)的距離，你將可以知道 SGD 收斂的概率。

最終分布的熵取決于 learning_rate/batch_size（溫度）的比例。直觀上看，熵與分布的大小有關(guān)，而高溫會(huì)導(dǎo)致分布具有更大的方差，這意味著一個(gè)平坦的極小值。平坦極小值的泛化能力更好，這與高學(xué)習(xí)率和低 batch size 能得到更優(yōu)最小值的經(jīng)驗(yàn)是一致的。

因此，將 SGD 看作是一個(gè)隨時(shí)間變化的分布表明，在收斂性和泛化方面，learning_rate/batch_size 比每個(gè)獨(dú)立的超參數(shù)更有意義。此外，它還引入了與收斂相關(guān)的網(wǎng)絡(luò)潛力，為架構(gòu)搜索提供了一個(gè)很好的度量。

?結(jié)論?

探索深度學(xué)習(xí)理論的過(guò)程可以分為兩部分：首先，通過(guò)簡(jiǎn)單的模型和實(shí)驗(yàn)，建立起關(guān)于深度學(xué)習(xí)理論如何及其為什么起作用的認(rèn)知，然后將這些理念以數(shù)學(xué)形式呈現(xiàn)，以幫助我們解釋當(dāng)前的結(jié)論并得到新的結(jié)果。

在第一篇文章中，我們?cè)噲D傳達(dá)更多關(guān)于神經(jīng)網(wǎng)絡(luò)高維損失函數(shù)和 SGD 解說(shuō)的直觀認(rèn)知，同時(shí)表明新的形式主義正在建立，目的是建立一個(gè)關(guān)于深層神經(jīng)網(wǎng)絡(luò)優(yōu)化的真正數(shù)學(xué)理論。

然而，雖然非凸優(yōu)化是深度學(xué)習(xí)的基石并且擁有大量的層數(shù)和參數(shù)，但它取得的成功大部分源于其優(yōu)秀的泛化能力。這將是下一篇文章將分享的內(nèi)容。

Sanjeev Arora：印度裔美國(guó)理論計(jì)算機(jī)科學(xué)家，他以研究概率可檢驗(yàn)證明，尤其是PCP定理而聞名。研究興趣包括計(jì)算復(fù)雜度理論、計(jì)算隨機(jī)性、概率可檢驗(yàn)證明等。他于2018年2月被推選為美國(guó)國(guó)家科學(xué)院院士，目前是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系教授。

∑編輯?|?Gemini

來(lái)源 | 數(shù)盟

算法數(shù)學(xué)之美微信公眾號(hào)歡迎賜稿

稿件涉及數(shù)學(xué)、物理、算法、計(jì)算機(jī)、編程等相關(guān)領(lǐng)域，經(jīng)采用我們將奉上稿酬。

投稿郵箱：math_alg@163.com

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的如何优雅地从四个方面加深对深度学习的理解的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：智能芯片的下一场战争是什么？
下一篇：当深度学习走进高考考场，会发生什么！！

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

pytorch

如何优雅地从四个方面加深对深度学习的理解

總結(jié)