當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从频率角度理解为什么深度可以加速神经网络的训练

發(fā)布時間：2024/10/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了从频率角度理解为什么深度可以加速神经网络的训练小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者｜周瀚旭、許志欽

單位｜上海交通大學(xué)

研究方向｜深度學(xué)習(xí)理論

深度加速訓(xùn)練的效應(yīng)

近些年來，隨著深度學(xué)習(xí)的發(fā)展，其已經(jīng)在圖像、語音、自然語言處理等各個不同的領(lǐng)域展現(xiàn)出了優(yōu)異的性能。在運用中，人們發(fā)現(xiàn)，更深層的神經(jīng)網(wǎng)絡(luò)往往比隱藏層較少的神經(jīng)網(wǎng)絡(luò)訓(xùn)練得快，也有更好的泛化性能。雖然，隨著神經(jīng)網(wǎng)絡(luò)的加深，可能會出現(xiàn)梯度消失的問題，但是通過例如 Resnet 殘差的手段，不僅能解決梯度消失的問題，還能夠提升網(wǎng)絡(luò)的訓(xùn)練速度與泛化性能。

比如何愷明在《Deep Residual Learning for Image Recognition》的實驗，由于加入了殘差塊，34 層的卷積神經(jīng)網(wǎng)絡(luò)的泛化性和訓(xùn)練速度都比 18 層的卷積神經(jīng)網(wǎng)絡(luò)要好。

泛化的問題往往還與數(shù)據(jù)集本身有密切的關(guān)系。因此，我們首先關(guān)注為什么加深網(wǎng)絡(luò)可以加快訓(xùn)練。為避免歧義，我們定義訓(xùn)練快慢是通過看網(wǎng)絡(luò)達到一個固定誤差所需要的訓(xùn)練步數(shù)。盡管更深的網(wǎng)絡(luò)每步需要的計算量更大，但這里我們先忽略這個因素。

為了研究這個問題，首先我們用一個簡單的實驗來重現(xiàn)這個現(xiàn)象。下圖是用不同層數(shù)但每層大小一致的 DNN 學(xué)習(xí)目標函數(shù) cos(3x)+cos(5x)，訓(xùn)練到一個固定精度所需要的步數(shù)圖。我們發(fā)現(xiàn)，越深層的神經(jīng)網(wǎng)絡(luò)，需要越少的步數(shù)，就能夠完成任務(wù)。

即使是對于這么簡單的任務(wù)，幾乎沒有文章能夠通過數(shù)學(xué)理論來解釋這樣的問題；盡管有一些工作開始分析深度線性網(wǎng)絡(luò)，但仍然幾乎沒有文章能夠從一個比較清晰的視角，通過實驗或理論，來解釋這樣一個非線性神經(jīng)網(wǎng)絡(luò)的現(xiàn)象。

因此，即使提供一個可能的理解視角，也是十分必要的。我們工作提出了一個深度頻率原則來解釋深度帶來的加速效應(yīng)。在這之前，我們首先來看一下什么叫頻率原則。

頻率原則（Frequency Principle）

頻率原則可以用一句話概括：深度學(xué)習(xí)傾向于優(yōu)先擬合目標函數(shù)的低頻部分。

我們先用一個簡單的例子來理解 F-Principle。用一個深度神經(jīng)網(wǎng)絡(luò)（DNN）去擬合如下的紅色實線函數(shù)。訓(xùn)練完成后，函數(shù)能被深度網(wǎng)絡(luò)（藍色點）很好地擬合。

我們想要從頻域的角度，觀察 DNN 的訓(xùn)練過程。如下圖動畫所示，紅色為目標函數(shù)的 FT（傅里葉變換），藍色為網(wǎng)絡(luò)輸出的FT，每一幀表示一個訓(xùn)練步，橫坐標是頻率，縱坐標是振幅。我們發(fā)現(xiàn)，隨著訓(xùn)練的進行，DNN 表示的函數(shù)在頻域空間顯現(xiàn)出了清晰的規(guī)律，即頻率從低到高依次收斂。

頻率原則雖然簡單，但它為理解深度學(xué)習(xí)的泛化以及設(shè)計高效的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提供了非常重要的基礎(chǔ)，并且現(xiàn)在已經(jīng)有一系列理論為頻率原則提供了支撐。

深度頻率原則

接下來，我們將從頻率視角來看深度的影響。對于隱藏層 hi，它的輸入是它前一層的輸出。在神經(jīng)網(wǎng)絡(luò)優(yōu)化過程中，梯度是反向傳播的，也就是說，當我們在更新隱藏層 hi 的參數(shù)時，誤差的信號是從真實標簽和神經(jīng)網(wǎng)絡(luò)輸出的差異開始向前傳播的。

因此，對于子網(wǎng)絡(luò)（從隱藏層 hi 到輸出層），它的等效目標函數(shù)是由隱藏層 hi 的前一層的輸出和真實的標簽構(gòu)成。基于此，我們在分析階段將整個多層的神經(jīng)網(wǎng)絡(luò)分成兩個部分，pre-condition component 和 learning component，并將著重分析 learning component 的等效目標函數(shù)在不同條件下的表現(xiàn)。注意，訓(xùn)練時，我們?nèi)匀幌裢Ｒ粯?#xff0c;訓(xùn)練所有的參數(shù)。

假設(shè)兩個不同的神經(jīng)網(wǎng)絡(luò)有相同的 learning component，即它們的最后若干層是相同的。若其中一個 learning component 的等效目標函數(shù)更加低頻，那這個神經(jīng)網(wǎng)絡(luò)的 learning component會學(xué)得更快。

顯然，learning component 學(xué)得更快，自然整個網(wǎng)絡(luò)也就學(xué)得更快。特別地，當 learning component 學(xué)好的時候，整個神經(jīng)網(wǎng)絡(luò)也就學(xué)好了。因此，這給了我們充分的理由相信，通過研究 learning component 的性質(zhì)，從這個角度出發(fā)，能夠?qū)Χ鄬由窠?jīng)網(wǎng)絡(luò)的本質(zhì)窺探一二。

現(xiàn)在我們需要做的就是找到一個可以刻畫高維函數(shù)頻率分布的量，再利用 F-principle 低頻先收斂的特性，我們就可以研究深度帶來的效應(yīng)了。因此，我們定義了 Ratio Density Function (RDF)。

本質(zhì)上，我們首先通過在傅立葉空間畫半徑為 r 的球，定義目標函數(shù)在 r 球內(nèi)的能量（L2 積分）占整個函數(shù)的能量比（通過高斯濾波獲得），即低頻能量比（Low frequency ratio，LFR）。這類似于概率的累積分布函數(shù)。下左圖，就是以 k??為半徑，函數(shù)的低頻部分與高頻部分。

然后我們對 LFR 在 r 方向上求導(dǎo)數(shù)得到 RDF，這可以解釋為函數(shù)在每個頻率上的能量密度。下右圖即是，sin（kπx）的 RDF，1/δ 就是半徑 r，并對峰值做了歸一化。不難看出，高頻函數(shù)的峰值在 r 較大的位置，低頻函數(shù)的峰值在 r 較小的位置。因此，RDF 適合用來刻畫高維函數(shù)的頻率分布。

最后，我們需要研究 learning component 的等效目標函數(shù)的 RDF。如果 learning component 的等效目標函數(shù)的 RDF 趨近于低頻，那么通過 F-principle，我們就知道其收斂得會比較快；相反，若其趨近于高頻，則其收斂得就會比較慢。

實驗上，我們先做了關(guān)于 Resnet18 的實驗，保持全連接層不變，改變 Resnet 卷積模塊的個數(shù)，定義最后三層為 learning component。

整個訓(xùn)練和往常一樣，訓(xùn)練所有的參數(shù)。在下圖中，-1、-2、-3、-4 的殘差塊依次減少，不難發(fā)現(xiàn)，擁有更多殘差塊的網(wǎng)絡(luò)不僅收斂速度更快，同時泛化性能也更好。

觀察其 learning component 的等效目標函數(shù)的 RDF，我們發(fā)現(xiàn)，擁有更多隱藏層（也就是網(wǎng)絡(luò)更深）的神經(jīng)網(wǎng)絡(luò)其 learning component 相比淺網(wǎng)絡(luò)會更趨于低頻，并最后保持在更加低頻處。我們得到了 Deep Frequency Principle——更深層神經(jīng)網(wǎng)絡(luò)的有效目標函數(shù)在訓(xùn)練的過程中會更趨近于低頻。

再基于 F-principle——低頻先收斂，我們就能夠得到更深層的神經(jīng)網(wǎng)絡(luò)收斂得更快的結(jié)果。盡管頻率是一個相對可以定量和容易分析的量，但當前實驗跨越了多個不同結(jié)構(gòu)的網(wǎng)絡(luò)，也會給未來理論分析造成困難。因此，我們后面研究單個神經(jīng)網(wǎng)絡(luò)中的 Deep Frequency Principle。

于是，我們探究同一個深度神經(jīng)網(wǎng)絡(luò)內(nèi)不同隱藏層的等效目標函數(shù)的 RDF，即改變 pre-condition 和 learning component 的層數(shù)（但保持網(wǎng)絡(luò)的結(jié)構(gòu)和總層數(shù)不變）。這個實驗是在 MNIST 上的，深度神經(jīng)網(wǎng)絡(luò)（DNN），并取了 5 個相同大小的隱藏層。

在下圖中，我們發(fā)現(xiàn)，雖然初始時神經(jīng)網(wǎng)絡(luò)更深層的等效目標函數(shù)的 RDF 聚集于較高頻處，但隨著訓(xùn)練，更深層的 RDF 會快速地趨于更低頻的地方，并保持在低頻處。這也是 Deep Frequency Principle——更深層的神經(jīng)網(wǎng)絡(luò)的有效目標函數(shù)會在訓(xùn)練的過程中會更趨近于低頻。

在該工作中，基于傅里葉分析以及對 F-principle 的理解，我們給出了一個新的角度來處理和看待多層、深層的前饋神經(jīng)網(wǎng)絡(luò)，即通過分成 pre-condition component 和 learning component 兩個部分，研究 learning component 的等效目標函數(shù)的 RDF，得到 Deep frequency principle，并最終提供了一種可能的角度來解釋為何多層的網(wǎng)絡(luò)能夠訓(xùn)練得更快！相信這個工作會為未來的理論分析提供重要的實驗基礎(chǔ)。

關(guān)于作者：

周瀚旭，許志欽上海交通大學(xué)

聯(lián)系：xuzhiqin@sjtu.edu.cn

https://ins.sjtu.edu.cn/people/xuzhiqin/

參考文獻

[1]?Deep frequency principle towards understanding why deeper learning is faster.? Zhi-Qin John Xu and Hanxu Zhou, arXiv: 2007.14313. (to apear in AAAI-2021)

[2]?Zhi-Qin John Xu; Yaoyu Zhang; Tao Luo; Yanyang Xiao, Zheng Ma , ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv:1901.06523. (2020, CiCP)

[3]?Zhi-Qin John Xu; Yaoyu Zhang; Yanyang Xiao, Training behavior of deep neural network in frequency domain, arXiv preprint arXiv: 1807.01251.?International Conference on Neural Information Processing.

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā)，均會添加“原創(chuàng)”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式（微信或手機），以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的从频率角度理解为什么深度可以加速神经网络的训练的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：为什么彩票店里面的都是店主不买彩票的呢？
下一篇：从动力学角度看优化算法：为什么SimSi