當(dāng)前位置：首頁(yè) >

线性Frequency Principle动力学：定量理解深度学习的一种有效模型

發(fā)布時(shí)間：2024/10/8 142 豆豆

生活随笔收集整理的這篇文章主要介紹了线性Frequency Principle动力学：定量理解深度学习的一种有效模型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

關(guān)于作者：本文的作者是來(lái)自上海交通大學(xué)致遠(yuǎn)學(xué)院 08 級(jí)理科班的四位研究人員。本文由許志欽執(zhí)筆，張耀宇修改，羅濤和馬征審閱校正。這個(gè)小組的研究興趣主要是深度學(xué)習(xí)理論。

深度學(xué)習(xí)的廣泛成功吸引了大量的科研人員來(lái)探索其工作原理。時(shí)至今日，深度神經(jīng)網(wǎng)絡(luò)（DNN）的許多特性仍然令人費(fèi)解，比如在模型參數(shù)遠(yuǎn)多于訓(xùn)練樣本的情況下，DNN 通常能夠較好地泛化。

為了找到分析這個(gè)問(wèn)題的一種思路，我們將深度神經(jīng)網(wǎng)絡(luò)和熱力學(xué)系統(tǒng)進(jìn)行類比。在熱力學(xué)系統(tǒng)里，粒子數(shù)通常都能達(dá)到這樣的量級(jí)，因此我們幾乎不可能通過(guò)對(duì)每個(gè)粒子的運(yùn)動(dòng)進(jìn)行準(zhǔn)確的牛頓力學(xué)刻畫來(lái)理解整個(gè)系統(tǒng)的宏觀性質(zhì)。

類似地，對(duì)于深度學(xué)習(xí)，在很多實(shí)用的網(wǎng)絡(luò)構(gòu)架中，神經(jīng)元數(shù)目很容易達(dá)到萬(wàn)的量級(jí)，參數(shù)數(shù)目成百萬(wàn)乃至上億都很常見(jiàn)。因此，雖然我們可以追蹤 DNN 每個(gè)參數(shù)的演化軌跡，但是仍然難以認(rèn)識(shí)其背后的規(guī)律。

基于以上類比，我們可以自然地借鑒物理學(xué)的研究方法來(lái)理解深度學(xué)習(xí)。從物理的角度研究一個(gè)復(fù)雜的系統(tǒng)，我們通常從現(xiàn)象出發(fā)，通過(guò)構(gòu)建一些定性乃至定量的有效模型來(lái)揭示系統(tǒng)演化的關(guān)鍵規(guī)律。

基于這樣一種思路，這篇文章我們從深度學(xué)習(xí)中一種廣泛存在現(xiàn)象——頻率原則（Frequency Principle 或 F-Principle）即 DNN 傾向于按從低頻到高頻的順序來(lái)擬合訓(xùn)練數(shù)據(jù)出發(fā)，將給出一種能夠在一定情況下定量預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)結(jié)果的有效模型。?

我們先用一個(gè)簡(jiǎn)單的例子來(lái)理解 F-Principle。用一個(gè) DNN 去擬合下圖中紅色實(shí)線函數(shù)，訓(xùn)練完后，DNN（藍(lán)色點(diǎn)）能很好地?cái)M合該函數(shù)。

DNN 輸出函數(shù)在頻率空間的演化過(guò)程如下圖動(dòng)畫所示，其中紅色虛線為目標(biāo)函數(shù)的FT（傅里葉變換），藍(lán)色實(shí)線為 DNN 輸出函數(shù)的 FT，每一幀表示一個(gè)訓(xùn)練步，橫坐標(biāo)為頻率，縱坐標(biāo)為振幅。容易發(fā)現(xiàn)，在訓(xùn)練過(guò)程中，DNN 輸出函數(shù)在頻域空間有一個(gè)清晰的演化規(guī)律，即其按頻率從低到高依次收斂。

為了定量預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)結(jié)果，基于 F-Principle，我們對(duì)一個(gè)單隱藏層的 ReLU（激活函數(shù)）神經(jīng)網(wǎng)絡(luò)：

注意：為了計(jì)算方便，我們對(duì)偏置項(xiàng)做了一點(diǎn)小改動(dòng)。N：隱藏層神經(jīng)元數(shù)目。

提出以下有效動(dòng)力學(xué)模型：

h: DNN 輸出；f: 目標(biāo)函數(shù)；，其中，為訓(xùn)練數(shù)據(jù)點(diǎn)；? ?: 傅里葉變換；ξ: 頻率；N: 隱藏層神經(jīng)元數(shù)目；d: 輸入維度；r: 神經(jīng)元的輸出權(quán)重；w: 神經(jīng)元的輸入權(quán)重；w 與 r 取初始化的值。注意模型不出現(xiàn) l。時(shí)間 t 趨于無(wú)窮時(shí)，該模型的顯式解可以寫出來(lái)。

記為 Linear F-Principle（LFP）模型。模型右端系數(shù)項(xiàng)隨頻率ξ增加而衰減，顯式地表明低頻優(yōu)先即 F-Principle。整個(gè)動(dòng)力學(xué)只依賴于參數(shù)的統(tǒng)計(jì)性質(zhì)，如參數(shù)的方差，參數(shù)整體合成的網(wǎng)絡(luò)輸出等，可以很好地類比于熱力學(xué)系統(tǒng)中密度、溫度、體積、壓強(qiáng)等統(tǒng)計(jì)量。?

下文中，我們首先用實(shí)驗(yàn)來(lái)驗(yàn)證這個(gè)模型的有效性。接著，我們說(shuō)明模型的由來(lái)。最后，我們介紹模型衍生出的可能研究方向。

對(duì)于輸入維度 d=1 的情況，我們先通過(guò)合適的初始化讓項(xiàng)占主導(dǎo)。這種情況下，由于該項(xiàng)對(duì)比隨頻率增大衰減更快，即低頻優(yōu)先級(jí)更高，模型的解比較光滑。

下圖可以看出，當(dāng)隱藏層僅有五百個(gè)神經(jīng)元的時(shí)候，經(jīng)過(guò)訓(xùn)練，深度學(xué)習(xí)的輸出（藍(lán)色）整體也比較光滑，并且基本符合 LFP 模型預(yù)測(cè)。當(dāng)神經(jīng)元數(shù)達(dá)到 16000 時(shí)，LFP 模型的解與 DNN 學(xué)習(xí)到的擬合曲線幾乎完全重合。

當(dāng)我們通過(guò)特定的 DNN 參數(shù)初始化讓模型中衰減較慢的項(xiàng)占主導(dǎo)時(shí)，模型解的光滑性會(huì)低一些。如下圖所示，LFP 模型的解與 DNN 學(xué)習(xí)到的擬合曲線幾乎完全重合。該曲線接近于一個(gè)分段線性函數(shù)，在最小值處有一個(gè)明顯的尖角。

對(duì)于二維情形（d=2），我們用一個(gè)著名的 XOR 問(wèn)題來(lái)檢驗(yàn) LFP 模型的有效性。訓(xùn)練數(shù)據(jù)集有四個(gè)樣本點(diǎn)，由白色星號(hào)標(biāo)記出來(lái)。訓(xùn)練結(jié)束后，DNN 輸出函數(shù)構(gòu)成了這四個(gè)點(diǎn)在二維區(qū)域 [-1,1]×[-1,1] 上的一個(gè)連續(xù)的插值函數(shù)（左圖）。中圖是 LFP 模型預(yù)測(cè)的插值函數(shù)，與左圖非常相似。兩者之間定量的比較如右圖所示。容易看出，兩者在所有測(cè)試點(diǎn)（1600 個(gè)均勻分布的網(wǎng)格點(diǎn)）上的值幾乎一致。

上述數(shù)值實(shí)驗(yàn)證明，當(dāng)神經(jīng)元數(shù)目很大時(shí)，LFP 模型能夠非常有效地刻畫單隱藏層的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果。?

LFP 模型是基于神經(jīng)網(wǎng)絡(luò)的一種線性化的平均場(chǎng)動(dòng)力學(xué)得到的。其基本想法是在神經(jīng)元數(shù)目趨于無(wú)窮時(shí)，DNN 可以用一個(gè)關(guān)于參數(shù)服從的概率分布的積分形式來(lái)表達(dá)（平均場(chǎng)表示）。

特別的，在該極限下，理論研究表明 DNN 的參數(shù)在其初始化的一個(gè)小鄰域內(nèi)便能找一個(gè)全局最優(yōu)解。因此，DNN 輸出函數(shù)在訓(xùn)練的任意時(shí)刻都可以用其在初始值附近的一階 Taylor 展開來(lái)很好地近似。

這種情況下，我們發(fā)現(xiàn)刻畫網(wǎng)絡(luò)訓(xùn)練的梯度流在傅里葉空間可以近似為一個(gè)簡(jiǎn)潔的形式，即 LFP 模型。在近似的推導(dǎo)中我們假設(shè)l 滿足均勻分布。實(shí)際實(shí)驗(yàn)中，l 服從其它分布的情況下，LFP 模型的預(yù)測(cè)與真實(shí)訓(xùn)練結(jié)果也很靠近。?

LFP 模型為神經(jīng)網(wǎng)絡(luò)的定量理解提供了全新的思路。首先，LFP 模型用一個(gè)簡(jiǎn)單的微分方程有效地刻畫了神經(jīng)網(wǎng)絡(luò)這樣一個(gè)參數(shù)極多的系統(tǒng)其訓(xùn)練過(guò)程的關(guān)鍵特征，并且能夠精確地預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果。因此該模型從一個(gè)新的角度建立了微分方程和神經(jīng)網(wǎng)絡(luò)的關(guān)系。由于微分方程是一個(gè)非常成熟的研究領(lǐng)域，我們相信該領(lǐng)域的工具可以幫助我們進(jìn)一步分析神經(jīng)網(wǎng)絡(luò)的訓(xùn)練行為。

其次，與統(tǒng)計(jì)物理類似，LFP 模型只與網(wǎng)絡(luò)參數(shù)的一些宏觀統(tǒng)計(jì)量有關(guān)，而與單個(gè)參數(shù)的具體行為無(wú)關(guān)。這種統(tǒng)計(jì)刻畫可以幫助我們準(zhǔn)確理解在參數(shù)極多的情況下 DNN 的學(xué)習(xí)過(guò)程，從而解釋 DNN 在參數(shù)遠(yuǎn)多于訓(xùn)練樣本數(shù)時(shí)較好的泛化能力。

在該工作中，我們通過(guò)一個(gè)等價(jià)的優(yōu)化問(wèn)題來(lái)分析該 LFP 動(dòng)力學(xué)的演化結(jié)果，并且給出了網(wǎng)絡(luò)泛化誤差的一個(gè)先驗(yàn)估計(jì)。我們發(fā)現(xiàn)網(wǎng)絡(luò)的泛化誤差能夠被目標(biāo)函數(shù)f本身的一種 F-principle 范數(shù)（定義為，γ(ξ) 是一個(gè)隨頻率衰減的權(quán)重函數(shù)）所控制。

值得注意的是，我們的誤差估計(jì)針對(duì)神經(jīng)網(wǎng)絡(luò)本身的學(xué)習(xí)過(guò)程，并不需要在損失函數(shù)中添加額外的正則項(xiàng)。關(guān)于該誤差估計(jì)我們將在之后的介紹文章中作進(jìn)一步說(shuō)明。

參考文獻(xiàn)?

主要參考文獻(xiàn)：?

Zhang, Y., Xu, Z.-Q. J.*, Luo, T. & Ma, Z. (2019a), ‘Explicitizing an Implicit Bias of the Frequency Principle in Two-layer Neural Networks’, arXiv:1905.10264 [cs, stat]. arXiv: 1905.10264.?

URL: http://arxiv.org/abs/1905.10264?

* Corresponding author: zhiqinxu@nyu.edu?

其它參考文獻(xiàn)：?

Xu, Z.-Q. J., Zhang, Y., Luo, T., Xiao, Y. & Ma, Z. (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523.?

目前有十來(lái)個(gè)組跟進(jìn)了相關(guān)的研究，具體可以參見(jiàn)：

“F-Principle in deep learning: an overview”.?

https://cims.nyu.edu/~xzhiqin/F-Principle_summary20190607.pdf

https://cims.nyu.edu/~xzhiqin

點(diǎn)擊以下標(biāo)題查看往期系列文章：?

從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
F-Principle：初探理解深度學(xué)習(xí)不能做什么
F-Principle：初探深度學(xué)習(xí)在計(jì)算數(shù)學(xué)的應(yīng)用

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

??來(lái)稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來(lái)稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦

總結(jié)

以上是生活随笔為你收集整理的线性Frequency Principle动力学：定量理解深度学习的一种有效模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： CVPR 2019 | 旷视研究院提出T
下一篇： CVPR 2019 | 人脸照片秒变艺术

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

线性Frequency Principle动力学：定量理解深度学习的一种有效模型

參考文獻(xiàn)?

總結(jié)