线性Frequency Principle动力学:定量理解深度学习的一种有效模型
關(guān)于作者:本文的作者是來(lái)自上海交通大學(xué)致遠(yuǎn)學(xué)院 08 級(jí)理科班的四位研究人員。本文由許志欽執(zhí)筆,張耀宇修改,羅濤和馬征審閱校正。這個(gè)小組的研究興趣主要是深度學(xué)習(xí)理論。
深度學(xué)習(xí)的廣泛成功吸引了大量的科研人員來(lái)探索其工作原理。時(shí)至今日,深度神經(jīng)網(wǎng)絡(luò)(DNN)的許多特性仍然令人費(fèi)解,比如在模型參數(shù)遠(yuǎn)多于訓(xùn)練樣本的情況下,DNN 通常能夠較好地泛化。
為了找到分析這個(gè)問(wèn)題的一種思路,我們將深度神經(jīng)網(wǎng)絡(luò)和熱力學(xué)系統(tǒng)進(jìn)行類比。在熱力學(xué)系統(tǒng)里,粒子數(shù)通常都能達(dá)到這樣的量級(jí),因此我們幾乎不可能通過(guò)對(duì)每個(gè)粒子的運(yùn)動(dòng)進(jìn)行準(zhǔn)確的牛頓力學(xué)刻畫來(lái)理解整個(gè)系統(tǒng)的宏觀性質(zhì)。
類似地,對(duì)于深度學(xué)習(xí),在很多實(shí)用的網(wǎng)絡(luò)構(gòu)架中,神經(jīng)元數(shù)目很容易達(dá)到萬(wàn)的量級(jí),參數(shù)數(shù)目成百萬(wàn)乃至上億都很常見(jiàn)。因此,雖然我們可以追蹤 DNN 每個(gè)參數(shù)的演化軌跡,但是仍然難以認(rèn)識(shí)其背后的規(guī)律。
基于以上類比,我們可以自然地借鑒物理學(xué)的研究方法來(lái)理解深度學(xué)習(xí)。從物理的角度研究一個(gè)復(fù)雜的系統(tǒng),我們通常從現(xiàn)象出發(fā),通過(guò)構(gòu)建一些定性乃至定量的有效模型來(lái)揭示系統(tǒng)演化的關(guān)鍵規(guī)律。
基于這樣一種思路,這篇文章我們從深度學(xué)習(xí)中一種廣泛存在現(xiàn)象——頻率原則(Frequency Principle 或 F-Principle)即 DNN 傾向于按從低頻到高頻的順序來(lái)擬合訓(xùn)練數(shù)據(jù)出發(fā),將給出一種能夠在一定情況下定量預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)結(jié)果的有效模型。?
我們先用一個(gè)簡(jiǎn)單的例子來(lái)理解 F-Principle。用一個(gè) DNN 去擬合下圖中紅色實(shí)線函數(shù),訓(xùn)練完后,DNN(藍(lán)色點(diǎn))能很好地?cái)M合該函數(shù)。
?
DNN 輸出函數(shù)在頻率空間的演化過(guò)程如下圖動(dòng)畫所示,其中紅色虛線為目標(biāo)函數(shù)的FT(傅里葉變換),藍(lán)色實(shí)線為 DNN 輸出函數(shù)的 FT,每一幀表示一個(gè)訓(xùn)練步,橫坐標(biāo)為頻率,縱坐標(biāo)為振幅。容易發(fā)現(xiàn),在訓(xùn)練過(guò)程中,DNN 輸出函數(shù)在頻域空間有一個(gè)清晰的演化規(guī)律,即其按頻率從低到高依次收斂。
為了定量預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)結(jié)果,基于 F-Principle,我們對(duì)一個(gè)單隱藏層的 ReLU(激活函數(shù))神經(jīng)網(wǎng)絡(luò):
注意:為了計(jì)算方便,我們對(duì)偏置項(xiàng)做了一點(diǎn)小改動(dòng)。N:隱藏層神經(jīng)元數(shù)目。
提出以下有效動(dòng)力學(xué)模型:
h: DNN 輸出;f: 目標(biāo)函數(shù);,其中,為訓(xùn)練數(shù)據(jù)點(diǎn);? ?: 傅里葉變換;ξ: 頻率;N: 隱藏層神經(jīng)元數(shù)目;d: 輸入維度;r: 神經(jīng)元的輸出權(quán)重;w: 神經(jīng)元的輸入權(quán)重;w 與 r 取初始化的值。注意模型不出現(xiàn) l。時(shí)間 t 趨于無(wú)窮時(shí),該模型的顯式解可以寫出來(lái)。
記為 Linear F-Principle(LFP)模型。模型右端系數(shù)項(xiàng)隨頻率ξ增加而衰減,顯式地表明低頻優(yōu)先即 F-Principle。整個(gè)動(dòng)力學(xué)只依賴于參數(shù)的統(tǒng)計(jì)性質(zhì),如參數(shù)的方差,參數(shù)整體合成的網(wǎng)絡(luò)輸出等,可以很好地類比于熱力學(xué)系統(tǒng)中密度、溫度、體積、壓強(qiáng)等統(tǒng)計(jì)量。?
下文中,我們首先用實(shí)驗(yàn)來(lái)驗(yàn)證這個(gè)模型的有效性。接著,我們說(shuō)明模型的由來(lái)。最后,我們介紹模型衍生出的可能研究方向。
?
對(duì)于輸入維度 d=1 的情況,我們先通過(guò)合適的初始化讓項(xiàng)占主導(dǎo)。這種情況下,由于該項(xiàng)對(duì)比隨頻率增大衰減更快,即低頻優(yōu)先級(jí)更高,模型的解比較光滑。
下圖可以看出,當(dāng)隱藏層僅有五百個(gè)神經(jīng)元的時(shí)候,經(jīng)過(guò)訓(xùn)練,深度學(xué)習(xí)的輸出(藍(lán)色)整體也比較光滑,并且基本符合 LFP 模型預(yù)測(cè)。當(dāng)神經(jīng)元數(shù)達(dá)到 16000 時(shí),LFP 模型的解與 DNN 學(xué)習(xí)到的擬合曲線幾乎完全重合。
?
當(dāng)我們通過(guò)特定的 DNN 參數(shù)初始化讓模型中衰減較慢的項(xiàng)占主導(dǎo)時(shí),模型解的光滑性會(huì)低一些。如下圖所示,LFP 模型的解與 DNN 學(xué)習(xí)到的擬合曲線幾乎完全重合。該曲線接近于一個(gè)分段線性函數(shù),在最小值處有一個(gè)明顯的尖角。
對(duì)于二維情形(d=2),我們用一個(gè)著名的 XOR 問(wèn)題來(lái)檢驗(yàn) LFP 模型的有效性。訓(xùn)練數(shù)據(jù)集有四個(gè)樣本點(diǎn),由白色星號(hào)標(biāo)記出來(lái)。訓(xùn)練結(jié)束后,DNN 輸出函數(shù)構(gòu)成了這四個(gè)點(diǎn)在二維區(qū)域 [-1,1]×[-1,1] 上的一個(gè)連續(xù)的插值函數(shù)(左圖)。中圖是 LFP 模型預(yù)測(cè)的插值函數(shù),與左圖非常相似。兩者之間定量的比較如右圖所示。容易看出,兩者在所有測(cè)試點(diǎn)(1600 個(gè)均勻分布的網(wǎng)格點(diǎn))上的值幾乎一致。
?
上述數(shù)值實(shí)驗(yàn)證明,當(dāng)神經(jīng)元數(shù)目很大時(shí),LFP 模型能夠非常有效地刻畫單隱藏層的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果。?
LFP 模型是基于神經(jīng)網(wǎng)絡(luò)的一種線性化的平均場(chǎng)動(dòng)力學(xué)得到的。其基本想法是在神經(jīng)元數(shù)目趨于無(wú)窮時(shí),DNN 可以用一個(gè)關(guān)于參數(shù)服從的概率分布的積分形式來(lái)表達(dá)(平均場(chǎng)表示)。
特別的,在該極限下,理論研究表明 DNN 的參數(shù)在其初始化的一個(gè)小鄰域內(nèi)便能找一個(gè)全局最優(yōu)解。因此,DNN 輸出函數(shù)在訓(xùn)練的任意時(shí)刻都可以用其在初始值附近的一階 Taylor 展開來(lái)很好地近似。
這種情況下,我們發(fā)現(xiàn)刻畫網(wǎng)絡(luò)訓(xùn)練的梯度流在傅里葉空間可以近似為一個(gè)簡(jiǎn)潔的形式,即 LFP 模型。在近似的推導(dǎo)中我們假設(shè)l 滿足均勻分布。實(shí)際實(shí)驗(yàn)中,l 服從其它分布的情況下,LFP 模型的預(yù)測(cè)與真實(shí)訓(xùn)練結(jié)果也很靠近。?
LFP 模型為神經(jīng)網(wǎng)絡(luò)的定量理解提供了全新的思路。首先,LFP 模型用一個(gè)簡(jiǎn)單的微分方程有效地刻畫了神經(jīng)網(wǎng)絡(luò)這樣一個(gè)參數(shù)極多的系統(tǒng)其訓(xùn)練過(guò)程的關(guān)鍵特征,并且能夠精確地預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果。因此該模型從一個(gè)新的角度建立了微分方程和神經(jīng)網(wǎng)絡(luò)的關(guān)系。由于微分方程是一個(gè)非常成熟的研究領(lǐng)域,我們相信該領(lǐng)域的工具可以幫助我們進(jìn)一步分析神經(jīng)網(wǎng)絡(luò)的訓(xùn)練行為。
其次,與統(tǒng)計(jì)物理類似,LFP 模型只與網(wǎng)絡(luò)參數(shù)的一些宏觀統(tǒng)計(jì)量有關(guān),而與單個(gè)參數(shù)的具體行為無(wú)關(guān)。這種統(tǒng)計(jì)刻畫可以幫助我們準(zhǔn)確理解在參數(shù)極多的情況下 DNN 的學(xué)習(xí)過(guò)程,從而解釋 DNN 在參數(shù)遠(yuǎn)多于訓(xùn)練樣本數(shù)時(shí)較好的泛化能力。
在該工作中,我們通過(guò)一個(gè)等價(jià)的優(yōu)化問(wèn)題來(lái)分析該 LFP 動(dòng)力學(xué)的演化結(jié)果,并且給出了網(wǎng)絡(luò)泛化誤差的一個(gè)先驗(yàn)估計(jì)。我們發(fā)現(xiàn)網(wǎng)絡(luò)的泛化誤差能夠被目標(biāo)函數(shù)f本身的一種 F-principle 范數(shù)(定義為,γ(ξ) 是一個(gè)隨頻率衰減的權(quán)重函數(shù))所控制。
值得注意的是, 我們的誤差估計(jì)針對(duì)神經(jīng)網(wǎng)絡(luò)本身的學(xué)習(xí)過(guò)程,并不需要在損失函數(shù)中添加額外的正則項(xiàng)。關(guān)于該誤差估計(jì)我們將在之后的介紹文章中作進(jìn)一步說(shuō)明。
?
參考文獻(xiàn)?
主要參考文獻(xiàn):?
Zhang, Y., Xu, Z.-Q. J.*, Luo, T. & Ma, Z. (2019a), ‘Explicitizing an Implicit Bias of the Frequency Principle in Two-layer Neural Networks’, arXiv:1905.10264 [cs, stat]. arXiv: 1905.10264.?
URL: http://arxiv.org/abs/1905.10264?
* Corresponding author: zhiqinxu@nyu.edu?
其它參考文獻(xiàn):?
Xu, Z.-Q. J., Zhang, Y., Luo, T., Xiao, Y. & Ma, Z. (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523.?
目前有十來(lái)個(gè)組跟進(jìn)了相關(guān)的研究,具體可以參見(jiàn):
“F-Principle in deep learning: an overview”.?
https://cims.nyu.edu/~xzhiqin/F-Principle_summary20190607.pdf
https://cims.nyu.edu/~xzhiqin
點(diǎn)擊以下標(biāo)題查看往期系列文章:?
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
F-Principle:初探理解深度學(xué)習(xí)不能做什么
F-Principle:初探深度學(xué)習(xí)在計(jì)算數(shù)學(xué)的應(yīng)用
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的线性Frequency Principle动力学:定量理解深度学习的一种有效模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: CVPR 2019 | 旷视研究院提出T
- 下一篇: CVPR 2019 | 人脸照片秒变艺术