F-Principle:初探深度学习在计算数学的应用
作者丨許志欽、張耀宇
學(xué)校丨紐約大學(xué)阿布扎比分校博士后、紐約大學(xué)庫朗研究所訪問學(xué)者
研究方向丨計算神經(jīng)科學(xué)、深度學(xué)習(xí)理論
在上一篇文章F-Principle:初探理解深度學(xué)習(xí)不能做什么中,我們介紹了如何用一個統(tǒng)一的框架來初步理解深度學(xué)習(xí)的優(yōu)勢與局限。在這篇文章中,我們將探索如何利用我們對深度學(xué)習(xí)已有的理解來設(shè)計算法。我們期待這些初步的探索能對解決真實問題起到引導(dǎo)作用。?
首先,我們回顧一下這個框架。我們的發(fā)現(xiàn)可以用一句話概括:深度學(xué)習(xí)傾向于優(yōu)先使用低頻來擬合目標(biāo)函數(shù)。我們將這個機制稱為 F-Principle(頻率原則)。
我們先用一個簡單的例子來理解 F-Principle。用一個深度神經(jīng)網(wǎng)絡(luò)(DNN)去擬合如下的紅色實線函數(shù)。訓(xùn)練完后,該曲線能被深度網(wǎng)絡(luò)(藍(lán)色點)很好地擬合。
我們感興趣的是 DNN 的訓(xùn)練過程。如下圖動畫所示,紅色為目標(biāo)函數(shù)的 FT(傅里葉變換),藍(lán)色為網(wǎng)絡(luò)輸出的 FT,每一幀表示一個訓(xùn)練步,橫坐標(biāo)是頻率,縱坐標(biāo)是振幅。
我們發(fā)現(xiàn),在訓(xùn)練過程中,DNN 表示的函數(shù)的演化在頻域空間有一個清晰的規(guī)律,即頻率從低到高依次收斂。
部分讀者覺得 F-Principle 非常直觀,甚至非常顯然(trivial)。部分原因可能是因為 F-Principle 并不是一個陌生的概念,而是我們?nèi)粘I钪薪?jīng)常都在用的一個原則。想象一下,如果讓一個人去記住一個沒見過的東西,一般比較粗糙的輪廓信息會先被記住,然后再是很多細(xì)節(jié)。
沒錯,DNN 也正是使用了這樣的一個學(xué)習(xí)過程。舉一個例子,我們來訓(xùn)練一個 DNN 來記住一張圖片。DNN 的輸入是一個位置坐標(biāo) (x,y),我們希望它輸出這個位置對應(yīng)的灰度值。
下圖的一系列圖展示了不同訓(xùn)練步數(shù),DNN 學(xué)習(xí)到的圖像,正如我們前面所猜測的從粗糙的輪廓到細(xì)節(jié)的學(xué)習(xí)過程。
然而!更多的人非常驚訝于 DNN 有這樣簡單的規(guī)則。特別地,在計算數(shù)學(xué)中,很多迭代格式都是先收斂高頻,例如 Jacobi 方法和 Gauss–Seidel 方法。由于低頻往往是比較重要的,因此高頻優(yōu)先的原則造成了很多苦惱。于是許多研究者手動設(shè)計很多算法來提升收斂低頻的速度,比如多重網(wǎng)格法。
對于大部分 DNN,它并不需要任何顯示的條件或者手動設(shè)計,它自然有低頻優(yōu)先的原則。舉個例子,考慮如下 Poisson 方程:
其中,。它的真實解如下圖曲線所示:
▲?黑色為Poisson方程的真解,插圖里紅色為真解的傅里葉變換
真解中有三個比較顯著的頻率峰值。如果我們用 Jacobi 迭代去解這個方程,如下圖,高頻先收斂。
▲?Jacobi迭代:三個重要頻率點處的相對誤差與訓(xùn)練步數(shù)的關(guān)系,紅色表示相對誤差小,高頻先收斂
如果我們用 DNN 來解這個方程,我們會得到完全不一樣的結(jié)果。DNN 的輸入為 x,我們用 DNN 的輸出去逼近真解 u(x)。損失函數(shù)采用 Poisson 方程的能量泛函。具體解的過程可以參見論文。如下圖所示,F-Principle 非常明顯,既低頻比高頻收斂得快很多。
▲?寬度為1-4000-500-400-1的DNN:三個重要頻率點處的相對誤差與訓(xùn)練步數(shù)的關(guān)系,紅色表示相對誤差小,低頻先收斂
一個自然的想法是,為了更快地解 Poisson 方程,我們可以先用 DNN 解出低頻部分。等低頻收斂好以后,將 DNN 的輸出作為 Jacobi 迭代的初值來繼續(xù)解 Poisson 方程。
在下圖中,我們展示了結(jié)合兩種方法的效果。下圖展示的是數(shù)值解和真實解之差的最大絕對值隨計算機運行時間的變化。
▲?結(jié)合DNN與Jacobi來解Poisson方程。橫坐標(biāo):計算機運行時間。縱坐標(biāo):數(shù)值解和真實解之差的最大絕對值。綠色星號:DNN的結(jié)果。虛線:Jacobi方法繼續(xù)運算的結(jié)果,不同虛線表示選擇不同DNN訓(xùn)練時刻的輸出作為初值
如果單純使用 DNN,綠色星號表明在一段時間后,DNN 的輸出振蕩很厲害。三條虛線的結(jié)果是在不同時刻使用 Jacobi 繼續(xù)運算的結(jié)果。最左邊的藍(lán)色虛線選擇的時刻過早,導(dǎo)致 Jacobi 方法需要花大時時間來收斂低頻,因此誤差下降很慢。最右邊的綠色虛線選擇的時刻過晚,導(dǎo)致大量時間花在 DNN 收斂高頻上。中間的橙色虛線剛好利用了 DNN 收斂好的低頻,并且馬上使用 Jacobi 方法快速收斂高頻,所以誤差在短時間內(nèi)能下降最快。
在偏微分方程的數(shù)值問題中,有很多問題對于傳統(tǒng)算法是很困難的。很多研究工作已經(jīng)開始探索如何使用 DNN 來解這些問題。
這個例子只是一個非常簡單地情況,對于用 F-Principle 的理解來幫助 DNN 應(yīng)用在更復(fù)雜、更高維的問題中,仍然有非常多值得探討的問題。這個例子展示了在理解 DNN 的基礎(chǔ)上去使用 DNN,我們可以既利用 DNN 的強項,又能避免 DNN 的弱點。
參考文獻(xiàn)
Xu, Zhi-Qin John; Zhang, Yaoyu; Luo, Tao; Xiao, Yanyang & Ma, Zheng (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523.
點擊以下標(biāo)題查看更多往期內(nèi)容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
近期值得讀的10篇GAN進展論文
自然語言處理中的語言模型預(yù)訓(xùn)練方法
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
深度思考 | 從BERT看大規(guī)模數(shù)據(jù)的無監(jiān)督利用
AI Challenger 2018 機器翻譯參賽總結(jié)
小米拍照黑科技:基于NAS的圖像超分辨率算法
異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)論文解讀
不懂Photoshop如何P圖?交給深度學(xué)習(xí)吧
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的F-Principle:初探深度学习在计算数学的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: arXiv热文解读 | 不懂Photos
- 下一篇: PFLD:简单高效的实用人脸关键点检测算