F-Principle:初探深度学习在计算数学的应用
作者丨許志欽、張耀宇
學(xué)校丨紐約大學(xué)阿布扎比分校博士后、紐約大學(xué)庫(kù)朗研究所訪(fǎng)問(wèn)學(xué)者
研究方向丨計(jì)算神經(jīng)科學(xué)、深度學(xué)習(xí)理論
在上一篇文章F-Principle:初探理解深度學(xué)習(xí)不能做什么中,我們介紹了如何用一個(gè)統(tǒng)一的框架來(lái)初步理解深度學(xué)習(xí)的優(yōu)勢(shì)與局限。在這篇文章中,我們將探索如何利用我們對(duì)深度學(xué)習(xí)已有的理解來(lái)設(shè)計(jì)算法。我們期待這些初步的探索能對(duì)解決真實(shí)問(wèn)題起到引導(dǎo)作用。?
首先,我們回顧一下這個(gè)框架。我們的發(fā)現(xiàn)可以用一句話(huà)概括:深度學(xué)習(xí)傾向于優(yōu)先使用低頻來(lái)擬合目標(biāo)函數(shù)。我們將這個(gè)機(jī)制稱(chēng)為 F-Principle(頻率原則)。
我們先用一個(gè)簡(jiǎn)單的例子來(lái)理解 F-Principle。用一個(gè)深度神經(jīng)網(wǎng)絡(luò)(DNN)去擬合如下的紅色實(shí)線(xiàn)函數(shù)。訓(xùn)練完后,該曲線(xiàn)能被深度網(wǎng)絡(luò)(藍(lán)色點(diǎn))很好地?cái)M合。
我們感興趣的是 DNN 的訓(xùn)練過(guò)程。如下圖動(dòng)畫(huà)所示,紅色為目標(biāo)函數(shù)的 FT(傅里葉變換),藍(lán)色為網(wǎng)絡(luò)輸出的 FT,每一幀表示一個(gè)訓(xùn)練步,橫坐標(biāo)是頻率,縱坐標(biāo)是振幅。
我們發(fā)現(xiàn),在訓(xùn)練過(guò)程中,DNN 表示的函數(shù)的演化在頻域空間有一個(gè)清晰的規(guī)律,即頻率從低到高依次收斂。
部分讀者覺(jué)得 F-Principle 非常直觀,甚至非常顯然(trivial)。部分原因可能是因?yàn)?F-Principle 并不是一個(gè)陌生的概念,而是我們?nèi)粘I钪薪?jīng)常都在用的一個(gè)原則。想象一下,如果讓一個(gè)人去記住一個(gè)沒(méi)見(jiàn)過(guò)的東西,一般比較粗糙的輪廓信息會(huì)先被記住,然后再是很多細(xì)節(jié)。
沒(méi)錯(cuò),DNN 也正是使用了這樣的一個(gè)學(xué)習(xí)過(guò)程。舉一個(gè)例子,我們來(lái)訓(xùn)練一個(gè) DNN 來(lái)記住一張圖片。DNN 的輸入是一個(gè)位置坐標(biāo) (x,y),我們希望它輸出這個(gè)位置對(duì)應(yīng)的灰度值。
下圖的一系列圖展示了不同訓(xùn)練步數(shù),DNN 學(xué)習(xí)到的圖像,正如我們前面所猜測(cè)的從粗糙的輪廓到細(xì)節(jié)的學(xué)習(xí)過(guò)程。
然而!更多的人非常驚訝于 DNN 有這樣簡(jiǎn)單的規(guī)則。特別地,在計(jì)算數(shù)學(xué)中,很多迭代格式都是先收斂高頻,例如 Jacobi 方法和 Gauss–Seidel 方法。由于低頻往往是比較重要的,因此高頻優(yōu)先的原則造成了很多苦惱。于是許多研究者手動(dòng)設(shè)計(jì)很多算法來(lái)提升收斂低頻的速度,比如多重網(wǎng)格法。
對(duì)于大部分 DNN,它并不需要任何顯示的條件或者手動(dòng)設(shè)計(jì),它自然有低頻優(yōu)先的原則。舉個(gè)例子,考慮如下 Poisson 方程:
其中,。它的真實(shí)解如下圖曲線(xiàn)所示:
▲?黑色為Poisson方程的真解,插圖里紅色為真解的傅里葉變換
真解中有三個(gè)比較顯著的頻率峰值。如果我們用 Jacobi 迭代去解這個(gè)方程,如下圖,高頻先收斂。
▲?Jacobi迭代:三個(gè)重要頻率點(diǎn)處的相對(duì)誤差與訓(xùn)練步數(shù)的關(guān)系,紅色表示相對(duì)誤差小,高頻先收斂
如果我們用 DNN 來(lái)解這個(gè)方程,我們會(huì)得到完全不一樣的結(jié)果。DNN 的輸入為 x,我們用 DNN 的輸出去逼近真解 u(x)。損失函數(shù)采用 Poisson 方程的能量泛函。具體解的過(guò)程可以參見(jiàn)論文。如下圖所示,F-Principle 非常明顯,既低頻比高頻收斂得快很多。
▲?寬度為1-4000-500-400-1的DNN:三個(gè)重要頻率點(diǎn)處的相對(duì)誤差與訓(xùn)練步數(shù)的關(guān)系,紅色表示相對(duì)誤差小,低頻先收斂
一個(gè)自然的想法是,為了更快地解 Poisson 方程,我們可以先用 DNN 解出低頻部分。等低頻收斂好以后,將 DNN 的輸出作為 Jacobi 迭代的初值來(lái)繼續(xù)解 Poisson 方程。
在下圖中,我們展示了結(jié)合兩種方法的效果。下圖展示的是數(shù)值解和真實(shí)解之差的最大絕對(duì)值隨計(jì)算機(jī)運(yùn)行時(shí)間的變化。
▲?結(jié)合DNN與Jacobi來(lái)解Poisson方程。橫坐標(biāo):計(jì)算機(jī)運(yùn)行時(shí)間??v坐標(biāo):數(shù)值解和真實(shí)解之差的最大絕對(duì)值。綠色星號(hào):DNN的結(jié)果。虛線(xiàn):Jacobi方法繼續(xù)運(yùn)算的結(jié)果,不同虛線(xiàn)表示選擇不同DNN訓(xùn)練時(shí)刻的輸出作為初值
如果單純使用 DNN,綠色星號(hào)表明在一段時(shí)間后,DNN 的輸出振蕩很厲害。三條虛線(xiàn)的結(jié)果是在不同時(shí)刻使用 Jacobi 繼續(xù)運(yùn)算的結(jié)果。最左邊的藍(lán)色虛線(xiàn)選擇的時(shí)刻過(guò)早,導(dǎo)致 Jacobi 方法需要花大時(shí)時(shí)間來(lái)收斂低頻,因此誤差下降很慢。最右邊的綠色虛線(xiàn)選擇的時(shí)刻過(guò)晚,導(dǎo)致大量時(shí)間花在 DNN 收斂高頻上。中間的橙色虛線(xiàn)剛好利用了 DNN 收斂好的低頻,并且馬上使用 Jacobi 方法快速收斂高頻,所以誤差在短時(shí)間內(nèi)能下降最快。
在偏微分方程的數(shù)值問(wèn)題中,有很多問(wèn)題對(duì)于傳統(tǒng)算法是很困難的。很多研究工作已經(jīng)開(kāi)始探索如何使用 DNN 來(lái)解這些問(wèn)題。
這個(gè)例子只是一個(gè)非常簡(jiǎn)單地情況,對(duì)于用 F-Principle 的理解來(lái)幫助 DNN 應(yīng)用在更復(fù)雜、更高維的問(wèn)題中,仍然有非常多值得探討的問(wèn)題。這個(gè)例子展示了在理解 DNN 的基礎(chǔ)上去使用 DNN,我們可以既利用 DNN 的強(qiáng)項(xiàng),又能避免 DNN 的弱點(diǎn)。
參考文獻(xiàn)
Xu, Zhi-Qin John; Zhang, Yaoyu; Luo, Tao; Xiao, Yanyang & Ma, Zheng (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523.
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
Airbnb實(shí)時(shí)搜索排序中的Embedding技巧
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
近期值得讀的10篇GAN進(jìn)展論文
自然語(yǔ)言處理中的語(yǔ)言模型預(yù)訓(xùn)練方法
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
深度思考 | 從BERT看大規(guī)模數(shù)據(jù)的無(wú)監(jiān)督利用
AI Challenger 2018 機(jī)器翻譯參賽總結(jié)
小米拍照黑科技:基于NAS的圖像超分辨率算法
異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)論文解讀
不懂Photoshop如何P圖?交給深度學(xué)習(xí)吧
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的F-Principle:初探深度学习在计算数学的应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: arXiv热文解读 | 不懂Photos
- 下一篇: 开学综合症有救了!17篇最新AI论文不容