當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

F-Principle：初探深度学习在计算数学的应用

發(fā)布時(shí)間：2024/10/8 pytorch 105 豆豆

生活随笔收集整理的這篇文章主要介紹了 F-Principle：初探深度学习在计算数学的应用小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者丨許志欽、張耀宇

學(xué)校丨紐約大學(xué)阿布扎比分校博士后、紐約大學(xué)庫(kù)朗研究所訪(fǎng)問(wèn)學(xué)者

研究方向丨計(jì)算神經(jīng)科學(xué)、深度學(xué)習(xí)理論

在上一篇文章F-Principle：初探理解深度學(xué)習(xí)不能做什么中，我們介紹了如何用一個(gè)統(tǒng)一的框架來(lái)初步理解深度學(xué)習(xí)的優(yōu)勢(shì)與局限。在這篇文章中，我們將探索如何利用我們對(duì)深度學(xué)習(xí)已有的理解來(lái)設(shè)計(jì)算法。我們期待這些初步的探索能對(duì)解決真實(shí)問(wèn)題起到引導(dǎo)作用。?

首先，我們回顧一下這個(gè)框架。我們的發(fā)現(xiàn)可以用一句話(huà)概括：深度學(xué)習(xí)傾向于優(yōu)先使用低頻來(lái)擬合目標(biāo)函數(shù)。我們將這個(gè)機(jī)制稱(chēng)為 F-Principle（頻率原則）。

我們先用一個(gè)簡(jiǎn)單的例子來(lái)理解 F-Principle。用一個(gè)深度神經(jīng)網(wǎng)絡(luò)（DNN）去擬合如下的紅色實(shí)線(xiàn)函數(shù)。訓(xùn)練完后，該曲線(xiàn)能被深度網(wǎng)絡(luò)（藍(lán)色點(diǎn)）很好地?cái)M合。

我們感興趣的是 DNN 的訓(xùn)練過(guò)程。如下圖動(dòng)畫(huà)所示，紅色為目標(biāo)函數(shù)的 FT（傅里葉變換），藍(lán)色為網(wǎng)絡(luò)輸出的 FT，每一幀表示一個(gè)訓(xùn)練步，橫坐標(biāo)是頻率，縱坐標(biāo)是振幅。

我們發(fā)現(xiàn)，在訓(xùn)練過(guò)程中，DNN 表示的函數(shù)的演化在頻域空間有一個(gè)清晰的規(guī)律，即頻率從低到高依次收斂。

部分讀者覺(jué)得 F-Principle 非常直觀，甚至非常顯然（trivial）。部分原因可能是因?yàn)?F-Principle 并不是一個(gè)陌生的概念，而是我們?nèi)粘Ｉ钪薪?jīng)常都在用的一個(gè)原則。想象一下，如果讓一個(gè)人去記住一個(gè)沒(méi)見(jiàn)過(guò)的東西，一般比較粗糙的輪廓信息會(huì)先被記住，然后再是很多細(xì)節(jié)。

沒(méi)錯(cuò)，DNN 也正是使用了這樣的一個(gè)學(xué)習(xí)過(guò)程。舉一個(gè)例子，我們來(lái)訓(xùn)練一個(gè) DNN 來(lái)記住一張圖片。DNN 的輸入是一個(gè)位置坐標(biāo) (x,y)，我們希望它輸出這個(gè)位置對(duì)應(yīng)的灰度值。

下圖的一系列圖展示了不同訓(xùn)練步數(shù)，DNN 學(xué)習(xí)到的圖像，正如我們前面所猜測(cè)的從粗糙的輪廓到細(xì)節(jié)的學(xué)習(xí)過(guò)程。

然而！更多的人非常驚訝于 DNN 有這樣簡(jiǎn)單的規(guī)則。特別地，在計(jì)算數(shù)學(xué)中，很多迭代格式都是先收斂高頻，例如 Jacobi 方法和 Gauss–Seidel 方法。由于低頻往往是比較重要的，因此高頻優(yōu)先的原則造成了很多苦惱。于是許多研究者手動(dòng)設(shè)計(jì)很多算法來(lái)提升收斂低頻的速度，比如多重網(wǎng)格法。

對(duì)于大部分 DNN，它并不需要任何顯示的條件或者手動(dòng)設(shè)計(jì)，它自然有低頻優(yōu)先的原則。舉個(gè)例子，考慮如下 Poisson 方程：

其中，。它的真實(shí)解如下圖曲線(xiàn)所示：

▲?黑色為Poisson方程的真解，插圖里紅色為真解的傅里葉變換

真解中有三個(gè)比較顯著的頻率峰值。如果我們用 Jacobi 迭代去解這個(gè)方程，如下圖，高頻先收斂。

▲?Jacobi迭代：三個(gè)重要頻率點(diǎn)處的相對(duì)誤差與訓(xùn)練步數(shù)的關(guān)系，紅色表示相對(duì)誤差小，高頻先收斂

如果我們用 DNN 來(lái)解這個(gè)方程，我們會(huì)得到完全不一樣的結(jié)果。DNN 的輸入為 x，我們用 DNN 的輸出去逼近真解 u(x)。損失函數(shù)采用 Poisson 方程的能量泛函。具體解的過(guò)程可以參見(jiàn)論文。如下圖所示，F-Principle 非常明顯，既低頻比高頻收斂得快很多。

▲?寬度為1-4000-500-400-1的DNN：三個(gè)重要頻率點(diǎn)處的相對(duì)誤差與訓(xùn)練步數(shù)的關(guān)系，紅色表示相對(duì)誤差小，低頻先收斂

一個(gè)自然的想法是，為了更快地解 Poisson 方程，我們可以先用 DNN 解出低頻部分。等低頻收斂好以后，將 DNN 的輸出作為 Jacobi 迭代的初值來(lái)繼續(xù)解 Poisson 方程。

在下圖中，我們展示了結(jié)合兩種方法的效果。下圖展示的是數(shù)值解和真實(shí)解之差的最大絕對(duì)值隨計(jì)算機(jī)運(yùn)行時(shí)間的變化。

▲?結(jié)合DNN與Jacobi來(lái)解Poisson方程。橫坐標(biāo)：計(jì)算機(jī)運(yùn)行時(shí)間?？v坐標(biāo)：數(shù)值解和真實(shí)解之差的最大絕對(duì)值。綠色星號(hào)：DNN的結(jié)果。虛線(xiàn)：Jacobi方法繼續(xù)運(yùn)算的結(jié)果，不同虛線(xiàn)表示選擇不同DNN訓(xùn)練時(shí)刻的輸出作為初值

如果單純使用 DNN，綠色星號(hào)表明在一段時(shí)間后，DNN 的輸出振蕩很厲害。三條虛線(xiàn)的結(jié)果是在不同時(shí)刻使用 Jacobi 繼續(xù)運(yùn)算的結(jié)果。最左邊的藍(lán)色虛線(xiàn)選擇的時(shí)刻過(guò)早，導(dǎo)致 Jacobi 方法需要花大時(shí)時(shí)間來(lái)收斂低頻，因此誤差下降很慢。最右邊的綠色虛線(xiàn)選擇的時(shí)刻過(guò)晚，導(dǎo)致大量時(shí)間花在 DNN 收斂高頻上。中間的橙色虛線(xiàn)剛好利用了 DNN 收斂好的低頻，并且馬上使用 Jacobi 方法快速收斂高頻，所以誤差在短時(shí)間內(nèi)能下降最快。

在偏微分方程的數(shù)值問(wèn)題中，有很多問(wèn)題對(duì)于傳統(tǒng)算法是很困難的。很多研究工作已經(jīng)開(kāi)始探索如何使用 DNN 來(lái)解這些問(wèn)題。

這個(gè)例子只是一個(gè)非常簡(jiǎn)單地情況，對(duì)于用 F-Principle 的理解來(lái)幫助 DNN 應(yīng)用在更復(fù)雜、更高維的問(wèn)題中，仍然有非常多值得探討的問(wèn)題。這個(gè)例子展示了在理解 DNN 的基礎(chǔ)上去使用 DNN，我們可以既利用 DNN 的強(qiáng)項(xiàng)，又能避免 DNN 的弱點(diǎn)。

參考文獻(xiàn)

Xu, Zhi-Qin John; Zhang, Yaoyu; Luo, Tao; Xiao, Yanyang & Ma, Zheng (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523.

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

Airbnb實(shí)時(shí)搜索排序中的Embedding技巧
圖神經(jīng)網(wǎng)絡(luò)綜述：模型與應(yīng)用
近期值得讀的10篇GAN進(jìn)展論文
自然語(yǔ)言處理中的語(yǔ)言模型預(yù)訓(xùn)練方法
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
深度思考 | 從BERT看大規(guī)模數(shù)據(jù)的無(wú)監(jiān)督利用
AI Challenger 2018 機(jī)器翻譯參賽總結(jié)
小米拍照黑科技：基于NAS的圖像超分辨率算法
異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)論文解讀
不懂Photoshop如何P圖？交給深度學(xué)習(xí)吧

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？?答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

??來(lái)稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來(lái)稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦

總結(jié)

以上是生活随笔為你收集整理的F-Principle：初探深度学习在计算数学的应用的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： arXiv热文解读 | 不懂Photos
下一篇：开学综合症有救了！17篇最新AI论文不容