理解神经网络函数高频成分的收敛率界限
?作者?|?王志偉、羅濤、許志欽
單位?|?上海交通大學
神經(jīng)網(wǎng)絡的頻率原則
深度神經(jīng)網(wǎng)絡(DNN)在監(jiān)督學習問題上展現(xiàn)出了其廣泛的應用前景。近期的一系列的研究表明,神經(jīng)網(wǎng)絡的輸出關于頻率存在一種隱式偏差,即神經(jīng)網(wǎng)絡在訓練過程中,往往會從低頻到高頻擬合目標函數(shù)的訓練集,如下圖所示。我們將這一現(xiàn)象稱為頻率原則(更加詳細的介紹請參考?F-Principle:初探深度學習在計算數(shù)學的應用和?F-Principle:初探理解深度學習不能做什么)。
▲ 紅色為目標函數(shù)的傅里葉變換,藍色為 DNN 輸出的傅里葉變換,每一幀表示一個訓練步,橫坐標是頻率,縱坐標是振幅。
在測試集上,從眾多滿足訓練誤差最小的解中,過參數(shù)化的神經(jīng)網(wǎng)絡由于頻率原則會傾向于選擇低頻成分占主導的函數(shù),即經(jīng)過 Fourier 變換后,較大的系數(shù)主要集中在低頻項。由于真實數(shù)據(jù)往往是低頻占主導的,因此神經(jīng)網(wǎng)絡在真實數(shù)據(jù)上往往具有不錯的泛化性。
一個自然的問題是,神經(jīng)網(wǎng)絡輸出函數(shù)的 Fourier 變換關于頻率的衰減具有什么樣的特性?能否設計算法來加速神經(jīng)網(wǎng)絡輸出函數(shù)與目標函數(shù)的 Fourier 系數(shù)誤差隨頻率增大而衰減的速度?如果可以,最多能加速到多少?
研究這樣的問題可以使我們更好地了解神經(jīng)網(wǎng)絡在擬合高頻函數(shù)(即 Fourier 變換后,較大的系數(shù)主要集中在高頻項的函數(shù))時的表現(xiàn),從而設計更加有效的算法加速高頻函數(shù)收斂,擴大神經(jīng)網(wǎng)絡的應用范圍。
論文標題:
An Upper Limit of Decaying Rate with Respect to Frequency in Deep Neural Network
論文作者:
Tao Luo, Zheng Ma, Zhiwei Wang, Zhi-Qin John Xu, Yaoyu Zhang
論文鏈接:
https://arxiv.org/abs/2105.11675
Fourier域變分問題與其適定性條件
為回答上述一系列問題,我們設想能否從神經(jīng)網(wǎng)絡出發(fā),抽象出一個監(jiān)督學習的算法框架,通過研究該框架中輸出函數(shù)的性質(zhì)來推導神經(jīng)網(wǎng)絡的相關性質(zhì)。
有關研究表明,一個以 ReLU 為激活函數(shù)的兩層的無窮寬神經(jīng)網(wǎng)絡(為方便,設置初始網(wǎng)絡輸出函數(shù)為 0),其訓練終止時的輸出函數(shù) ?滿足以下變分問題:
其中 是數(shù)據(jù)的輸入維度, 為依賴網(wǎng)絡的初始化參數(shù)的常量, 表示的 Fourier 變換, 表示頻率。從上式可以看出,從 Fourier 域觀察神經(jīng)網(wǎng)絡的輸出,其主要影響因素是前置的復雜權重。對于高頻成分,權重很大,對 施加了更大的懲罰,因此高頻項的 Fourier 系數(shù)較小,從而導致輸出函數(shù) 低頻占優(yōu)。我們將以上公式稱之為線性頻率原則公式,其更詳細介紹可以參考 F-Principle:初探理解深度學習不能做什么。
我們所考慮的是 Fourier 變換隨頻率增大而衰減的性質(zhì),受上述線性頻率原理公式的啟發(fā),我們可以將指數(shù)設為一個待定的常數(shù)?α,由此我們得到以下變分問題:
其中 。但實際上,上述問題的意義是不明確的,因為我們無法在空間 逐點定義函數(shù)值。為解決這一困難,我們定義了一個類似于 Fourier 逆算子的線性算子,具體而言,令:
因此原本的限制條件用該算子表達應該是:,這里 ,而 的計算事實上用的是 Fourier 域空間上的全局信息,因此,通過定義該算子,我們將原 空間上的逐點信息轉(zhuǎn)化為 Fourier 域空間上的全局信息,從而避免了之前無法逐點定義具體函數(shù)值的困難。
在該定義之下,可行的函數(shù)空間轉(zhuǎn)化為:
因此,最后我們得到以下 Fourier 域變分問題:
這里我們用 Sobolev 范數(shù)簡化了一開始的表達式,其中 ,且
進一步我們研究了其適定性條件,可以證明當 α<d 時,該問題沒有解;當 α>d 時,該問題的解有一定的光滑性。具體可以分為如下兩個定理:
因此,我們可以發(fā)現(xiàn),Fourier 域變分問題這一框架下所有的算法(即取不同的 α 得到的算法,這里 α>d)輸出函數(shù)的 Fourier 變換取值量級均為 ,于是, 是神經(jīng)網(wǎng)絡輸出函數(shù)的 Fourier 變換取值的一個上界。
數(shù)值實驗
為驗證上述適定性條件,我們將連續(xù)的變分問題離散化,得到以下離散變分問題:
下圖所示的數(shù)值模擬結果分別是在不同的?α?取值下,用上述離散化方法擬合 1 維空間中 2 個點(左圖)和 2 維空間中 4 個點(右圖)得到的最終輸出圖像。其中,在 2 維情形下,為更好地觀察輸出,我們的 4 個數(shù)據(jù)點選在了 2 維空間的同一個截面上。
通過數(shù)值模擬,我們可以看到,當?α>d 時,輸出函數(shù)(圖中的紅線)為一個光滑輸出;而當?α<d?時,輸出函數(shù)(圖中的綠線)退化十分嚴重,即十分接近平凡解,這里平凡解指的是僅在訓練點處非零,而在其他點函數(shù)值均為零的解??梢韵胂?#xff0c;隨著網(wǎng)格進一步加密,2 維情形(圖 b)下的輸出函數(shù)也將退化為類似于 1 維情形(圖 a)中的平凡解。
總結
本文旨在從 Fourier 域的角度提出一套全新的、包含神經(jīng)網(wǎng)絡在內(nèi)的、更加一般的、適用于監(jiān)督學習問題的 Fourier 域變分問題框架,并且分析其適定性條件。
利用該框架,我們研究了神經(jīng)網(wǎng)絡函數(shù)的 Fourier 變換關于頻率的衰減性態(tài),從理論角度揭示了神經(jīng)網(wǎng)絡最終輸出函數(shù),經(jīng)過 Fourier 變換后,得到的頻率函數(shù)圖像,隨著頻率的增大,該函數(shù)衰減率存在最小值。
因此可以推斷,神經(jīng)網(wǎng)絡在逐漸學習高頻的過程中有效率上限。為了加快高頻的收斂,可以先對訓練數(shù)據(jù)做一定的處理將其變?yōu)檩^低頻的函數(shù)。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的理解神经网络函数高频成分的收敛率界限的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 等额本息还款法计算公式
- 下一篇: SIGIR 2021 | Pchatbo