深度学习的理论基础
談到深度學習的理論基礎,可能讀者首先想到的就是通用近似定理(Universal approximation theorem),其表示擁有無限神經元的單層前饋網絡能逼近緊致實數子集上的任意連續函數。
通俗來說,
只要神經元足夠多,單層前饋神經網絡「有潛力」逼近任意復雜的連續函數。
在 1989 年提出通用近似定理以來,至少我們有了最基本的一個理論基礎,即神經網絡有潛力解決各種復雜的現實問題。
MIT 教授 Tomaso Poggio 曾在他的系列研究中 [1] 表示深度學習理論研究可以分為三大類:
表征問題(Representation):為什么深層網絡比淺層網絡的表達能力更好?最優化問題(Optimization):為什么梯度下降能找到很好的極小值解,好的極小值有什么特點?泛化問題(Generalization):為什么過參數化仍然能擁有比較好的泛化性,不過擬合?對于表征問題,我們想要知道深度神經網絡這種「復合函數」,它的表達能力到底怎么確定,它的復合機制又是什么樣的。我們不再滿足于「能擬合任意函數」這樣的定性描述,我們希望知道是不是有一種方法能描述 50 層 ResNet、12 層 Transformer 的擬合能力,能不能清楚地了解它們的理論性質與過程。
有了表征能力,那也只是具備了擬合潛力,深度學習還需要找到一組足夠好的極值點,這就是模型的最優解。不同神經網絡的「最優化 Landscape」是什么樣的、怎樣才能找到這種高維復雜函數的優秀極值點、極值點的各種屬性都需要完善的理論支持。
最后就是泛化了,深度模型泛化到未知樣本的能力直接決定了它的價值。那么深度模型的泛化邊界該怎樣確定、什么樣的極值點又有更好的泛化性能,很多重要的特性都等我們確定一套理論基準。
總而言之,談到深度學習理論基礎,我們總是少不了聽到這些關鍵詞:
3. 經過正則化后,GAN 可以通過有限大小的生成器與判別器實現極小極大收斂率。作為分離 GAN 與其它非參工具的首批理論結果,它可能可以幫助解釋為什么 GAN 在高維數據上能獲得這么大的成功。
最后,不論是深度學習真正的理論基礎,還是從理論出發構建新方法、新模型,至少在 2019 年的 AI 頂會中,我們很高興能看到各種前沿研究都在拜托「啟發式」的新發現,反而更系統地關注它們的立足基礎。也許這些新發現,最終能帶領我們構建一個系統的領域、一個成熟的學科。
總結
- 上一篇: echart vue 图表大小_vue里
- 下一篇: 建立自己的人脸数据集