深度学习的理论基础
談到深度學(xué)習(xí)的理論基礎(chǔ),可能讀者首先想到的就是通用近似定理(Universal approximation theorem),其表示擁有無限神經(jīng)元的單層前饋網(wǎng)絡(luò)能逼近緊致實(shí)數(shù)子集上的任意連續(xù)函數(shù)。
通俗來說,
只要神經(jīng)元足夠多,單層前饋神經(jīng)網(wǎng)絡(luò)「有潛力」逼近任意復(fù)雜的連續(xù)函數(shù)。
在 1989 年提出通用近似定理以來,至少我們有了最基本的一個理論基礎(chǔ),即神經(jīng)網(wǎng)絡(luò)有潛力解決各種復(fù)雜的現(xiàn)實(shí)問題。
MIT 教授 Tomaso Poggio 曾在他的系列研究中 [1] 表示深度學(xué)習(xí)理論研究可以分為三大類:
表征問題(Representation):為什么深層網(wǎng)絡(luò)比淺層網(wǎng)絡(luò)的表達(dá)能力更好?最優(yōu)化問題(Optimization):為什么梯度下降能找到很好的極小值解,好的極小值有什么特點(diǎn)?泛化問題(Generalization):為什么過參數(shù)化仍然能擁有比較好的泛化性,不過擬合?對于表征問題,我們想要知道深度神經(jīng)網(wǎng)絡(luò)這種「復(fù)合函數(shù)」,它的表達(dá)能力到底怎么確定,它的復(fù)合機(jī)制又是什么樣的。我們不再滿足于「能擬合任意函數(shù)」這樣的定性描述,我們希望知道是不是有一種方法能描述 50 層 ResNet、12 層 Transformer 的擬合能力,能不能清楚地了解它們的理論性質(zhì)與過程。
有了表征能力,那也只是具備了擬合潛力,深度學(xué)習(xí)還需要找到一組足夠好的極值點(diǎn),這就是模型的最優(yōu)解。不同神經(jīng)網(wǎng)絡(luò)的「最優(yōu)化 Landscape」是什么樣的、怎樣才能找到這種高維復(fù)雜函數(shù)的優(yōu)秀極值點(diǎn)、極值點(diǎn)的各種屬性都需要完善的理論支持。
最后就是泛化了,深度模型泛化到未知樣本的能力直接決定了它的價值。那么深度模型的泛化邊界該怎樣確定、什么樣的極值點(diǎn)又有更好的泛化性能,很多重要的特性都等我們確定一套理論基準(zhǔn)。
總而言之,談到深度學(xué)習(xí)理論基礎(chǔ),我們總是少不了聽到這些關(guān)鍵詞:
3. 經(jīng)過正則化后,GAN 可以通過有限大小的生成器與判別器實(shí)現(xiàn)極小極大收斂率。作為分離 GAN 與其它非參工具的首批理論結(jié)果,它可能可以幫助解釋為什么 GAN 在高維數(shù)據(jù)上能獲得這么大的成功。
最后,不論是深度學(xué)習(xí)真正的理論基礎(chǔ),還是從理論出發(fā)構(gòu)建新方法、新模型,至少在 2019 年的 AI 頂會中,我們很高興能看到各種前沿研究都在拜托「啟發(fā)式」的新發(fā)現(xiàn),反而更系統(tǒng)地關(guān)注它們的立足基礎(chǔ)。也許這些新發(fā)現(xiàn),最終能帶領(lǐng)我們構(gòu)建一個系統(tǒng)的領(lǐng)域、一個成熟的學(xué)科。
總結(jié)
- 上一篇: echart vue 图表大小_vue里
- 下一篇: 建立自己的人脸数据集