黎曼流形学习的学习笔记(2):Neural Ordinary Differential Equations(来源:NIPS 2018 oral) (未完待续)
作者想解決的問題:這是一篇提出新模型的論文,把輸入和輸出當(dāng)作微分方程在不同時刻的解,這樣做可以節(jié)省很多空間,因為不需要計算每一步的具體結(jié)果,只需要保存得到的函數(shù)。
思路:由于殘差網(wǎng)絡(luò) (空間上) 和RNN單元 (時間上) 往往都是可以復(fù)用的,這里使用ODE方程解出關(guān)于時間的方程,可以得到一連串的數(shù)據(jù),與原有標(biāo)簽進(jìn)行對比,更新網(wǎng)絡(luò)后使得ODE方程的可以得到原有標(biāo)簽的解。但是這篇文章主要是用Neural ODE網(wǎng)絡(luò)代替ResNet網(wǎng)絡(luò),并不是全面替代MLP,CNN,RNN,這些基礎(chǔ)網(wǎng)絡(luò)依舊可以是Neural ODE的組成部分。
????????有一個很大的誤區(qū) (對我而言) 在于這里神經(jīng)網(wǎng)絡(luò)不再是去擬合數(shù)據(jù)本身,而是擬合數(shù)據(jù)的變化趨勢。但是這兩種方法屬于不分伯仲的地位,現(xiàn)在沒有很充分的證據(jù)說明擬合變化趨勢一定好,但是在序列類分布下的數(shù)據(jù)應(yīng)該是有天然的優(yōu)勢的。
給出殘差網(wǎng)絡(luò)和ODE的區(qū)別:
(來自這篇論文的海報)
????????殘差網(wǎng)絡(luò)的最終輸出就是神經(jīng)網(wǎng)絡(luò)的輸出加上神經(jīng)網(wǎng)絡(luò)的輸入,而ODE-Net的最終輸出則是神經(jīng)網(wǎng)絡(luò)作為原函數(shù)在時間上 (深度上)的積分。注意這里的ODE-Net不是簡單的相加,或者說不是有限的相加了。
????????那么下一個問題來了,怎么去訓(xùn)練他呢?直接更新參數(shù)就能得到符合變化趨勢的解了嗎?
????????在一般的深度學(xué)習(xí)中,依賴的是隨機(jī)梯度下降算法來更新參數(shù),但是對于這里的NODE方程往往是沒有解析解的,因此作者引入了伴隨法進(jìn)行求導(dǎo),這個方法非常類似于拉普拉斯算法,利用了某個導(dǎo)數(shù)的特殊性質(zhì),因而跳過了一些求導(dǎo)過程。
從而引出本文中對我而言最重要的內(nèi)容:Continuous Normalizing Flow,?CNF。
還有一些寫的非常好的Neural ODE的筆記資料:
Understanding Adjoint Method of Neural ODE - 知乎
David Duvenaud · Bullshit that I and others have said about Neural ODEs · SlidesLive
對于Neural ODE的小研究_沖沖沖!-CSDN博客
https://towardsdatascience.com/the-story-of-adjoint-sensitivity-method-from-meteorology-906ab2796c73
https://vaipatel.com/deriving-the-adjoint-equation-for-neural-odes-using-lagrange-multipliers/
總結(jié)
以上是生活随笔為你收集整理的黎曼流形学习的学习笔记(2):Neural Ordinary Differential Equations(来源:NIPS 2018 oral) (未完待续)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7 热点设置命令
- 下一篇: 走上软测之路