论文浅尝 | 神经网络是如何外推的:从前馈神经网络到图神经网络
筆記整理 |?王澤元,浙江大學在讀碩士,研究方向為圖神經網絡,對比學習。
什么是外推?指從已知數據的孤點集合中構建新的數據的方法。與插值(interpolation)類似,但其所得的結果意義更小,而且更加受不確定性影響。
第一張圖展示了原始數據的分布;現在我們對原始數據進行線性擬合得到圖二,其中藍色部分就是插值所得到的結果,紅色部分就被稱為外推所得到的結果;從圖三可以看出外推的點相比插值所得到的點,其誤差會更大
作者發現前饋神經網絡在學習簡單多項式的時候外推的表現不好,而圖神經網絡在比訓練集大很多的網絡上完成有挑戰的任務如預測物理系統的演化時間、學習圖算法、解決數學問題中表現的很好。作者對這種差別進行深入研究,研究通過基于梯度下降訓練的神經網絡是如何外推的,它們在訓練集之外學到了什么。經過分析,明確了在什么情況下多層感知機和圖神經網絡可以外推出良好的結果,并且提供了一個假設:外推的成功依賴于對模型架構和輸入的非線性編碼
作者首先在多層感知機上進行外推實驗下面四張圖是文章在讓兩層的多層感知機上訓練得到的結果。其中藍色是訓練數據、灰色是需要擬合的數據、黑色是多層感知機訓練的數據??梢钥闯鰜碓谟柧毤?#xff0c;多層感知機預測的結果將會快速的收斂到線性方程
但是僅是需要擬合的數據是線性的并不能讓多層感知機擬合的效果變好,還需要添加一個條件:訓練集的數據分布需要涵蓋所有方向。左圖展示的如果涵蓋的方向有差別會產生什么效果,右圖定量的分析了不同訓練集分布會產生的誤差。fix1指將一維設為常數、negd指的是限制n維為負數、all指涵蓋所有數據。可以看出數據涵蓋的越全面,得到的誤差就會越小
文章之后分析了GNN,文章先讓圖神經網絡學習動態規劃算法,可以看到學習的動態規劃算法中間有一個非線性操作min,經過實驗發現,使用min作為aggregator操作的效果比其他操作效果更好。至此文章提出了線性算法對齊的假設,及我們使用min操作對齊動態規劃的dp操作,圖神經網絡中的多層感知機就可以對齊動態規劃中的線性操作。因此圖神經網絡可以獲得良好的外推效果。
由此推論我們可以得到,在一些圖神經網絡任務中目標方程分解為線性方程和非線性方程,我們可以先對輸入進行非線性操作,多層感知機去擬合線性部分。這樣做就可以得到好的外推效果
文章還發現不同的圖的拓撲結構會影響不同任務的外推效果。在尋找最大節點任務中,對于沒有節點度數限制的圖表現的效果會更好。環、階梯圖、正則圖、路徑這種有度數限制的圖會導致外推失敗。在尋找最短路徑任務中,過密或過于稀疏的圖都會對外推造成影響。但是文章未對這些現象做出過多解釋,需要對圖的深入研究才能回答這些問題。
歡迎有興趣的同學閱讀原文。?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 神经网络是如何外推的:从前馈神经网络到图神经网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | TuckER:基于张量分解
- 下一篇: 综述 | 知识图谱实体链接:一份“由浅入