當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICLR最高分论文揭秘模型泛化，GNN是潜力股

發布時間：2024/7/5 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICLR最高分论文揭秘模型泛化，GNN是潜力股小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | Jerry Qiu
編 | 小軼

我們都知道，人類在很多任務上都可以很好地完成“外推”，例如：

啊不——我是說——例如，我們學會兩位數的加減乘除后，就可以輕松將其推廣至任意大整數的四則運算：

從數學的角度來講，外推其實是與內插并列的一個概念。想必大家對多項式插值、樣條插值等插值方法不陌生。通過已知的、離散的數據點，在范圍內推求新數據點，即稱為內插（Interpolation）。而如果我們在已知數據在范圍外推求新數據點，則是外推（Extrapolate）。

在通用人工智能被廣泛討論的今天，我們不禁發問，神經網絡能像人類一樣完成外推嗎？即神經網絡在訓練分布的支撐集^[1]之外，會如何表現？前輩們對于這一問題已經進行了一定的探究。然而令人困惑的是，他們對神經網絡的外推給出了截然不同的結論。

早期的工作表明，多層感知機（Multi-layer Perceptron，MLP）在學習簡單的多項式函數時不能很好地外推^[2,3]。然而近期的?些工作則表明，在部分具有挑戰性的算法任務上（例如求解數學方程、預測物理系統的時間演化），圖神經網絡（Graph Neural Network，GNN）具有很好的泛化能力，能夠將訓練結果推廣至比訓練集更大的圖上^[4,5,6]。

多層感知機與圖神經網絡截然相反的表現引人深思：什么樣的網絡，在什么樣的條件下才會具有較強的外推能力呢？

今天給大家分享的這篇論文便研究了這一問題。該文在ICLR'21的review階段獲得了最高的平均得分。審稿人們紛紛贊其見解之深刻，在神經網絡外推能力的分析上邁出了重要的一步。

論文題目：

How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks

論文鏈接:

https://arxiv.org/pdf/2009.11848.pdf

Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【1231】下載論文PDF~

論文概述

為了解釋為何不同神經網絡的外推能力不盡相同，論文作者詳細探究了使用梯度下降訓練的神經網絡是如何外推的。直覺上來說，神經網絡在訓練分布之外的表現是任意的、不可預料的^[7]，但事實上，如果網絡用梯度下降算法進行訓練，則它的外推能力是有規律可循的。

在我們評價神經網絡的外推能力前，我們需要先確定一個指標來衡量它。為此，論文作者定義了外推誤差這一概念。一個模型的外推誤差越小，則其外推能力越強。作者基于此討論了MLP和GNN的具備外推能力的條件。

外推誤差

在機器學習中，我們通常都希望在訓練集上學習一個函數，訓練目標是使滿足。注意，這里是訓練分布的支撐集，且只是的一個子集。

然而由于種種因素的限制，神經網絡一般難以學到完美符合要求的函數，而只能得出一個與存在差距的函數，從而我們定義外推誤差如下：

不難看出，外推誤差就是函數在訓練分布支撐集之外的誤差上界。

MLP

多層感知機是結構最簡單的神經網絡，也是眾多復雜網絡架構（例如GNN）的組成部分。

收斂至線性

作者發現，使用ReLU激活函數、過參數化的MLP在訓練分布外，總是沿著從原點出發的各個方向都收斂為線性函數，如下圖所示。

圖中灰色部分是MLP需要學習的非線性函數，藍色部分是MLP在訓練分布內學得的結果，黑色部分是MLP在訓練分布外的表現。

作者也從理論上給出了雙層ReLU MLP收斂速率的證明，發現這種收斂常常出現在靠近訓練數據的位置，這表明ReLU MLPs在大多數非線性任務上的外推能力都較弱。

MLPs外推誤差小的條件

同時作者也發現，當目標函數為線性函數時，MLPs的外推表現較好。然而MLPs能否成功地進行外推，還取決于訓練數據的幾何形狀。如果訓練分布的支撐集包括了各個方向（例如包含原點的超立方體），則MLPs的外推誤差較小。這一條件聽起來可能無法理解，不妨一睹作者給出的數學定義：

Suppose the target function is for some . Suppose the training data is sampled from a distribution whose support contains subset , where for any non-zero , there exists so that .

即MLPs 外推誤差小的條件是：訓練數據是從支撐集中采樣得到的，它包含一個子集，滿足：對于任意的維向量，存在正數使得屬于，我們不難發現，顯然這個需要包含原點。

作者給出了MLP學習線性目標函數的示例（灰色部分是MLP需要學習的線性函數，藍色部分是訓練分布，黑色部分是MLP在訓練分布外的表現）：

由于圖上已經說得比較清楚，筆者嘗試換個角度給出說明：假定數據分布定義在一個矩形區域內（藍色部分），左一的原點在矩形區域內，此時訓練數據自然是包含從原點出發的各個方向的，可以看出這時MLP外推效果較好；左二的原點在矩形的邊上，那么從原點出發的紅色箭頭的反方向就沒有訓練數據，MLP外推開始出現了一些偏差；右二的原點在矩形的角上，MLP外推的偏差也較大；右一中，數據分布定義在一條經過原點的線上，使得訓練分布之外的部分有明顯的外推誤差。

GNN

圖神經網絡在多項非線性算法任務上表現出不錯的外推能力，例如圖算法、符號數學等。作者基于前文關于MLP的結論，繼續探究GNN的外推效果。

作者猜想，如果編碼適當的非線性至GNN的架構和輸入表示中，讓MLP組件僅學習線性函數，那么GNN就能在動態規劃任務中順利外推，獲得較小的外推誤差。

編碼非線性至架構

以最短路問題為例，著名的的Bellman-Ford算法中的更新式如下：

而使用最小值聚合（min-aggregation）的GNN架構的節點表示如下：

不難發現以上兩式十分相似。因此，如果我們讓GNN中的MLP模塊學習線性函數，則GNN就可以模擬Bellman-Ford算法。由于我們已知MLP在線性任務上外推能力較強，因此使用最小值聚合的GNN也可以在這個最短路問題上具備較強的外推能力。

編碼非線性至輸入表示

對于某些任務，改變輸入表示，會更容易達到好的外推能力。在這種情況下，我們可以將目標函數分解成嵌入（Embedding）和一個模型外推效果較好的目標函數，使得，就可以有助于外推。

作者在動態規劃中的多體問題上驗證了這一觀點（多體問題：預測多個物體在引力作用下隨時間的演化情況）。作者對輸入表示進行了轉換，使得MLP只需學習線性函數。與轉換前MLP需要學習非線性函數相比，平均絕對百分比誤差（Mean Average Percentage Error）大大下降。

總結

本論文是麻省理工CSAIL實驗室研究生Keyulu Xu繼ICLR 2020論文 What can Neural Networks Reason About? 之后的又一力作。論文兼具嚴謹的理論推導及有力的實驗驗證，甚至有一位審稿人直言40頁的附錄太長沒看。

作為一篇數理性較強的研究，它的行文也做到了較高的流暢性和易讀性。適逢GNN大紅大紫之時，作者高屋建瓴，對GNN的外推能力提出了新的觀點，對社區做出了可觀的貢獻，確實令人欽佩。

最后，愿大家都能在學術領域中勇闖無人之境！

Boldly go where no one has gone before. ——《Star Trek》

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

[1]Support (mathematics): https://en.wikipedia.org/wiki/Support_(mathematics)

[2]Barnard E, Wessels L F A. Extrapolation and interpolation in neural network classifiers[J]. IEEE Control Systems Magazine, 1992, 12(5): 50-53.

[3]Haley P J, Soloway D. Extrapolation limitations of multilayer feedforward neural networks[C]// IJCNN International Joint Conference on Neural Networks. IEEE, 1992, 4: 25-30.

[4]Battaglia P, Pascanu R, Lai M, et al. Interaction networks for learning about objects, relations and physics[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. 2016: 4509-4517.

[5]Veli?kovi? P, Ying R, Padovano M, et al. Neural Execution of Graph Algorithms[C]//International Conference on Learning Representations. 2019.

[6] Lample G, Charton F. Deep Learning For Symbolic Mathematics[C]//International Conference on Learning Representations. 2019.

[7]Zhang C, Bengio S, Hardt M, et al. Understanding deep learning requires rethinking generalization[J]. arXiv preprint arXiv:1611.03530, 2016.

總結

以上是生活随笔為你收集整理的ICLR最高分论文揭秘模型泛化，GNN是潜力股的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：谷歌、CMU发文：别压榨单模型了！集成+
下一篇： ACL2020 | 线上搜索结果大幅提升