日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICLR最高分论文揭秘模型泛化,GNN是潜力股

發布時間:2024/7/5 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICLR最高分论文揭秘模型泛化,GNN是潜力股 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | Jerry Qiu
編 | 小軼

我們都知道,人類在很多任務上都可以很好地完成“外推”,例如:

啊不——我是說——例如,我們學會兩位數的加減乘除后,就可以輕松將其推廣至任意大整數的四則運算:

從數學的角度來講,外推其實是與內插并列的一個概念。想必大家對多項式插值、樣條插值等插值方法不陌生。通過已知的、離散的數據點,在范圍內推求新數據點,即稱為內插(Interpolation)。而如果我們在已知數據在范圍外推求新數據點,則是外推(Extrapolate)

在通用人工智能被廣泛討論的今天,我們不禁發問,神經網絡能像人類一樣完成外推嗎?即神經網絡在訓練分布的支撐集[1]之外,會如何表現?前輩們對于這一問題已經進行了一定的探究。然而令人困惑的是,他們對神經網絡的外推給出了截然不同的結論。

早期的工作表明,多層感知機(Multi-layer Perceptron,MLP)在學習簡單的多項式函數時不能很好地外推[2,3]。然而近期的?些工作則表明,在部分具有挑戰性的算法任務上(例如求解數學方程、預測物理系統的時間演化),圖神經網絡(Graph Neural Network,GNN)具有很好的泛化能力,能夠將訓練結果推廣至比訓練集更大的圖上[4,5,6]

多層感知機與圖神經網絡截然相反的表現引人深思:什么樣的網絡,在什么樣的條件下才會具有較強的外推能力呢?

今天給大家分享的這篇論文便研究了這一問題。該文在ICLR'21的review階段獲得了最高的平均得分。審稿人們紛紛贊其見解之深刻,在神經網絡外推能力的分析上邁出了重要的一步。

論文題目

How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks

論文鏈接:

https://arxiv.org/pdf/2009.11848.pdf

Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【1231】 下載論文PDF~

論文概述

為了解釋為何不同神經網絡的外推能力不盡相同,論文作者詳細探究了使用梯度下降訓練的神經網絡是如何外推的。直覺上來說,神經網絡在訓練分布之外的表現是任意的、不可預料的[7],但事實上,如果網絡用梯度下降算法進行訓練,則它的外推能力是有規律可循的

在我們評價神經網絡的外推能力前,我們需要先確定一個指標來衡量它。為此,論文作者定義了外推誤差這一概念。一個模型的外推誤差越小,則其外推能力越強。作者基于此討論了MLP和GNN的具備外推能力的條件。

外推誤差

在機器學習中,我們通常都希望在訓練集上學習一個函數,訓練目標是使滿足。注意,這里是訓練分布的支撐集,且只是的一個子集。

然而由于種種因素的限制,神經網絡一般難以學到完美符合要求的函數,而只能得出一個與存在差距的函數,從而我們定義外推誤差如下:

不難看出,外推誤差就是函數在訓練分布支撐集之外的誤差上界

MLP

多層感知機是結構最簡單的神經網絡,也是眾多復雜網絡架構(例如GNN)的組成部分。

收斂至線性

作者發現,使用ReLU激活函數、過參數化的MLP在訓練分布外,總是沿著從原點出發的各個方向都收斂為線性函數,如下圖所示。

圖中灰色部分是MLP需要學習的非線性函數,藍色部分是MLP在訓練分布內學得的結果,黑色部分是MLP在訓練分布外的表現

作者也從理論上給出了雙層ReLU MLP收斂速率的證明,發現這種收斂常常出現在靠近訓練數據的位置,這表明ReLU MLPs在大多數非線性任務上的外推能力都較弱

MLPs外推誤差小的條件

同時作者也發現,當目標函數為線性函數時,MLPs的外推表現較好。然而MLPs能否成功地進行外推,還取決于訓練數據的幾何形狀。如果訓練分布的支撐集包括了各個方向(例如包含原點的超立方體),則MLPs的外推誤差較小。這一條件聽起來可能無法理解,不妨一睹作者給出的數學定義:

Suppose the target function is for some . Suppose the training data is sampled from a distribution whose support contains subset , where for any non-zero , there exists so that .

即MLPs 外推誤差小的條件是:訓練數據是從支撐集中采樣得到的,它包含一個子集,滿足:對于任意的維向量,存在正數使得屬于,我們不難發現,顯然這個需要包含原點。

作者給出了MLP學習線性目標函數的示例(灰色部分是MLP需要學習的線性函數,藍色部分是訓練分布,黑色部分是MLP在訓練分布外的表現):

由于圖上已經說得比較清楚,筆者嘗試換個角度給出說明:假定數據分布定義在一個矩形區域內(藍色部分),左一的原點在矩形區域內,此時訓練數據自然是包含從原點出發的各個方向的,可以看出這時MLP外推效果較好;左二的原點在矩形的邊上,那么從原點出發的紅色箭頭的反方向就沒有訓練數據,MLP外推開始出現了一些偏差;右二的原點在矩形的角上,MLP外推的偏差也較大;右一中,數據分布定義在一條經過原點的線上,使得訓練分布之外的部分有明顯的外推誤差。

GNN

圖神經網絡在多項非線性算法任務上表現出不錯的外推能力,例如圖算法、符號數學等。作者基于前文關于MLP的結論,繼續探究GNN的外推效果。

作者猜想,如果編碼適當的非線性至GNN的架構和輸入表示中,讓MLP組件僅學習線性函數,那么GNN就能在動態規劃任務中順利外推,獲得較小的外推誤差。

編碼非線性至架構

以最短路問題為例,著名的的Bellman-Ford算法中的更新式如下:

而使用最小值聚合(min-aggregation)的GNN架構的節點表示如下:

不難發現以上兩式十分相似。因此, 如果我們讓GNN中的MLP模塊學習線性函數,則GNN就可以模擬Bellman-Ford算法。由于我們已知MLP在線性任務上外推能力較強,因此使用最小值聚合的GNN也可以在這個最短路問題上具備較強的外推能力。

編碼非線性至輸入表示

對于某些任務,改變輸入表示,會更容易達到好的外推能力。在這種情況下,我們可以將目標函數分解嵌入(Embedding)和一個模型外推效果較好的目標函數,使得,就可以有助于外推。

作者在動態規劃中的多體問題上驗證了這一觀點(多體問題:預測多個物體在引力作用下隨時間的演化情況)。作者對輸入表示進行了轉換,使得MLP只需學習線性函數。與轉換前MLP需要學習非線性函數相比,平均絕對百分比誤差(Mean Average Percentage Error)大大下降。

總結

本論文是麻省理工CSAIL實驗室研究生Keyulu Xu繼ICLR 2020論文 What can Neural Networks Reason About? 之后的又一力作。論文兼具嚴謹的理論推導及有力的實驗驗證,甚至有一位審稿人直言40頁的附錄太長沒看。

作為一篇數理性較強的研究,它的行文也做到了較高的流暢性和易讀性。適逢GNN大紅大紫之時,作者高屋建瓴,對GNN的外推能力提出了新的觀點,對社區做出了可觀的貢獻,確實令人欽佩。

最后,愿大家都能在學術領域中勇闖無人之境!

Boldly go where no one has gone before. ——《Star Trek》

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

?

[1]Support (mathematics): https://en.wikipedia.org/wiki/Support_(mathematics)

[2]Barnard E, Wessels L F A. Extrapolation and interpolation in neural network classifiers[J]. IEEE Control Systems Magazine, 1992, 12(5): 50-53.

[3]Haley P J, Soloway D. Extrapolation limitations of multilayer feedforward neural networks[C]// IJCNN International Joint Conference on Neural Networks. IEEE, 1992, 4: 25-30.

[4]Battaglia P, Pascanu R, Lai M, et al. Interaction networks for learning about objects, relations and physics[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. 2016: 4509-4517.

[5]Veli?kovi? P, Ying R, Padovano M, et al. Neural Execution of Graph Algorithms[C]//International Conference on Learning Representations. 2019.

[6] Lample G, Charton F. Deep Learning For Symbolic Mathematics[C]//International Conference on Learning Representations. 2019.

[7]Zhang C, Bengio S, Hardt M, et al. Understanding deep learning requires rethinking generalization[J]. arXiv preprint arXiv:1611.03530, 2016.

總結

以上是生活随笔為你收集整理的ICLR最高分论文揭秘模型泛化,GNN是潜力股的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 91成人小视频 | 中文字幕亚洲第一 | 爱爱的免费视频 | 日韩久久久 | 超碰在线免费公开 | 国产成人91精品 | 女女互慰吃奶互揉调教捆绑 | 姑娘第5集在线观看免费好剧 | 国产精品一区无码 | 国产精品毛片va一区二区三区 | 精品人妻无码一区二区三区蜜桃一 | 日韩视频a| 日本一道本在线 | 日韩高清久久 | 日韩丝袜一区 | 天天综合色网 | 欧美日韩一区三区 | 超碰人人艹 | 欧美区二区三区 | 国产精品一级黄色片 | 天天操天天操天天干 | 欧美性受xxxx黑人 | 国产男男gay网站 | 久久国产影视 | 国内自拍2020 | 亚洲综合小说 | 日本男女激情视频 | 黑人满足娇妻6699xx | 日本加勒比一区二区 | 色5566 | 亚洲另类xxxx| 三级性生活片 | 色呦呦麻豆 | 99福利网 | 国产蜜臀av一区二区 | 国产淫片 | 噜噜噜精品欧美成人 | 阿娇全套94张未删图久久 | 国产欧美综合一区二区三区 | 青青草原成人 | 久久久久久久久免费看无码 | 在线观看中出 | 免费看成人aa片无码视频羞羞网 | 免费99视频 | 精品视频一区二区三区四区 | 狼干综合 | 国产-第1页-浮力影院 | 黄色录像片子 | jzzjzz日本丰满成熟少妇 | 亚洲欧美电影 | 国产偷拍一区二区三区 | 孕期1ⅴ1高h | 黄色av免费在线观看 | 老司机深夜免费福利 | 国产永久毛片 | 中文字幕一区久久 | 三级a级片 | av永久在线 | 66av欧美 | 加勒比波多野结衣 | 无码人妻丰满熟妇区96 | 精品1卡二卡三卡四卡老狼 日韩三级网 | 成人黄色免费观看 | 国产精品二区一区二区aⅴ 一卡二卡三卡在线观看 | 金瓶狂野欧美性猛交xxxx | 免费黄色在线 | 成人免费短视频 | 黄色网一级片 | 国产福利短视频 | 蜜臀av性久久久久蜜臀aⅴ麻豆 | 亚洲成人精选 | 亚洲天天干 | 国产精品视频第一页 | 91久久精品一区二区三区 | 亚洲av无码一区二区三区性色 | 神秘电影永久入口 | 中文字幕久久网 | 一区二区三区国产精品 | 欧美h网站 | 国产又粗又猛又黄又爽的视频 | 日韩特级黄色片 | 91麻豆视频 | 日本丰满少妇裸体自慰 | 亚洲黄色录像 | 亚洲天堂av网站 | 欧美日韩国产一区二区三区在线观看 | 美女精品在线观看 | 午夜视频在线观看一区二区 | www污污| 懂色av一区二区三区 | 香蕉视频免费在线 | 被绑在床强摁做开腿呻吟 | 台湾佬中文字幕 | 免费av看| 被扒开腿一边憋尿一边惩罚 | 四虎影院一区二区 | 一区二区视频免费看 | 色婷av | 色天使在线视频 |