當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

KDD 2020 开源论文 | GPT-GNN：图神经网络的生成式预训练

發(fā)布時間：2024/10/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 KDD 2020 开源论文 | GPT-GNN：图神经网络的生成式预训练小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文標(biāo)題：GPT-GNN: Generative Pre-Training of Graph Neural Networks

論文鏈接：https://arxiv.org/abs/2006.15437

代碼鏈接：https://github.com/acbull/GPT-GNN

PPT:? https://acbull.github.io/pdf/gpt.pptx

簡介

本文研究如何利用圖生成作為自監(jiān)督任務(wù)來預(yù)訓(xùn)練 GNN。我們將圖的生成概率分解成兩個模塊：1）節(jié)點特征生成；2）圖結(jié)構(gòu)生成。通過對這兩個模塊建模，GPT-GNN 可以捕捉圖任務(wù)里特征與結(jié)構(gòu)之間的關(guān)聯(lián)，從而不需要很多的標(biāo)注數(shù)據(jù)就可達到很高的泛化性能。

背景：預(yù)訓(xùn)練

機器學(xué)習(xí)的成功很大程度上取決于數(shù)據(jù)。但是，高質(zhì)量的標(biāo)記數(shù)據(jù)通常很昂貴且難以獲得，尤其是對于希望訓(xùn)練參數(shù)較多的模型。而相對應(yīng)的，我們卻可以很容易地獲取大量的無標(biāo)記數(shù)據(jù)，其數(shù)量可以是標(biāo)記數(shù)據(jù)的數(shù)千倍。?

例如，在社交網(wǎng)絡(luò)上進行異常檢測時，惡意帳戶的標(biāo)注需要依賴于專家知識，數(shù)量較小，而整個網(wǎng)絡(luò)的規(guī)模卻可以達到十億規(guī)模。

為了解決標(biāo)注數(shù)據(jù)較少，盡可能利用其無標(biāo)注數(shù)據(jù)，一個常規(guī)的做法是自監(jiān)督的預(yù)訓(xùn)練（self-supervised pre-training）。其目標(biāo)是設(shè)計合理的自監(jiān)督任務(wù)，從而使模型能從無標(biāo)注數(shù)據(jù)里學(xué)得數(shù)據(jù)的信息，作為初始化遷移到下游任務(wù)中。由于目標(biāo)任務(wù)中很多的知識已經(jīng)在預(yù)訓(xùn)練中學(xué)到，因此通過預(yù)訓(xùn)練，我們只需要非常少量的標(biāo)注數(shù)據(jù)，就能得到較好的泛化性能。

在 NLP 領(lǐng)域，BERT 及其變種的取得了巨大的成功，證明了語言模型作為一個自監(jiān)督任務(wù)，可以幫助訓(xùn)練非常深的 Transformer 模型，以捕捉語言的底層知識，如語法、句法、詞義等。

同樣，在 CV 領(lǐng)域，最近的工作如 SimCLR 也顯示出通過對比學(xué)習(xí)（Contrastive Learning）對 ResNet 進行預(yù)訓(xùn)練也可以顯著提升泛化性能。這些成功表明，無標(biāo)注數(shù)據(jù)本身包含豐富的語義知識，因此如果通過預(yù)訓(xùn)練可以使模型能捕捉無標(biāo)注數(shù)據(jù)的分布，就能作為初始化幫助一系列下游任務(wù)。

受到這些工作的啟發(fā)，我們思考能否將預(yù)訓(xùn)練的想法運用到圖數(shù)據(jù)分析中。本工作就致力于預(yù)訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)，以期 GNN 能夠?qū)W習(xí)到圖數(shù)據(jù)的結(jié)構(gòu)和特征信息，從而能幫助標(biāo)注數(shù)據(jù)較少的下游任務(wù)。

GPT-GNN模型

要在圖數(shù)據(jù)上做預(yù)訓(xùn)練，第一個問題是：如何設(shè)計合適的無監(jiān)督學(xué)習(xí)任務(wù)？

本工作提出用生成模型來對圖分布進行建模，即逐步預(yù)測出一個圖中一個新節(jié)點會有哪些特征、會和圖中哪些節(jié)點相連。

由于我們想同時捕獲屬性和結(jié)構(gòu)信息，因此需要將每個節(jié)點的條件生成概率分解為兩項，特征生成與圖結(jié)構(gòu)生成。對每一個節(jié)點，我們會先掩蓋其特征及部分邊，僅提供剩下的部分作為已經(jīng)觀測到的邊。

在第一步中，我們將通過已經(jīng)觀測到的邊，預(yù)測該節(jié)點的特征，

在第二步中，我們將通過已經(jīng)觀測到的邊，以及預(yù)測出的特征，來預(yù)測剩下的邊。

我們可以寫出對應(yīng)的分解表達式。從理論上，這個目標(biāo)的期望等同于整個圖的生成概率。

為了并行高效地計算每個節(jié)點的 loss，避免信息泄露（如節(jié)點特征預(yù)測的時候如何避免看到該節(jié)點自己的輸入特征），以及處理大圖和增加負樣本采樣的準(zhǔn)確性，我們做了很多的模型設(shè)計。詳見文章。

實驗

我們在兩個大規(guī)模異構(gòu)網(wǎng)絡(luò)和一個同構(gòu)網(wǎng)絡(luò)上進行了實驗。

第一個異構(gòu)圖是 Microsoft Academic Graph（OAG），其中包含超過 2 億個節(jié)點和 23 億條邊。另一個是 Amazon Recommendation 數(shù)據(jù)集。

總體而言，我們提出的 GPT-GNN 在不同的實驗設(shè)定下顯著提高下游任務(wù)的性能，平均能達到 9.1％的性能提升，且優(yōu)于其他圖預(yù)訓(xùn)練的方法。

我們還評估了在不同百分比的標(biāo)記數(shù)據(jù)下，GPT-GNN 是否依然能取得提升。我們可以看到，使用 GPT 預(yù)訓(xùn)練時，僅使用 20％標(biāo)簽數(shù)據(jù)的模型性能就會比使用 100％數(shù)據(jù)進行直接監(jiān)督學(xué)習(xí)的模型性能更高。這顯示了預(yù)訓(xùn)練的有效性，尤其是在標(biāo)簽稀缺時。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā)，均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式（微信或手機），以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的KDD 2020 开源论文 | GPT-GNN：图神经网络的生成式预训练的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：双 28mm 扇，利民推出 Royal
下一篇：对话智能新高度：全面解读百度开放域对话模

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

KDD 2020 开源论文 | GPT-GNN：图神经网络的生成式预训练

總結(jié)