當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

KDD 2019论文解读:异构信息网络上的对抗生成学习

發(fā)布時(shí)間：2024/8/23 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 KDD 2019论文解读:异构信息网络上的对抗生成学习小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言

網(wǎng)絡(luò)表示學(xué)習(xí)是一種在低維空間中表示網(wǎng)絡(luò)數(shù)據(jù)的方法，在異構(gòu)信息網(wǎng)絡(luò)分析中得到了廣泛的應(yīng)用。現(xiàn)有的異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)方法雖然在一定程度上實(shí)現(xiàn)了性能的提高，但仍然存在一些主要的不足。最重要的是，它們通常采用負(fù)抽樣的方法從網(wǎng)絡(luò)中隨機(jī)選擇節(jié)點(diǎn)，而不學(xué)習(xí)底層的分布以獲得更魯棒的表示。

受生成式對(duì)抗網(wǎng)絡(luò) (GAN)的啟發(fā)，我們開發(fā)了一個(gè)用于異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)的新框架HeGAN，它在一種極小極大的博弈中同時(shí)訓(xùn)練判別器和生成器。與現(xiàn)有異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)方法相比，我們的生成器可以學(xué)習(xí)節(jié)點(diǎn)分布，生成更好的負(fù)樣本。與同質(zhì)網(wǎng)絡(luò)上的生成對(duì)抗網(wǎng)絡(luò)相比，我們?cè)O(shè)計(jì)的判別器和生成器是關(guān)系感知的，以便在異構(gòu)信息網(wǎng)絡(luò)上捕獲豐富的語義。此外，為了提高采樣效率，我們提出了一種廣義的生成器，它直接從連續(xù)分布中對(duì)“潛在”節(jié)點(diǎn)進(jìn)行采樣，而不像現(xiàn)有方法那樣局限于原始網(wǎng)絡(luò)中的節(jié)點(diǎn)。最后，我們?cè)谒膫€(gè)實(shí)際數(shù)據(jù)集進(jìn)行了大量的實(shí)驗(yàn)。結(jié)果表明，在所有數(shù)據(jù)集和任務(wù)中，我們始終如一且顯著地優(yōu)于當(dāng)前的表示學(xué)習(xí)方法。

關(guān)于“異構(gòu)信息網(wǎng)絡(luò)”和“對(duì)抗生成學(xué)習(xí)”

網(wǎng)絡(luò)結(jié)構(gòu)在現(xiàn)實(shí)世界的應(yīng)用中無處不在，從社會(huì)和生物網(wǎng)絡(luò)到交通和電信系統(tǒng)。因此，網(wǎng)絡(luò)分析對(duì)于解決社交網(wǎng)絡(luò)的個(gè)性化用戶推薦、生物網(wǎng)絡(luò)的基因識(shí)別困難等關(guān)鍵問題顯得越來越重要。這些問題往往表現(xiàn)為對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行節(jié)點(diǎn)聚類、節(jié)點(diǎn)分類和鏈路預(yù)測(cè)，所以這些問題從根本上依賴于一種有效的網(wǎng)絡(luò)表示形式。近年來，網(wǎng)絡(luò)表示學(xué)習(xí)已經(jīng)成為無監(jiān)督學(xué)習(xí)節(jié)點(diǎn)表示的一個(gè)很有前途的方向，其目的是將網(wǎng)絡(luò)節(jié)點(diǎn)投射到低維空間中，同時(shí)保持原網(wǎng)絡(luò)的結(jié)構(gòu)特性。

異構(gòu)信息網(wǎng)絡(luò)。雖然早期的網(wǎng)絡(luò)表示學(xué)習(xí)工作已經(jīng)取得了相當(dāng)大的成功，但它們只能處理所謂的同質(zhì)網(wǎng)絡(luò)，即網(wǎng)絡(luò)中只包含一種類型的節(jié)點(diǎn)和邊。然而，在實(shí)際場(chǎng)景中，節(jié)點(diǎn)自然地由不同類型的實(shí)體構(gòu)成，這些實(shí)體通過多種關(guān)系相互。這種網(wǎng)絡(luò)稱為異構(gòu)信息網(wǎng)絡(luò)，如圖(a)所示。該異構(gòu)信息網(wǎng)絡(luò)由多種類型的節(jié)點(diǎn)(如author和paper)組成，節(jié)點(diǎn)之間通過各種類型的關(guān)系(如write/ writing relationship between author and paper, publish/published relationship between paper and conference)連接。

由于其異構(gòu)性，異構(gòu)信息網(wǎng)絡(luò)往往具有極其豐富和復(fù)雜的語義。因此，許多研究者開始研究異構(gòu)信息網(wǎng)絡(luò)下的表示學(xué)習(xí)，最值得關(guān)注的工作有metapath2vec和HIN2vec。如圖1(b-1)所示，現(xiàn)有異構(gòu)信息網(wǎng)絡(luò)網(wǎng)絡(luò)的表示學(xué)習(xí)方法從思想上可以歸結(jié)為兩個(gè)采樣器，分別從網(wǎng)絡(luò)中給定的“中心”節(jié)點(diǎn)(如paper p2)選擇“上下文”節(jié)點(diǎn)作為正例(如author a2)和負(fù)例(如陰影圓圈)(注意，每個(gè)節(jié)點(diǎn)都可以充當(dāng)中心或上下文，類似于Skip-gram模型)。然后，在這些樣本上訓(xùn)練一個(gè)損失函數(shù)來優(yōu)化節(jié)點(diǎn)表示。雖然這些方法取得了一定的性能提升，但它們也存在嚴(yán)重的局限性。首先，它們通常使用負(fù)抽樣來隨機(jī)選擇網(wǎng)絡(luò)中現(xiàn)有的節(jié)點(diǎn)作為負(fù)抽樣。因此，它們的負(fù)樣本不僅是任意的，而且局限于原始網(wǎng)絡(luò)的宇宙。其次，它們主要關(guān)注于在異構(gòu)信息網(wǎng)絡(luò)上捕獲豐富的語義信息，而不注意節(jié)點(diǎn)的底層分布，因此對(duì)于通常稀疏且有噪聲的真實(shí)的網(wǎng)絡(luò)缺乏魯棒性。第三，當(dāng)前的許多異構(gòu)信息網(wǎng)絡(luò)方法依賴于適當(dāng)?shù)脑窂絹砥ヅ渌璧恼Z義，這通常需要領(lǐng)域知識(shí)，而這些知識(shí)有時(shí)是主觀的，而且通常很難獲取。

對(duì)抗生成學(xué)習(xí)。生成對(duì)抗網(wǎng)絡(luò)(GAN)已被開發(fā)用于學(xué)習(xí)各種應(yīng)用中魯棒的潛在表示。GANs依賴于對(duì)抗性學(xué)習(xí)的思想，判別器和生成器相互競爭，不僅要訓(xùn)練更好的判別模型，還要學(xué)習(xí)底層的數(shù)據(jù)分布。后者使得模型對(duì)稀疏或有噪聲數(shù)據(jù)的魯棒性更強(qiáng)[13,24]，也提供了更好的樣本來降低標(biāo)注要求。鑒于這些優(yōu)點(diǎn)，基于GAN的網(wǎng)絡(luò)表示學(xué)習(xí)已經(jīng)有了一些初步的嘗試。然而，這些研究只研究了同質(zhì)網(wǎng)絡(luò)，沒有考慮節(jié)點(diǎn)和關(guān)系的異構(gòu)性，導(dǎo)致在語義豐富的異構(gòu)信息網(wǎng)絡(luò)上性能不理想。

HeGAN及其貢獻(xiàn)。為了克服現(xiàn)有工作的局限，我們提出了一個(gè)新的框架HeGAN，基于GAN的異構(gòu)信息網(wǎng)絡(luò)表示框架。具體地，我們提出了一種新的判別器和生成器，如圖(b-2)所示。首先，我們的判別器和生成器被設(shè)計(jì)成關(guān)系感知的，以便區(qū)分由不同關(guān)系連接的節(jié)點(diǎn)。也就是說，對(duì)于任何關(guān)系，判別器都可以分辨出一個(gè)節(jié)點(diǎn)對(duì)是真還是假，而生成器可以生成模仿真節(jié)點(diǎn)對(duì)的假節(jié)點(diǎn)對(duì)。特別是，只有節(jié)點(diǎn)對(duì)是(i)基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的正對(duì)且(ii)在正確的關(guān)系下形成對(duì)時(shí)，才認(rèn)為該節(jié)點(diǎn)對(duì)是正例對(duì);。其次，我們?cè)O(shè)計(jì)了一個(gè)廣義生成器，它能夠直接從連續(xù)分布中抽取潛在節(jié)點(diǎn)，因此(i)不需要softmax的計(jì)算; (ii)假樣本不局限于現(xiàn)有節(jié)點(diǎn)。總之，本文做出了以下貢獻(xiàn)。
(1)我們是第一個(gè)將對(duì)抗性學(xué)習(xí)應(yīng)用于異構(gòu)信息網(wǎng)絡(luò)表示的，從而來利用異構(gòu)信息網(wǎng)絡(luò)上的豐富的語義，同時(shí)保證學(xué)習(xí)到的表示的魯棒性。
(2)我們提出了一種新型的HeGAN框架，該框架不僅能夠感知關(guān)系以獲取豐富的語義，而且還具有高效的生成負(fù)樣本的機(jī)制。
(3)我們?cè)谒膫€(gè)公共數(shù)據(jù)集進(jìn)行一系列下游任務(wù)的實(shí)驗(yàn)。結(jié)果表明HeGAN具有明顯的優(yōu)越性。

異構(gòu)信息網(wǎng)絡(luò)上的對(duì)抗生成學(xué)習(xí)

生成對(duì)抗的網(wǎng)絡(luò)。我們的工作受到GANs的啟發(fā)，GANs可以被看作是兩個(gè)玩家之間的一個(gè)極小極大的博弈，即生成器G和鑒別器D。具體的優(yōu)化形式如下所示：

HeGAN的總體框架。如圖(c)所示，我們的框架主要由兩個(gè)相互競爭的模塊組成，即判別器和生成器。給定一個(gè)節(jié)點(diǎn)，生成器嘗試生成與給定節(jié)點(diǎn)相關(guān)聯(lián)的偽樣本，以提供給判別器，而判別器則嘗試改進(jìn)其參數(shù)來將假樣本與實(shí)際連接到給定節(jié)點(diǎn)的真實(shí)樣本分離。在這個(gè)重復(fù)的過程中，訓(xùn)練好的判別器會(huì)迫使生產(chǎn)器產(chǎn)生更好的假樣本，而判別器則也會(huì)增強(qiáng)其判斷能力。在這樣的迭代過程中，生成器和判別器都得到了正強(qiáng)化。

現(xiàn)有的研究只是利用GAN來區(qū)分節(jié)點(diǎn)與給定節(jié)點(diǎn)在結(jié)構(gòu)連接上是真還是假，而沒有考慮到異構(gòu)信息網(wǎng)絡(luò)的不同語義。例如，給定一篇論文p2，它們將節(jié)點(diǎn)a2、a4視為真，節(jié)點(diǎn)a1、a3為偽（根據(jù)圖(a)所示的網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)），。但是，a2和a4連接到p2的原因不同: a2寫了p2, a4讀了p2。因此，它們忽略了異構(gòu)信息網(wǎng)絡(luò)所包含的有價(jià)值的語義，無法區(qū)分a2和a4，因?yàn)樗鼈儼缪葜煌恼Z義角色。在語義保持的表示學(xué)習(xí)方面，HeGAN引入了一個(gè)關(guān)系感知的判別器和生成器，以區(qū)分節(jié)點(diǎn)之間的各種類型的語義關(guān)系。在以上的異構(gòu)信息網(wǎng)絡(luò)上，給定節(jié)點(diǎn)p2和一個(gè)關(guān)系，比如write/ write，我們的判別器能夠分辨出a2和a4，而我們的生成器將嘗試生成更像a2而不是a4的假樣本。

其次，現(xiàn)有的研究在假樣本的生成的有效性和效率上有局限性。他們通常對(duì)在原始網(wǎng)絡(luò)中的所有節(jié)點(diǎn)上使用某種形式的softmax來生成假樣本。在有效性方面，他們的假樣本受限于網(wǎng)絡(luò)中已經(jīng)存在的節(jié)點(diǎn)，或許最具代表性的假樣本可能不存在于現(xiàn)有的可觀察到的節(jié)點(diǎn)。例如，給定一個(gè)節(jié)點(diǎn)p2，他們只能選擇來自空間V(V為網(wǎng)絡(luò)中所有節(jié)點(diǎn)的集合)的樣本，比如a1和a3。然而，兩者可能都不是與實(shí)際節(jié)點(diǎn)a2充分相似。為了更好的樣本生成, 我們引入一個(gè)廣義生成器,可以生成例如a’之類的假樣本，其中，a’可能并不屬于V。我們可以只為a’可能是a1、a3的“平均”,更類似于真正的樣本a2。在計(jì)算效率方面，softmax函數(shù)的計(jì)算開銷較大，必須采用負(fù)采樣和圖softmax等近似方法。相反，我們的生成器可以直接從連續(xù)的空間中采樣假節(jié)點(diǎn)，而無需使用softmax。我們的具體框架如下所示。

我們?cè)贒BLP、Yelp、Aminer、Movielens四個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，具體在節(jié)點(diǎn)聚類、節(jié)點(diǎn)分類、鏈路預(yù)測(cè)和推薦四個(gè)任務(wù)上驗(yàn)證了有效性。實(shí)驗(yàn)數(shù)據(jù)集如下所示。

首先，我們依此來看下節(jié)點(diǎn)分類、鏈路預(yù)測(cè)、節(jié)點(diǎn)聚類、推薦四個(gè)任務(wù)下的實(shí)驗(yàn)結(jié)果。

其次我們來可視化一下節(jié)點(diǎn)表示的空間(Yelp數(shù)據(jù)集)，

由圖可知，HeGAN的邊界更清晰，集群更加密集。

我們給出了Yelp上的HeGAN生成器器和判別器的學(xué)習(xí)曲線，從損失變化和聚類效果兩方面進(jìn)行分析。在損失的初始波動(dòng)之后，生成器和判別器開始了他們之間的極小極大的博弈，兩者的損失逐漸減少。經(jīng)過大約20個(gè)epoch的對(duì)抗性訓(xùn)練，兩者的損失趨于收斂，而勝者實(shí)現(xiàn)了更好的性能。注意，當(dāng)訓(xùn)練了更多的epoch時(shí)，由于過度擬合，聚類性能下降。

之后，我們?cè)诠?jié)點(diǎn)聚類和節(jié)點(diǎn)分類兩個(gè)任務(wù)上驗(yàn)證異構(gòu)信息和我們提出的廣義的生成器的有效性，我們可以得出如下結(jié)論：(1) 在異構(gòu)信息網(wǎng)絡(luò)中，不同類型的節(jié)點(diǎn)和關(guān)系應(yīng)加以區(qū)分。(2) 我們的廣義生成器確實(shí)可以產(chǎn)生更有代表性的樣本。

最后，我們來看一下HeGAN的效率。

從圖中我們可以看到HeGAN的訓(xùn)練時(shí)間和節(jié)點(diǎn)數(shù)成線性關(guān)系，時(shí)間性能大大優(yōu)于基于softmax的GraphGAN。

結(jié)語

本文涉及的技術(shù)主要為異構(gòu)信息網(wǎng)絡(luò)和對(duì)抗生成學(xué)習(xí)。實(shí)際中所涉及的網(wǎng)絡(luò)往往不會(huì)只包含單一類型的節(jié)點(diǎn)或者關(guān)系，網(wǎng)絡(luò)由越來越多的復(fù)雜關(guān)系構(gòu)成是大勢(shì)所趨。所以如何更好利用和表示這種復(fù)雜的網(wǎng)絡(luò)來產(chǎn)生更多的價(jià)值一直研究的重點(diǎn)。其次，現(xiàn)有的網(wǎng)絡(luò)往往存在很多噪聲，或者抗噪能力薄弱，這激勵(lì)著我們學(xué)習(xí)更加魯棒性的網(wǎng)絡(luò)表示。

原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的KDD 2019论文解读:异构信息网络上的对抗生成学习的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： DLedger —基于 raft 协议的
下一篇：如何回答性能优化的问题，才能打动阿里面试