KDD 2019论文解读:异构信息网络上的对抗生成学习
前言
網(wǎng)絡(luò)表示學(xué)習(xí)是一種在低維空間中表示網(wǎng)絡(luò)數(shù)據(jù)的方法,在異構(gòu)信息網(wǎng)絡(luò)分析中得到了廣泛的應(yīng)用。現(xiàn)有的異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)方法雖然在一定程度上實(shí)現(xiàn)了性能的提高,但仍然存在一些主要的不足。最重要的是,它們通常采用負(fù)抽樣的方法從網(wǎng)絡(luò)中隨機(jī)選擇節(jié)點(diǎn),而不學(xué)習(xí)底層的分布以獲得更魯棒的表示。
受生成式對(duì)抗網(wǎng)絡(luò) (GAN)的啟發(fā),我們開發(fā)了一個(gè)用于異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)的新框架HeGAN,它在一種極小極大的博弈中同時(shí)訓(xùn)練判別器和生成器。與現(xiàn)有異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)方法相比,我們的生成器可以學(xué)習(xí)節(jié)點(diǎn)分布,生成更好的負(fù)樣本。與同質(zhì)網(wǎng)絡(luò)上的生成對(duì)抗網(wǎng)絡(luò)相比,我們?cè)O(shè)計(jì)的判別器和生成器是關(guān)系感知的,以便在異構(gòu)信息網(wǎng)絡(luò)上捕獲豐富的語義。此外,為了提高采樣效率,我們提出了一種廣義的生成器,它直接從連續(xù)分布中對(duì)“潛在”節(jié)點(diǎn)進(jìn)行采樣,而不像現(xiàn)有方法那樣局限于原始網(wǎng)絡(luò)中的節(jié)點(diǎn)。最后,我們?cè)谒膫€(gè)實(shí)際數(shù)據(jù)集進(jìn)行了大量的實(shí)驗(yàn)。結(jié)果表明,在所有數(shù)據(jù)集和任務(wù)中,我們始終如一且顯著地優(yōu)于當(dāng)前的表示學(xué)習(xí)方法。
關(guān)于“異構(gòu)信息網(wǎng)絡(luò)”和“對(duì)抗生成學(xué)習(xí)”
網(wǎng)絡(luò)結(jié)構(gòu)在現(xiàn)實(shí)世界的應(yīng)用中無處不在,從社會(huì)和生物網(wǎng)絡(luò)到交通和電信系統(tǒng)。因此,網(wǎng)絡(luò)分析對(duì)于解決社交網(wǎng)絡(luò)的個(gè)性化用戶推薦、生物網(wǎng)絡(luò)的基因識(shí)別困難等關(guān)鍵問題顯得越來越重要。這些問題往往表現(xiàn)為對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行節(jié)點(diǎn)聚類、節(jié)點(diǎn)分類和鏈路預(yù)測(cè),所以這些問題從根本上依賴于一種有效的網(wǎng)絡(luò)表示形式。近年來,網(wǎng)絡(luò)表示學(xué)習(xí)已經(jīng)成為無監(jiān)督學(xué)習(xí)節(jié)點(diǎn)表示的一個(gè)很有前途的方向,其目的是將網(wǎng)絡(luò)節(jié)點(diǎn)投射到低維空間中,同時(shí)保持原網(wǎng)絡(luò)的結(jié)構(gòu)特性。
?
異構(gòu)信息網(wǎng)絡(luò)。雖然早期的網(wǎng)絡(luò)表示學(xué)習(xí)工作已經(jīng)取得了相當(dāng)大的成功,但它們只能處理所謂的同質(zhì)網(wǎng)絡(luò),即網(wǎng)絡(luò)中只包含一種類型的節(jié)點(diǎn)和邊。然而,在實(shí)際場(chǎng)景中,節(jié)點(diǎn)自然地由不同類型的實(shí)體構(gòu)成,這些實(shí)體通過多種關(guān)系相互。這種網(wǎng)絡(luò)稱為異構(gòu)信息網(wǎng)絡(luò),如圖(a)所示。該異構(gòu)信息網(wǎng)絡(luò)由多種類型的節(jié)點(diǎn)(如author和paper)組成,節(jié)點(diǎn)之間通過各種類型的關(guān)系(如write/ writing relationship between author and paper, publish/published relationship between paper and conference)連接。
由于其異構(gòu)性, 異構(gòu)信息網(wǎng)絡(luò)往往具有極其豐富和復(fù)雜的語義。因此,許多研究者開始研究異構(gòu)信息網(wǎng)絡(luò)下的表示學(xué)習(xí),最值得關(guān)注的工作有metapath2vec和HIN2vec。如圖1(b-1)所示,現(xiàn)有異構(gòu)信息網(wǎng)絡(luò)網(wǎng)絡(luò)的表示學(xué)習(xí)方法從思想上可以歸結(jié)為兩個(gè)采樣器,分別從網(wǎng)絡(luò)中給定的“中心”節(jié)點(diǎn)(如paper p2)選擇“上下文”節(jié)點(diǎn)作為正例(如author a2)和負(fù)例(如陰影圓圈)(注意,每個(gè)節(jié)點(diǎn)都可以充當(dāng)中心或上下文,類似于Skip-gram模型)。然后,在這些樣本上訓(xùn)練一個(gè)損失函數(shù)來優(yōu)化節(jié)點(diǎn)表示。雖然這些方法取得了一定的性能提升,但它們也存在嚴(yán)重的局限性。首先,它們通常使用負(fù)抽樣來隨機(jī)選擇網(wǎng)絡(luò)中現(xiàn)有的節(jié)點(diǎn)作為負(fù)抽樣。因此,它們的負(fù)樣本不僅是任意的,而且局限于原始網(wǎng)絡(luò)的宇宙。其次,它們主要關(guān)注于在異構(gòu)信息網(wǎng)絡(luò)上捕獲豐富的語義信息,而不注意節(jié)點(diǎn)的底層分布,因此對(duì)于通常稀疏且有噪聲的真實(shí)的網(wǎng)絡(luò)缺乏魯棒性。第三,當(dāng)前的許多異構(gòu)信息網(wǎng)絡(luò)方法依賴于適當(dāng)?shù)脑窂絹砥ヅ渌璧恼Z義,這通常需要領(lǐng)域知識(shí),而這些知識(shí)有時(shí)是主觀的,而且通常很難獲取。
對(duì)抗生成學(xué)習(xí)。生成對(duì)抗網(wǎng)絡(luò)(GAN)已被開發(fā)用于學(xué)習(xí)各種應(yīng)用中魯棒的潛在表示。GANs依賴于對(duì)抗性學(xué)習(xí)的思想,判別器和生成器相互競爭,不僅要訓(xùn)練更好的判別模型,還要學(xué)習(xí)底層的數(shù)據(jù)分布。后者使得模型對(duì)稀疏或有噪聲數(shù)據(jù)的魯棒性更強(qiáng)[13,24],也提供了更好的樣本來降低標(biāo)注要求。鑒于這些優(yōu)點(diǎn),基于GAN的網(wǎng)絡(luò)表示學(xué)習(xí)已經(jīng)有了一些初步的嘗試。然而,這些研究只研究了同質(zhì)網(wǎng)絡(luò),沒有考慮節(jié)點(diǎn)和關(guān)系的異構(gòu)性,導(dǎo)致在語義豐富的異構(gòu)信息網(wǎng)絡(luò)上性能不理想。
HeGAN及其貢獻(xiàn)。為了克服現(xiàn)有工作的局限,我們提出了一個(gè)新的框架HeGAN,基于GAN的異構(gòu)信息網(wǎng)絡(luò)表示框架。具體地,我們提出了一種新的判別器和生成器,如圖(b-2)所示。首先,我們的判別器和生成器被設(shè)計(jì)成關(guān)系感知的,以便區(qū)分由不同關(guān)系連接的節(jié)點(diǎn)。也就是說,對(duì)于任何關(guān)系,判別器都可以分辨出一個(gè)節(jié)點(diǎn)對(duì)是真還是假,而生成器可以生成模仿真節(jié)點(diǎn)對(duì)的假節(jié)點(diǎn)對(duì)。特別是,只有節(jié)點(diǎn)對(duì)是(i)基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的正對(duì)且(ii)在正確的關(guān)系下形成對(duì)時(shí),才認(rèn)為該節(jié)點(diǎn)對(duì)是正例對(duì);。其次,我們?cè)O(shè)計(jì)了一個(gè)廣義生成器,它能夠直接從連續(xù)分布中抽取潛在節(jié)點(diǎn),因此(i)不需要softmax的計(jì)算; (ii)假樣本不局限于現(xiàn)有節(jié)點(diǎn)。總之,本文做出了以下貢獻(xiàn)。
(1)我們是第一個(gè)將對(duì)抗性學(xué)習(xí)應(yīng)用于異構(gòu)信息網(wǎng)絡(luò)表示的,從而來利用異構(gòu)信息網(wǎng)絡(luò)上的豐富的語義,同時(shí)保證學(xué)習(xí)到的表示的魯棒性。
(2)我們提出了一種新型的HeGAN框架,該框架不僅能夠感知關(guān)系以獲取豐富的語義,而且還具有高效的生成負(fù)樣本的機(jī)制。
(3)我們?cè)谒膫€(gè)公共數(shù)據(jù)集進(jìn)行一系列下游任務(wù)的實(shí)驗(yàn)。結(jié)果表明HeGAN具有明顯的優(yōu)越性。
異構(gòu)信息網(wǎng)絡(luò)上的對(duì)抗生成學(xué)習(xí)
生成對(duì)抗的網(wǎng)絡(luò)。我們的工作受到GANs的啟發(fā),GANs可以被看作是兩個(gè)玩家之間的一個(gè)極小極大的博弈,即生成器G和鑒別器D。具體的優(yōu)化形式如下所示:
?
HeGAN的總體框架。如圖(c)所示,我們的框架主要由兩個(gè)相互競爭的模塊組成,即判別器和生成器。給定一個(gè)節(jié)點(diǎn),生成器嘗試生成與給定節(jié)點(diǎn)相關(guān)聯(lián)的偽樣本,以提供給判別器,而判別器則嘗試改進(jìn)其參數(shù)來將假樣本與實(shí)際連接到給定節(jié)點(diǎn)的真實(shí)樣本分離。在這個(gè)重復(fù)的過程中,訓(xùn)練好的判別器會(huì)迫使生產(chǎn)器產(chǎn)生更好的假樣本,而判別器則也會(huì)增強(qiáng)其判斷能力。在這樣的迭代過程中,生成器和判別器都得到了正強(qiáng)化。
現(xiàn)有的研究只是利用GAN來區(qū)分節(jié)點(diǎn)與給定節(jié)點(diǎn)在結(jié)構(gòu)連接上是真還是假,而沒有考慮到異構(gòu)信息網(wǎng)絡(luò)的不同語義。例如,給定一篇論文p2,它們將節(jié)點(diǎn)a2、a4視為真,節(jié)點(diǎn)a1、a3為偽(根據(jù)圖(a)所示的網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)),。但是,a2和a4連接到p2的原因不同: a2寫了p2, a4讀了p2。因此,它們忽略了異構(gòu)信息網(wǎng)絡(luò)所包含的有價(jià)值的語義,無法區(qū)分a2和a4,因?yàn)樗鼈儼缪葜煌恼Z義角色。在語義保持的表示學(xué)習(xí)方面,HeGAN引入了一個(gè)關(guān)系感知的判別器和生成器,以區(qū)分節(jié)點(diǎn)之間的各種類型的語義關(guān)系。在以上的異構(gòu)信息網(wǎng)絡(luò)上,給定節(jié)點(diǎn)p2和一個(gè)關(guān)系,比如write/ write,我們的判別器能夠分辨出a2和a4,而我們的生成器將嘗試生成更像a2而不是a4的假樣本。
其次,現(xiàn)有的研究在假樣本的生成的有效性和效率上有局限性。他們通常對(duì)在原始網(wǎng)絡(luò)中的所有節(jié)點(diǎn)上使用某種形式的softmax來生成假樣本。在有效性方面,他們的假樣本受限于網(wǎng)絡(luò)中已經(jīng)存在的節(jié)點(diǎn),或許最具代表性的假樣本可能不存在于現(xiàn)有的可觀察到的節(jié)點(diǎn)。例如,給定一個(gè)節(jié)點(diǎn)p2,他們只能選擇來自空間V(V為網(wǎng)絡(luò)中所有節(jié)點(diǎn)的集合)的樣本,比如a1和a3。然而,兩者可能都不是與實(shí)際節(jié)點(diǎn)a2充分相似。為了更好的樣本生成, 我們引入一個(gè)廣義生成器,可以生成例如a’之類的假樣本,其中,a’可能并不屬于V。我們可以只為a’可能是a1、a3的“平均”,更類似于真正的樣本a2。在計(jì)算效率方面,softmax函數(shù)的計(jì)算開銷較大,必須采用負(fù)采樣和圖softmax等近似方法。相反,我們的生成器可以直接從連續(xù)的空間中采樣假節(jié)點(diǎn),而無需使用softmax。我們的具體框架如下所示。
?
我們?cè)贒BLP、Yelp、Aminer、Movielens四個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),具體在節(jié)點(diǎn)聚類、節(jié)點(diǎn)分類、鏈路預(yù)測(cè)和推薦四個(gè)任務(wù)上驗(yàn)證了有效性。實(shí)驗(yàn)數(shù)據(jù)集如下所示。
?
首先,我們依此來看下節(jié)點(diǎn)分類、鏈路預(yù)測(cè)、節(jié)點(diǎn)聚類、推薦四個(gè)任務(wù)下的實(shí)驗(yàn)結(jié)果。
其次我們來可視化一下節(jié)點(diǎn)表示的空間(Yelp數(shù)據(jù)集),
?
由圖可知,HeGAN的邊界更清晰,集群更加密集。
我們給出了Yelp上的HeGAN生成器器和判別器的學(xué)習(xí)曲線,從損失變化和聚類效果兩方面進(jìn)行分析。在損失的初始波動(dòng)之后,生成器和判別器開始了他們之間的極小極大的博弈,兩者的損失逐漸減少。經(jīng)過大約20個(gè)epoch的對(duì)抗性訓(xùn)練,兩者的損失趨于收斂,而勝者實(shí)現(xiàn)了更好的性能。注意,當(dāng)訓(xùn)練了更多的epoch時(shí),由于過度擬合,聚類性能下降。
?
之后,我們?cè)诠?jié)點(diǎn)聚類和節(jié)點(diǎn)分類兩個(gè)任務(wù)上驗(yàn)證異構(gòu)信息和我們提出的廣義的生成器的有效性,我們可以得出如下結(jié)論:(1) 在異構(gòu)信息網(wǎng)絡(luò)中,不同類型的節(jié)點(diǎn)和關(guān)系應(yīng)加以區(qū)分。(2) 我們的廣義生成器確實(shí)可以產(chǎn)生更有代表性的樣本。
?
最后,我們來看一下HeGAN的效率。
?
從圖中我們可以看到HeGAN的訓(xùn)練時(shí)間和節(jié)點(diǎn)數(shù)成線性關(guān)系,時(shí)間性能大大優(yōu)于基于softmax的GraphGAN。
結(jié)語
本文涉及的技術(shù)主要為異構(gòu)信息網(wǎng)絡(luò)和對(duì)抗生成學(xué)習(xí)。實(shí)際中所涉及的網(wǎng)絡(luò)往往不會(huì)只包含單一類型的節(jié)點(diǎn)或者關(guān)系,網(wǎng)絡(luò)由越來越多的復(fù)雜關(guān)系構(gòu)成是大勢(shì)所趨。所以如何更好利用和表示這種復(fù)雜的網(wǎng)絡(luò)來產(chǎn)生更多的價(jià)值一直研究的重點(diǎn)。其次,現(xiàn)有的網(wǎng)絡(luò)往往存在很多噪聲,或者抗噪能力薄弱,這激勵(lì)著我們學(xué)習(xí)更加魯棒性的網(wǎng)絡(luò)表示。
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的KDD 2019论文解读:异构信息网络上的对抗生成学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DLedger —基于 raft 协议的
- 下一篇: 如何回答性能优化的问题,才能打动阿里面试