知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer
題目: Heterogeneous Graph Transformer
論文鏈接: https://arxiv.org/abs/2003.01332
代碼鏈接:https://github.com/acbull/pyHGT
論文
-
異構圖研究之一: 使用元路徑來建模異構結構
heterogeneous graphs 《Mining Heterogeneous Information Networks:
Principles and Methodologies》 2012 Morgan & Claypool Publishers.
PathSim 《Meta path-based top-k similarity search in heterogeneous information networks.》 VLDB ’11.
metapath2vec 《Stochastic Training of Graph Convolutional Networks with Variance Reduction. 》2018 ICML -
異構圖研究之二: 使用GCN
《Heterogeneous Graph Attention Network》 WWW 2019 400次引用
《Modeling Relational Data with Graph Convolutional Networks》 1400次引用 ESWC’2018.
《Heterogeneous Graph Neural Network》19
《Graph Transformer Networks》19 -
取樣方法(基于GNN的)
GraphSage [7], FastGCN [1], and LADIES [29];以及本文的HGSampling -
異構圖的研究(節點分類、聚類、排序和表示)
《metapath2vec:Scalable Representation Learning for Heterogeneous Networks》2017
《Mining Heterogeneous Information Networks: Principles and Methodologies.》2012
《Pathsim:Meta path-based top-k similarity search in heterogeneous information networks.》VLDB 11
《Integrating meta-path selection with user-guided object clustering in heterogeneous information networks》KDD 12
想法
- 什么是動態依賴關系?
- ATT是指的multi-head! 同一個頭節點的多個頭!
- MSG是傳遞消息的縮寫
- softmax是在計算multi-head的權重時候的softmax
創新
第一,我們不設置元路徑; 第二,用邊和點相關的參數來計算權重從而維護點和邊的表示(每個關系獨立的特征和共享的平衡); 第三,考慮動態特征; 第四,可以擴展到web規模;
摘要
難點
GNN對結構化數據的表示是很有效的,但是是在同構圖上的
我們:
- 模型方面: 異構圖上,節點和邊的類型都是不一樣的! 為了這種異構性建模,首先,我們設計了與節點和邊類型相關的參數來描述每條邊上的異質注意力,使HGT能夠對不同類型的節點和邊保持專門的表示。其次,考慮到動態異構圖,我們在HGT中添加了相對時間編碼,它能夠捕獲任意持續時間的動態結構依賴關系。
- 取樣方式:為了處理web-scale graph,我們設計了異構mini-batch 圖采樣算法–HGSampling
Introduction
圖1中的Open Academic Graph (OAG)[28]包含五種類型的節點:論文、作者、機構、場所(期刊、會議或預印本)和字段,以及它們之間不同類型的關系。 而且這種關系就是meta-path。
難點—詳解:
經典范例之一是定義和使用元路徑來建模異構結構,如PathSim,metapath2vec; 范例二是GNNs的火爆,利用GNNs和異構網絡進行學習。如R-GCNs、HetG、GTNs、 HAN
但是以前的網絡有些存在著下面的問題:
第一,構建這種異構圖中的meta-path常常需要專業領域的知識,比如上面的OAG圖,如果你不是學術圈的,恐怕不知道作者、機構、paper等的關系!
第二,它們要么簡單地假設不同類型的節點/邊共享相同的特征和表示空間(使用相同的映射函數),要么單獨對節點類型或邊類型保持不同的非共享權值,使得它們不足以捕獲異構圖的性質;
第三,它們大多忽略了每個(異構)圖的動態特征;
最后,它們的內在設計和實現使得它們無法對web規模的異構圖進行建模。
我們以OAG為例,講解一下為什么異構圖難以學習。 如OAG的節點和邊緣可能有不同的特征分布,比如論文是文本特征,機構是附屬學者特征等。 而且OAG有時效性,比如出版物的數量會變化,而且每年的論文關注點也不同,趨勢不同。 使得現有的異構gnn無法進行可伸縮處理。
我們方法—詳解:
上面的缺點就是我們的優點: 第一,我們不設置元路徑; 第二,用邊和點相關的參數來計算權重從而維護點和邊的表示; 第三,考慮動態特征; 第四,可以擴展到web規模;
HGT中并不是將每條邊參數化,也就是向量化,而是將三元組分解成單獨的個體(e、h、t),然后利用這些meta-relation來計算注意力參數化權重矩陣。 這樣,不同類型的nodes和edges都保存了自己的表示空間,也能表示之間的關系。
其次,不同類型的的nodes可以interact、pass和aggregate 信息。
這樣的好處就是HGT提取節點和邊中包含了高階信息,同時僅僅只需要一個items的one-hop edges作為輸入,而不是手動設計,注意力機制會幫我們考慮哪條邊重要或者不重要。
為了提取圖的動態特征,我們提出相對時間編碼(RTE)策略來增強HGT。與將輸入圖分割成不同的時間戳不同,我們建議將發生在不同時間的所有邊作為一個整體進行維護。任何持續長度的結構性時間依賴性,甚至是不可見的和未來的時間戳。
通過端到端訓練,RTE使HGT能夠自動學習異構圖的時間依賴性和演化。
為了處理web-scale graph,我們設計了HGSampling —為了mini-batch的GNN訓練。 該取樣方法就是構建一個不同節點類型都均衡的子圖,因為現有的基于GNN的方法, GraphSage [7], FastGCN [1], and LADIES [29], 都會造成節點和邊的類型高度不均衡。 同時在取樣的時候,也要保持信息的不丟失。 該方法可以用在所有的GNN模型,這樣就可以訓練和推斷任意大小的異構圖。
數據集: Web-scale Open Academic Graph(這是迄今為止在異構圖上進行的規模最大、跨度最長的表示學習); 還有計算機、醫學學術圖上都表明了HGT的有效性。
我們進一步進行了案例研究,表明該方法確實能夠自動捕獲隱式元路徑對不同任務的重要性。
2 PRELIMINARIES AND RELATED WORK
介紹heterogeneous graphs with network dynamics,并回顧圖神經網絡及其異構變體,同時我們也強調了HGT和異構圖神經網絡的不同點。
2.1 Heterogeneous Graph Mining
異構圖是許多現實世界復雜系統的關系數據建模的重要抽象。正式定義為:
Definition 1.Heterogeneous Graph: 與普通的同構的多了兩個函數,用來映射nodes和edges的類型。 G=(V,E,A,R)G=(\mathcal{V}, \mathcal{E}, \mathcal{A}, \mathcal{R})G=(V,E,A,R),其中前兩項不用,后兩項是類型集合。 映射函數是:
Meta Relation
對于邊e=(s,t)e=(s,t)e=(s,t),, 它的meta relation被表示為?τ(s),?(e),τ(t)?\langle\tau(s), \phi(e), \tau(t)\rangle?τ(s),?(e),τ(t)?,?(e)?1\phi(e)^{-1}?(e)?1表明是?(e)\phi(e)?(e)的逆,經典的元路徑范式[17-19]被定義為這種元關系的序列。
這里需要注意,為什么需要τ和?\tau和\phiτ和?函數,這是不同類型的nodes之間可能有不同的relations。比如Author和Paper之間可以是第一作者也可以是第二或者是第三作者。
Dynamic Heterogeneous Graph
對真實世界(異構)圖的動態特性進行建模,當node s在TTT上聯系node t時,我們為一條邊e=(s,t)e=(s,t)e=(s,t)分配一個時間戳TTT,如果sss第一次出現,TTT也會被分配給sss。 如果它隨時間建立連接,則sss可以與多個時間戳關聯。
假定邊的時間戳是不變的,表示該邊創建的時間。但是可以給節點分配不同的時間戳。
比如: 一篇paper在發表時,是有時間的,而是是不變的; 但是WWW會議則是由不同的時間戳的,每年都會舉辦。
2.2 Graph Neural Networks
現在的GNN可以將輸入圖結構作為計算圖來進行信息的傳遞、聚合本地鄰居信息以獲得更上下文相關的表示。形式上,它有以下形式:
Definition 2.General GNN Framework:
我們假定Hl[t]H^l[t]Hl[t]是節點t再(l)(l)(l)-th GNN層的結點表示,從(l?1)(l-1)(l?1)-th到(l)(l)(l)-th更新步驟如下:
其中N(t)N(t)N(t)表明了node ttt的sources nodes和E(s,t)E(s,t)E(s,t)表明從節點sss到ttt的邊。
其中最重要的操作是Extract(·)和Aggregate(·),前者代表鄰居信息提取器,它從上一層的源節點、目標節點分別提取信息,以及兩個nodes作為查詢的邊eee。 Aggregate操作則是聚集了源節點的鄰居信息, 同時也可以設計更復雜的池化和規范化函數。
GCN、GraphSAGE、GAT(添加了注意力機制)
2.3 Heterogeneous GNNs
原來的方法只是單獨的使用node或者是edge來決定GNN的權重矩陣,然而,不同類型的節點或邊緣計數可能有很大差異。對于沒有足夠頻繁出現的關系,很難學習精確的特定關系權重。
為了解決這個問題,我們考慮參數共享以更好地泛化。對于邊e=(s,t)e=(s,t)e=(s,t),, 它的meta relation被表示為?τ(s),?(e),τ(t)?\langle\tau(s), \phi(e), \tau(t)\rangle?τ(s),?(e),τ(t)?,如果我們在元關系中建立相應的元素τ(s)\tau(s)τ(s), ?(e)\phi(e)?(e), τ(t)\tau(t)τ(t), 那么大部分權重可以共享。
比如: 第一作者和第二作者的關系,他們的源節點和目標節點都是author到paper,也就是說從一個關系學習到的關于author到paper的知識在用到另一個關系(同一個源和目標節點)上時,會很快的適應。 我們和強大的Transformer-like注意力機制聚合,提出了Heterogeneous Graph Transformer.
我們的創新點在于:
(1)根據上面的描述,我們會根據meta-relation來分解交互和變換矩陣,使得HGT能夠捕獲不同關系的common和specific關系。(相同關系的nodes會共享權重)
(2)自動學習隱式元路徑的重要性
(3)動態性
3 HETEROGENEOUS GRAPH TRANSFORMER
利用meta-relation來求得可以共享的參數,消息傳遞和傳播。 同時添加了相對時間編碼機制。
如果不懂自注意力的,請看這篇博客
3.1 Overall HGT Architecture
HGT的目標是聚合來自源節點的信息,以獲得目標節點的上下文化表示。
3.2 Heterogeneous Mutual Attention(通過Q·K計算attention,同時變化矩陣添加了類型!同時根據關系計算multi-head的softmax)
這里用的是Transformer的方法,不懂可以去補補, 這里計算的是一個GCN層的,所以可以把(l-1)層和接下來的第i個head也去掉,這樣看起來方便一點
3.2.1 普通的GNNs
第一個步驟就是計算source s和target節點t的相互注意力,我們給出了一個簡單的介紹attention-based GNNs的大概:
Attention: 使用target node的Q和source的K來獲得注意力; Message:也就是source node s的V,存儲的是原有信息; Aggregate:通過注意力權重來聚合。 當然聚合之前最好有個softmax來使得權重均衡。
比如GAT就是使用了注意力機制,使用了相同的權重來計算Message,并利用簡單平均值,然后對aggregate步驟進行非線性激活。
雖然GAT獲取重要nodes的注意力值是很有效的,但是它認為s和t通過使用權重矩陣W是相同的特征分布,這是不好的。
而我們是會根據meta-relation的不同而計算node相互的attention。
3.2.2 補充:Transformer
單head:
這里需要注意的是第一步算出來的權重需要經過softmax歸一化一下! α1,i\alpha_{1,i}α1,i?是節點i對節點1的注意力權重。
multi-head的意思是多個特征:
上面的描述都是普通Transformer中的自注意力機制,也就是將targe t節點t映射為Query vector、source s都映射到成Key vector,然后計算他們的dot product來作為attention!
3.2.3 我們的multi-head Transformer+GNNs
普通的Transformer和我們的設計的模型不同之處就是Transformer中對所有單詞使用一組投影(也就是在計算Q、K、V時使用的W矩陣), 每個元關系(也就是t、s1、s2等等和e)應該有一組(注意是一組,每個元關系是一組)不同的投影權重,而且這里的是類型權重。
1. 首先將普通的權重改為類型參數權重:
但是不同的投影權重也不是不好的,占有內存大,泛化能力不好! 為了達到既能保證不同關系的獨特特征,又能最大化共享參數的效果,我們提出將權重矩陣參數化為源節點投影、邊投影和目標節點投影(也就是前面說的一組權重),而且我們根據節點和邊的類型來計算權重。
2. 再次是multi-head:
具體而言我們為每個邊e=(s,t)e=(s,t)e=(s,t)計算hhh-head注意力,而且是mult-head的softmax:
我們根據圖來,解釋上面的式子:
輸出: attention
首先, 對于iii-th的注意力頭ATT?headi(s,e,t)ATT-head^i(s, e, t)ATT?headi(s,e,t),我們使用一個線性折射KKK-Linear,這意味著每種類型的節點都有一個唯一的線性投影,以最大限度地模擬分布差異; 同樣的,我們可以得到Query Vector;
其次,計算每個頭的注意力(每組元關系),在Transformer中是Att-head = K· Q ,然鵝這里我們先用線性映射Q?Linearτ(t)i\mathrm {Q-Linear}_{\tau(t)}^iQ?Linearτ(t)i?來映射目標節點ttt類型作為iii-th的Query向量, 同時使用線性映射K?Linearτ(s1)i\mathrm {K-Linear}_{\tau(s_1)}^iK?Linearτ(s1?)i?和K?Linearτ(s2)i\mathrm {K-Linear}_{\tau(s_2)}^iK?Linearτ(s2?)i?得到尾結點的第iii-th頭的Key向量。 之后使用meta-relation的權重映射W?e1ATTW_{\phi_{e_1}}^{ATT}W?e1??ATT?,來聚合K和Q。 也就是:
其中W?e1ATTW_{\phi_{e_1}}^{ATT}W?e1??ATT?可以捕獲相同節點類型對的語義關系! 異構圖的一個獨特特征是,在一個節點類型對之間可能存在不同的邊類型(關系)也就是,τ(s)和τ(t)\tau(s)和\tau(t)τ(s)和τ(t),因此,與直接計算Query和Key向量之間的點積的普通Transformer不同,我們為每個邊類型?(e)\phi(e)?(e)保留了一個不同的基于邊的矩陣W?(e)ATT∈Rdh×dhW_{\phi(e)}^{A T T} \in \mathbb{R}^{\fracozvdkddzhkzd{h} \times \fracozvdkddzhkzd{h}}W?(e)ATT?∈Rhd?×hd?。在這樣做的過程中,模型可以捕獲相同節點類型對的語義關系。
此外,由于不是所有的關系對目標節點的貢獻都是相等的,我們添加了一個先驗張量μ∈R∣A∣×∣R∣×∣A∣\mu \in \mathbb{R}^{|\mathcal{A}| \times|\mathcal{R}| \times|\mathcal{A}|}μ∈R∣A∣×∣R∣×∣A∣表示每個元關系三元組的一般意義,作為注意力的自適應縮放。
最后,我們將hhh個注意頭concat連接在一起,得到每個節點對的注意向量。然后,對于每個目標節點ttt,我們從它的鄰居N(t)N(t)N(t)聚集所有的注意力向量,然后進行softmax,使得它滿足∑?s∈N(t)Attention?HGT(s,e,t)=1h×1\sum_{\forall s \in N(t)} \text { Attention }_{H G T}(s, e, t)=\mathbf{1}_{h \times 1}∑?s∈N(t)??Attention?HGT?(s,e,t)=1h×1?
3.3 Heterogeneous Message Passing(也就是V的計算,但是會考慮類型的計算,同時根據關系計算multi-head)
我們看圖,得到看到:
輸出: Message!
計算注意力之外,我們也會將信息從源節點傳遞到目標節點(見圖2(2))。與注意過程類似,我們希望將邊的元關系融入到消息傳遞過程中,以緩解不同類型節點和邊的分布差異。對于一對節點e=(s,t)e=(s,t)e=(s,t),我們計算它的multi-head Message 通過:
經過矩陣! 為了得到 iii -th信息頭 MSG?headi(s,e,t)MSG-head ^{i}(s, e, t)MSG?headi(s,e,t) , 我們首先映射τ(s)\tau(s)τ(s)-type的源node s為iii-th信息向量用一個線性映射M?Linearτ(s)i:Rd→RdhM-Linear _{\tau(s)}^{i}: \mathbb{R}^ozvdkddzhkzd \rightarrow \mathbb{R} \fracozvdkddzhkzd{h}M?Linearτ(s)i?:Rd→Rhd?。
它后面跟著一個矩陣W?(e)MSG∈Rdh×dhW_{\phi(e)}^{M S G} \in \mathbb{R}^{\fracozvdkddzhkzd{h} \times \fracozvdkddzhkzd{h}}W?(e)MSG?∈Rhd?×hd?來包含邊的依賴。
最后一步是concat所有的hhh信息頭來為每個節點對得到MessageHGT(s,e,t)Message _{H G T}(s, e, t)MessageHGT?(s,e,t)
3.4 Target-Specific Aggregation
計算出異構 multi-head attention 和 message calculated,后,我們需要將它們從源節點聚合到目標節點(見圖2(3))。同時我們可以將attention經過softmax歸一化,因此,我們可以簡單地使用注意向量作為權重,對來自源節點的相應消息進行平均,得到更新后的向量H~(l)[t]\tilde{H}^{(l)}[t]H~(l)[t]為:
它將來自不同特征分布的所有鄰居(源節點)的信息聚合到目標節點ttt。
最后的目標就是將目標節點t′t't′的向量映射為 type-specific的分布,按節點類型索引τ(t)\tau{(t)}τ(t),為此我們應用線性投影A-Linearτ(t)_{\tau(t)}τ(t)?來更新向量H~(l)[t]\tilde{H}^{(l)}[t]H~(l)[t]在殘差連接后作為(看上面的圖):
這樣我們就得到了對于目標節點ttt的(l?1)?th(l-1)-th(l?1)?th的HGT層的輸出H(l)[t]H^{(l)}[t]H(l)[t]
這樣的操作進行L次(L層),那么我們就能夠得到每個節點的包含了高度上下文的H(L)H^{(L)}H(L)。可輸入任意模型進行下游異構網絡任務,如節點分類、鏈路預測等。
通過整個結構,我們高度依賴于 meta-relation-?τ(s),?(e),τ(t)?\left \langle \tau( s ),\phi (e), \tau (t) \right \rangle?τ(s),?(e),τ(t)?,將權重矩陣單獨參數化。 與普通的Transformer相比,這樣的參數共享有利于快速的自適應和泛化。另一方面,通過使用更小的參數集,不同關系的運算符仍然可以保持其特定的特征。
3.5 Relative Temporal Encoding
我們提出了HGT結構,接下來,我們介紹了相對時間編碼(RTE)技術的HGT處理圖的動態。
整合時間信息的傳統的方式是為每個time slot創建一個單獨的圖。然鵝time slots之間是有關系的。因此,建模動態圖的正確方法是維護所有發生在不同時間的邊,并允許具有不同時間戳的節點和邊相互交互。
RTE的靈感來自Transformer的位置編碼方法[15,21],該方法已經成功地捕捉了長文本中單詞的順序依賴關系。
具體而言,給定一個source node s和 target node t,以及它們相應的timestamps T(s)T(s)T(s)和T(t)T(t)T(t),我們表明了相對時間gap△T(t,s)=T(t)?T(s)\bigtriangleup T(t,s)=T(t)-T(s)△T(t,s)=T(t)?T(s)。注意訓練數據集將不能彌補所有可能的時間差距,因此RET應該具有能夠歸納出看不見的時間和時間間隔。因此,我們采用固定的正弦函數集作為基,具有可調諧的線性投影T-Linear?^*?為RTE:
最后,將相對于目標節點ttt的時間編碼添加到源節點s′s's′的表示中,如下所示:
這樣,時間增廣表示H^(l?1)\hat{H}^{(l-1)}H^(l?1)將捕獲源節點s和目標節點t的相對時間信息。RTE過程如圖3所示。
4 WEB-SCALE HGT TRAINING
在本節中,我們提出了HGT的策略來訓練Webscale具有動態信息的異構圖,包括一種高效的異構迷你批圖采樣算法——HGSampling——和一種歸納時間戳分配方法。
4.1 HGSampling
full-batch的GNN訓練需要每個層的全部節點表示,這是不適合Web-scale圖。 為了解決這個問題,對于異構圖直接使用它們,由于每種類型的度分布和節點總數可能發生巨大變化,容易得到關于不同節點類型的極不平衡的子圖。
為了解決這一問題,我們提出了一種高效的異構小批圖采樣算法——HGSampling,使HGT和傳統gnn都能處理web規模的異構圖。HGSampling能夠
1)保持每種類型節點和邊的數量相似
2)保持采樣子圖的稠密,以最小化信息損失,降低樣本方差。
算法1概述了HGSampling算法。其基本思想是對每個節點類型τ\tauτ保持一個獨立的節點budget B[τ]B[\tau]B[τ],并使用重要抽樣策略對每個類型采樣相同數量的節點以減少方差。給定已經抽樣的結點ttt,我們使用算法2將其所有的直接鄰居加入到相應的預算中,并在第8行中將t′t't′的歸一化程度加到這些鄰居中,然后用這個來計算抽樣概率。這種歸一化相當于將每個采樣節點的隨機漫步概率累積到其鄰域,避免了采樣被高度節點主導。從直觀上看,該值越大,候選節點與當前采樣節點的關聯程度越高,因此被采樣的概率也就越大。
在預算更新后,我們在算法1第9行中計算抽樣概率,其中我們計算每個預算中每個節點sss的累計歸一化程度的平方。
如[29]所證明的,使用這樣的抽樣概率可以減小抽樣方差。然后,在type τ\tauτ中利用計算概率采樣nnn個節點,將其加入輸出節點集,將其鄰域更新到預算中,并在第12-15行中將其從預算中刪除。對LLL times重復這樣的過程,我們從初始節點得到一個具有LLL depth的抽樣子圖。
最后,重構采樣節點之間的鄰接矩陣。通過上述算法,采樣后的子圖每類型包含相似數量的節點(基于獨立節點預算),且足夠密集以減小采樣方差(基于歸一化程度和重要性采樣),適合于在web尺度的異構圖上訓練gnn。
4.2 Inductive Timestamp Assignment
到目前為止,我們假設每個節點ttt都有一個時間戳T(t)T(t)T(t)。然而,在真實的異構圖中,許多節點并不與固定的時間相關聯。因此,我們需要給它分配不同的時間戳。我們將這些節點表示為普通節點。例如,1974年和2019年的WWW大會,這兩年的WWW節點的研究課題有很大的不同。因此,我們需要決定將哪個時間戳附加到WWW節點。
異構圖中還存在事件節點,它們具有與之關聯的顯式時間戳。例如,論文節點應該與其發布行為相關聯,并因此附加到其發布日期。我們提出一種歸納時間戳分配算法,根據普通節點所鏈接的事件節點來分配時間戳。算法如算法2第6行所示。其思想是計劃節點從事件節點繼承時間戳。我們檢查候選源節點是否為事件節點。如果是,比如在特定年份發表的一篇論文,我們保留它的時間戳以獲取時間依賴性。如果不是,比如一個可以與任何時間戳關聯的會議,我們歸納地將關聯節點的時間戳(比如其論文發表的年份)分配給這個普通節點。通過這種方法,我們可以在子圖采樣過程中自適應地分配時間戳。
5 EVALUATION
在本節中,我們評估提出的異構圖轉換器在三個異構學術圖數據集。我們進行了論文場預測、論文地點預測和作者消歧任務。我們還通過案例研究來演示HGT如何自動學習和提取對下游任務很重要的元路徑。
5.1 Web-Scale Datasets
OAG作為實驗基礎。
5.2 Experimental Setup
測試目的:
L1: Paper-Field
L2: Paper-Field
Paper-Venue
前三個節點分類的任務就是分別預測每個paper是否屬于正確的L1、L2和Paper-Venue;
為了消除歧義,我們選擇使用所有同名的作者及其相關論文,任務是進行這些論文和候選作者之間的聯系預測。
實驗設置:
對于所有任務,我們使用2015年之前發表的論文作為訓練集,2015 - 2016年發表的論文作為驗證集,2016 - 2019年發表的論文作為測試集。我們選擇NDCG和MRR這兩個被廣泛采用的排名指標作為評價指標。對所有模型進行了5次訓練,并報告了測試性能的平均值和標準方差。
第一類GNNbaselines是為同構圖設計的:
GCN和GAT;
第二類是幾個專用的異構GNN為基線,包括:
RGCN、HetGNN、HAN
消融實驗:異質性權重參數化(Heter)和相對時間編碼(RTE)
我們對所有基線gnn使用第4節中提出的HGSampling算法來處理大規模的OAG圖。為了避免數據泄漏,我們從子圖中刪除了我們打算預測的鏈接(例如,作為標簽的Paper-Field鏈接)。
Input Features:
我們沒有假設每個節點類型屬于相同的分布,所以我們可以自由地使用最合適的特征來表示每個節點類型。
對于每篇論文,我們使用預先訓練的XLNet來獲得標題中國的每個單詞的表示,然后h用每個詞的注意力加權平均它們,得到每篇論文的標題表示,每個作者最初的特征只是他/她發表的論文陳述的平均值。
對于場地、場地和研究所的節點,我們使用metapath2vec模型[3],通過反映異構網絡結構來訓練它們的節點嵌入。
同質GNN基線假設節點特征屬于同一分布,而我們的特征提取不滿足這一假設。為了進行公平的比較,我們在輸入特征和所有使用的GNN之間添加了一個自適應層,該自適應層只是對不同類型的節點進行不同的線性投影。這種方法可以看作是將異構數據映射到同一分布。
Implementation Details:
hidden dimension: 256
multi-head: 8
GNNs: 3 layers 每個網絡的感受野相同
optimizer: AdamW with Cosine Annealing Learning Rate Scheduler
200 epochs,并選擇最低的驗證loss作為要報道的模型;
我們使用GNN文獻中使用的默認參數,不調優超參數。
5.3 Experimental Results
HGT具有更少的參數和可比的批處理時間。這表明,通過根據異構邊緣的元關系模式建模,我們能夠以更少的資源消耗獲得更好的泛化。
Ablation Study. HGT的核心部分是異質性權重參數化(Heter)和相對時間編碼(RTE)。為了進一步分析它們的影響,我們進行了消融研究,將它們從HGT中移除
5.4 Case Study
為了進一步評估相對時間編碼(RTE)如何幫助HGT捕捉圖的動態,我們進行了一個展示會議主題演變的案例研究。
我們選擇100個被引用次數最高的計算機科學會議,將其劃分為2000年、2010年和2020年三個不同的時間戳,并構建由它們初始化的子圖。利用訓練過的HGT,我們可以得到這些會議的表示,并據此計算它們之間的歐氏距離。
對于每一個會議,我們挑選出最相似的5個會議(即歐幾里得距離最小的會議),以顯示會議的主題是如何隨著時間的推移而演變的
5.5 Visualize Meta Relation Attention
為了說明合并后的元關系模式如何使異構消息傳遞過程受益,我們選擇了在前兩個HGT層中具有最大關注值的模式,并在圖5中繪制了元關系關注層次樹。例如,要計算一篇論文的表現形式,
是三個最重要的元關系序列,這些可以分別歸為meta paths PVP、PFP和IAP。這些元路徑及其重要性無需手動設計就可以從數據中自動學習。右邊顯示了另一個計算作者節點表示的例子。這樣的可視化顯示,異構圖轉換器能夠隱式學習為特定的下游任務構建重要的元路徑,而無需手動定制。
總結
以上是生活随笔為你收集整理的知识图谱论文阅读(二十)【WWW2020】Heterogeneous Graph Transformer的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 修改mysql文件的存储路径
- 下一篇: c语言函数能改变指针吗,如何修改传递给C