论文浅尝 - KDD2020 | 真实世界超图的结构模式和生成模型
論文筆記整理:畢禎,浙江大學碩士,研究方向:知識圖譜、自然語言處理。
鏈接:https://arxiv.org/abs/2006.07060
動機
圖已被用作對人或物體之間的成對關系建模的強大工具。而超圖是更廣泛概念的一種特殊類型,其中每個超邊可以由任意數量的節點組成,而不是僅由兩個組成。大量的現實世界數據集都是這種形式的。比如電子郵件的收件人列表,參與討論主題的用戶或在線問題中標記的主題標簽等。由于這些情況表示形式復雜且缺少適當的工具,因此在研究中很少會去關注探索這些問題的建模與算法。
本篇論文根據經驗研究了多個跨領域的真實世界超圖數據集。為了進行深入研究,引入了多級分解方法,該方法通過一組成對圖表示每個超圖。每個成對圖(稱為k級分解圖)捕獲了k個節點的子集對之間的交互。通過經驗的總結,在每個分解級別,所研究的超圖都遵循五個結構特性或者指標。這些屬性用作評估超圖的逼真度的標準,并為超圖生成問題奠定基礎。文章最后提出了一種超圖生成器,采取了非常簡單的思路,但是能夠滿足這些評估指標。與此相比的是其他對比模型則很難達到同樣的效果。
背景
圖1 超圖的例子
超圖是圖的一般化,其中邊可以連接任意數量的頂點。相反在普通圖中,一條邊正好連接兩個頂點。在圖1中,假設頂點代表文章,每條邊代表兩個頂點享有同一個作者。如果使用簡單的圖結構來表示,就會丟失“同一作者發表多篇文章”這樣集合的信息。實際生活中存在著大量類似的圖結構,而超圖是相對合適的表示方法。
多級分解方法
定義:
其中:
圖2 超圖的多級分解
利用分解圖具有幾個優點:
(1)子集交互:分解后的圖揭示了節點子集之間的子集交互。
(2)成對圖表示:分解后的圖可以使用成對圖的現有度量進行分析。
(3)沒有信息丟失:原始的超圖可以從分解后的圖中恢復。
觀測指標
論文證明了下列的結構模式在真實超圖的分解圖的每個級別中均有效。
(P1)Giant connected component:巨型連接分量
此屬性意味著存在一個包含大量節點的連接分量,并且該比例顯著大于第二大連接分量(至少大70倍)。網絡中的大多數節點都相互連接。此屬性用作其他屬性的基礎。
(P2)Heavy-tailed degree distribution:重尾度分布
????? 節點的度數定義為其鄰居數。此屬性意味著度分布是重尾的,即以比指數分布慢的速率衰減。這可以用“rich gets richer”來部分解釋:高級節點更有可能形成新的鏈接。
(P3)Small effective diameter:有效直徑小
????? 分解的圖通常不完全連接,論文采用的定義,其中有效直徑是最小距離d,使得所有連接對中的大約90%可以通過最長d的路徑到達。此屬性意味著實際數據集中的有效直徑相對較小,并且大多數連接對可以以較小的距離到達。需要注意的是,空模型也具有此特征,并且在這方面比較實際數據集和相應的空模型不會產生一致的結果。
(P4)High clustering coefficient:高聚類系數
????? 利用聚類系數C,定義為所有節點的局部聚類系數的平均值。每個節點v的局部聚類系數Cv定義為:
此屬性意味著實際數據集中的統計量明顯大于相應的空模型中的統計量。由于鄰居結構產生大量三角形,因此此屬性表示網絡中存在許多鄰居結構。
(P5)Skewed singular values:偏斜奇異值
????? 此屬性意味著奇異值分布通常是重尾分布,并且以與模式P2相同的方式進行驗證。
HpyerPA生成器
生成器HyperPA反復向超圖引入新節點,并形成新的超邊緣。添加節點后,HyperPA會創建k個新的超邊緣,其中從預定分布NP中采樣了k個。對于此新節點引入的每個新超邊緣,其大小s是從預定分布S中采樣的。當選擇其他節點填充此新超邊緣時,它將考慮包含s-1個節點的所有組。在所有此類群體中,每個群體被選中的機會與其程度成正比。每個組的程度定義為包含該組的超邊緣的數量。
評測方法
(P1)如果在該級別的分解圖生成的超圖保留一個巨大的連通分量,給出1分。
(P2)生成的度分布與實際分布之間的相似性由Kolmogorov-Smirnov D統計量度,其中F,F'是累積度分布 相應的實圖和生成的分解圖。對D統計量小于0.2的生成器給予1分。
(P3)我們希望生成的有效直徑d'接近實際值d。由于P3為“有效直徑較小”,因此d'不應太大。論文采用驗收范圍為(2d/3,4d/3)的啟發式方法。如果d在接受范圍內,則給出1分。
(P4)論文將接受范圍試探為(2c/3, min(4c/3, 1)),如果c′在接受范圍內,則給出1分。
(P5)與P2相似,真實數據集和生成的數據集的奇異值分布之間的相似性由Kolmogorov-Smirnov D統計量度。對D統計量小于0.2的生成器給予1分。
實驗結果及結論
生成器的結果在表中進行了數字比較。HyperPA,NaivePA和子集采樣這兩個表的總分分別為64、49和57。其中論文提出的模型HyperPA得分最高。如果不考慮子集交互,變量S、NP和n不足以重現pattern,因為即使使用S、NP和n,NaivePA和子集采樣也無法做到。
論文工作的貢獻是三方面的:
多級分解:首先提出多級分解作為研究超圖的有效手段。多級分解有幾個好處:(1)它捕獲超圖內的組交互;(2)其圖形表示為利用現有工具提供了便利;(3)它代表了原始超圖而沒有信息丟失。
實際超圖中的模式(pattern):論文介紹在13個現實世界超圖中持有的一組常見模式。具體來說在不同的分解級別是巨型連通分量、重尾度分布、小有效直徑、高聚類系數和偏斜奇異點的價值分布。
有效仿真的超圖生成器:最后引入HyperPA,這是一種超圖生成器,它很簡單,但是能夠在不同分解級別上再現真實世界超圖的模式。通過保持超圖中節點的子集交互的連通性,HyperPA在重現模式方面表現出比其他基準模型更好的性能。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - KDD2020 | 真实世界超图的结构模式和生成模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ACL2020 | 利用知
- 下一篇: 论文浅尝 | ICLR 2020 - 图