當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

复杂网络表示的原理，算法和应用

發布時間：2024/9/3 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了复杂网络表示的原理，算法和应用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、引言

圖數據在我們的世界中廣泛存在，如社交網絡，知識圖譜，交通網絡等。以知識圖譜為例，它已經成為很多智能系統的支柱，如搜索引擎，推薦系統等。知識圖譜中的一個核心問題是圖結構（包括結點和邊）的表示，好的知識表示可以幫助知識圖譜更加完善以及知識圖譜上層的應用。圖表示的挑戰主要在于圖數據規模的大幅度增長（如搜索引擎背后的知識圖譜、大規模電商知識圖譜可以達到 TB 甚至 PB 規模）以及圖數據的復雜性（結點和邊的相互作用，結點屬性，圖的高階特征如子圖等）。本文介紹清華大學 AMiner [1] 團隊近幾年在復雜網絡表示方面的工作，以下分為網絡表示的基本原理，算法和應用三方面來介紹。

原文鏈接：點擊這里

二、網絡表示（Network Embedding）的基本原理

一般來講，我們將圖定義為：$G = {V, E, X}$，其中VV是結點的結合，E \subseteq V \times XE?V×X?是圖上邊的集合，X \in \mathbb{R}^{|V|\times d}X∈R∣V∣×d?是每個結點的初始語義特征。網絡表示的目標是為圖中的結點學習潛在的表示?Z \in \mathbb{R}^{|V|\times d_z}Z∈R∣V∣×dz?，并且希望ZZ可以包含圖結構的信息（如結點之間相似度）以及結點的語義特征。

DeepWalk [2] 和 LINE [3] 是網絡表示學習的兩個經典算法。DeepWalk 的主要思路是在圖上進行隨機路徑采樣，將采樣得到的結點序列看做自然語言中的句子。之后，利用語言建模中的經典方法 SkipGram [4] 方法進行優化，SkipGram 的思路是用一個結點去預測同一個序列中周圍的結點。不同的是，LINE 的目標是保持圖中結點之間的“一階”和“二階”相似度。一階相似度是結點和其直接鄰居之間的相似度。二階相似度可以理解為結點和它“兩跳”鄰居的相似度。

基于此，項目組提出基于矩陣分解的知識統一表示學習方法NetMF [5]，從理論上證明已有的多種網絡表示學習方法（DeepWalk、LINE 等）都可以歸一化到矩陣分解理論框架下，提出了網絡表示學習的新思路。NetMF為基于 SkipGram 和負采樣的網絡表示學習方法提供了理論基礎。

表1：DeepWalk, LINE, PTE, node2vec 隱式分解或逼近的矩陣

表1展示了幾個網絡表示代表性方法 DeepWalk, LINE, PTE, node2vec 所隱式分解或逼近的矩陣。這幾個方法均是網絡表示學習前期的代表性方法。具體來說，NetMF證明了（1）當DeepWalk隨機游走的步長足夠長時，它實質上概率收斂到網絡的拉普拉斯矩陣的低秩表示；（2）LINE理論上可以被看做是DeepWalk的特殊情形，它假設隨機游走的窗口大小為1；（3）PTE [16]是LINE的擴展，它聯合分解了多個網絡的拉普拉斯矩陣；（4）node2vec [17]是在分解一個關于網絡上二階隨機游走的平穩分布和轉移概率矩陣。

同時，NetMF 還提升了網絡表示的精度，DeepWalk, LINE 等使用10%訓練數據獲得分類的 F1-Score 是12-29%，NetMF 在相同數據集上的 F1-Score 是 18-38%。截止目前（2020年5月），NetMF 是數據挖掘頂級會議WSDM 2018上被引用次數最多的論文。

為了進一步提升 NetMF 算法的可擴展性，項目組提出 NetSMF [6] 算法，將網絡表示學習看做稀疏矩陣分解問題。NetSMF 的網絡表示精度和 NetMF 相當，并且能夠對大規模網絡進行表示。在比較的算法中，只有 NetSMF 和 LINE 能夠在一天之內得到億級網絡的結點表示。

此外，項目組從理論上挖掘了“負采樣”技術在網絡表示學習的作用，并提出一個統一的負采樣技術 MCNS 來優化各種網絡表示學習算法 [20]。負采樣技術的目的是在網絡上尋找與結點?vv?不相似的點u'u′。眾多網絡表示學習算法如 DeepWalk 和 LINE 均采用了負采樣技術，很多負采樣方法沿用了語言模型 Word2Vec 中的負采樣方法，使得負采樣分布和結點度數的3/4次成正比。然而，大部分研究關注于如何進行正采樣（尋找與結點vv相似的點uu），如用隨機游走，二階相似度，社區結構來尋找相似的結點，很少有研究系統性得研究負采樣技術對網絡表示學習的影響。項目組發現，對于優化目標函數和減小方差，負采樣在理論上和正采樣同樣重要。并且，負采樣的分布應該和正采樣的分布正相關且呈次線性關系?；诖死碚?#xff0c;MCNS用自對比（self-constrastive）估計來逼近正采樣分布，并且利用Metropolis-Hastings算法加速計算。

項目組將提出的MCNS算法與不同應用場景中的負采樣方法進行比較，包括信息檢索、推薦系統、知識圖譜補全等8個負采樣方法，并且在3個代表性的下游任務，3種代表性網絡表示學習算法，5個不同類型數據集上總計19種實驗設計下進行了實驗，MCNS 可以穩定得到更好的表示用于下游任務。

三、網絡表示的算法

下面，我們介紹項目組提出的其他網絡表示學習算法，他們分別側重于網絡表示學習的不同方面。

（一）大規模網絡上的快速結點表示 ProNE [7]。ProNE 借鑒了網絡表示學習可以建模為矩陣分解的思路。傳統的矩陣分解復雜度是?O(n^3)O(n3)，這里n是網絡中結點的數量，這對于大規模矩陣分解通常是不可行的。ProNE通過負采樣方法構造一個稀疏矩陣進行分解，由此避免了直接分解鄰接矩陣的平凡解。具體地，ProNE 巧妙得將稀疏矩陣構造為?l=-\sum_{(i,j)\in D} [p_{ij} \ln\sigma(r_i^Tc_j) + \lambda P_{D,j} \ln (-r_i^Tc_j)]l=?∑(i,j)∈D?[pij?lnσ(riT?cj?)+λPD,j?ln(?riT?cj?)]，其中?P_{D,j}PD,j??是上下文結點v_jvj?相關的負例，r_i^Tc_jriT?cj?用向量內積來刻畫結點之間的相似度。此優化框架下的稀疏矩陣分解的復雜度可達到?O(|E|)O(∣E∣)，即網絡中邊的數量級。

稀疏矩陣分解后得到的結點表示只捕捉了網絡中的局部信息。除此之外，ProNE 利用高階 Cheeger 不等式，對圖的譜空間進行調制，讓初始分解得到的結點表示在調制后的譜空間內進行傳播。從高階 Cheeger 不等式中可以推斷，小的拉普拉斯矩陣的特征值控制著圖被劃分成幾個大的子圖的劃分效果；大的特征值控制著圖被劃分為許多個小的子圖的劃分效果，可以理解為局域的聚類效果或平滑效果。因此，ProNE 希望通過控制譜空間的大特征值和小特征值來控制圖的高階全局以及局域的劃分聚類效果。首先，將網絡的拉普拉斯矩陣進行調制?\tilde{L} = U diag([g(\lambda_1),...,g(\lambda_n)]U^T)L~=Udiag([g(λ1?),...,g(λn?)]UT)，這里可以根據圖的特點采用帶通或低通濾波等。之后在新圖上傳播結點表示，從而將全局的聚類信息或者局域的平滑嵌入到圖表示，提高圖表示的表達能力，具體的操作為?R_d = D^{-1}A(E_n - \tilde{L})R_dRd?=D?1A(En??L~)Rd?，其中，D^{-1}AD?1A是歸一化的鄰接矩陣，E_nEn?是單位矩陣，R_dRd?是結點表示矩陣。

ProNE 能夠快速計算大規模網絡中的結點表示，對于億級網絡結點表示，單線程的ProNE 比20線程的 LINE 更快（LINE是比較方法中最快的算法）。此外，ProNE 在調制譜空間中傳播結點表示的方法也能夠顯著提升其他網絡表示學習算法的精度，如DeepWalk, LINE, Node2vec [8] ，提升的相對幅度在10%以上。

圖1：ProNE 譜傳播方法可以顯著提升多種網絡表示學習算法

（二）富屬性多重邊的異構網絡表示學習 GATNE [9] 。很多網絡表示學習方法關注于單類型的結點和單類型的邊，GATNE 考慮了更復雜場景下的網絡表示學習?，F實中的網絡結點和邊可能有多種類型，每個結點可能有豐富的屬性。比如，在電商知識圖譜中，結點有用戶、物品等不同類型，邊有“點擊”、“購買”等不同類型，商品有價格，描述，品牌等屬性。GATNE 設計了一個統一的網絡表示框架，能夠同時建模了結點的基本表示（Base Embedding）, 結點的屬性表示，邊的表示。結點ii關于邊類型rr表示的計算方式為?v_(i,r)=b_i+α_r M_r^T U_i a_(i,r)v(?i,r)=bi?+αr?MrT?Ui?a(?i,r)，其中，b_ibi?是結點的基本表示（與其邊的類型rr無關），α_rαr?是超參數，U_iUi?是結點ii相關的邊的表示，a_(i,r)a(?i,r)代表了注意力（attention）系數，M_rMr?是訓練參數。

表2：（來自論文 [9]）GATNE與不同類型網絡表示學習算法的比較

GATNE 能夠支持對知識圖譜中的新結點進行表示學習（inductive settings）。此時，新結點的屬性特征用于生成其表示?v_{i,r} = h_z(x_i)+\alpha_r M_r^T U_ia_{i,r} + \beta D_z^T x_ivi,r?=hz?(xi?)+αr?MrT?Ui?ai,r?+βDzT?xi?，這里，zz表示結點的類型，h_zhz?是一種特征轉換函數，D_zDz?是訓練參數。GATNE 的訓練方式是基于元路徑的隨機游走和異構 SkipGram，例如，采樣的路徑會根據預先設計的元路徑（如：用戶-商品-用戶）。隨機路徑采樣生成的正例，以及在異構網絡中負采樣得到的負例相結合，來最小化負對數似然。

GATNE在多個復雜網絡數據（如亞馬遜、Youtube，阿里巴巴數據）上進行驗證，對生成的結點表示進行鏈接預測，比已有方法如metapath2vec [18]，MNE [19] 等F1值提升6%~28%。此外，GATNE很容易并行化，能夠生成億級復雜網絡的結點表示。GATNE已經被應用于阿里巴巴的推薦場景，并且被阿里巴巴圖神經網絡計算平臺 AliGraph和百度的Paddle Graph Learning (PGL) 平臺實現。

（三）可遷移的圖結構表示預訓練方法 GCC [21]。通常的網絡表示學習算法是在一個圖上進行學習表示，然后用于與該圖相關的任務，如結點分類，鏈接預測等。這樣的話，在一個圖上學習到的知識難以遷移到別的圖上進行表示學習。受自然語言處理和計算機視覺領域的自監督預訓練范式啟發，項目組提出一個無監督的網絡表示學習框架，它可以學習不同網絡結構中存在的普遍的網絡拓撲結構規律，如無標度（scale-free），“小世界”（small world）等規律。GCC 將預訓練任務定義為子圖級別的實例判別（subgraph-level instance discrimination），然后利用對比學習（contrastive learning）的框架進行學習。具體來說，GCC 中進行對比學習的實例單位是“子圖”，結點v的子圖是通過在v的ego network中采樣結點生成誘導子圖，同一個結點出發采樣多個的子圖對是正例，相同圖上的不同結點或者不同圖上的結點采樣得到的子圖對是負例（如圖2）。GCC 可以使用任何圖編碼器（如GIN）編碼得到表示，對于訓練方法，GCC 嘗試了端對端訓練和動量更新兩種方式。

圖2：GCC的訓練框架，最左是不同結點（紅&藍）的ego network，通過不同結點采樣出的子圖進行對比學習。

項目組將GCC用于3種圖挖掘任務（結點分類、圖分類、相似結點搜索）和10種圖數據（包括學術合作網絡、社交網絡、交通網絡等）上，實驗結果顯示在多種圖上預訓練的GCC模型和在單一圖數據上訓練得到的表示相比，能達到相當甚至更優的效果。

此外，項目組還提出了動態網絡表示學習算法 [10, 11] 以及基于對抗學習的魯棒網絡表示學習算法 [12, 13]等。

四、網絡表示的應用

項目組已經將不同的網絡學習表示算法部署到多種應用中。包括：

學術數據語義集成。項目組利用網絡表示學習算法進行知識圖譜構建，多源數據集成 [14]，同名作者消歧等 [15]，支撐了以知識和圖神經網絡計算為中心的科技情報挖掘系統AMiner，建立了超過2.7 億論文、1.3億學者、1.2 億專利的科技知識圖譜，形成了智慧人才情報、學術搜索與知識圖譜等系列產品，服務全球220 個國家和地區1000 余萬用戶。此外，知識圖譜構建技術用于搜狗學術搜索，日均服務搜索超過3億次。項目組還開源了世界最大的開放學術圖譜Open Academic Graph (OAG)。

圖神經網絡計算平臺 AliGraph。項目組的算法成功應用在阿里巴巴圖神經網絡計算平臺AliGraph，月活躍用戶超過5億，支持百億節點與萬億邊的異構圖數據訓練，獲世界人工智能大會先鋒獎。

此外，項目組系列產品為科研主管部門如科技部、國家自然基金委等提供學術評價、智能指派/推薦等知識服務；為企事業單位華為、騰訊等提供人才發現、專家推薦等智能服務，助力企業產品升級，推動企業科技創新。

參考文獻

[1] Tang, Jie, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. "Arnetminer: extraction and mining of academic social networks." In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 990-998. 2008.
[2] Perozzi, Bryan, Rami Al-Rfou, and Steven Skiena. "Deepwalk: Online learning of social representations." In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 701-710. 2014.
[3] Tang, Jian, Meng Qu, Mingzhe Wang, Ming Zhang, Jun Yan, and Qiaozhu Mei. "Line: Large-scale information network embedding." In Proceedings of the 24th international conference on world wide web, pp. 1067-1077. 2015.
[4] Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).
[5] Qiu, Jiezhong, Yuxiao Dong, Hao Ma, Jian Li, Kuansan Wang, and Jie Tang. "Network embedding as matrix factorization: Unifying deepwalk, line, pte, and node2vec." In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining, pp. 459-467. 2018.
[6] Qiu, Jiezhong, Yuxiao Dong, Hao Ma, Jian Li, Chi Wang, Kuansan Wang, and Jie Tang. "Netsmf: Large-scale network embedding as sparse matrix factorization." In The World Wide Web Conference, pp. 1509-1520. 2019.
[7] Zhang, Jie, Yuxiao Dong, Yan Wang, Jie Tang, and Ming Ding. "ProNE: fast and scalable network representation learning." In Proc. 28th Int. Joint Conf. Artif. Intell., IJCAI, pp. 4278-4284. 2019.
[8] Grover, Aditya, and Jure Leskovec. "node2vec: Scalable feature learning for networks." In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 855-864. 2016.
[9] Cen, Yukuo, Xu Zou, Jianwei Zhang, Hongxia Yang, Jingren Zhou, and Jie Tang. "Representation learning for attributed multiplex heterogeneous network." In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 1358-1368. 2019.
[10] Han, Yu, Jie Tang, and Qian Chen. "Network embedding under partial monitoring for evolving networks." In Proceedings of the 28th International Joint Conference on Artificial Intelligence, pp. 2463-2469. AAAI Press, 2019.
[11] Zhao, Yifeng, Xiangwei Wang, Hongxia Yang, Le Song, and Jie Tang. "Large scale evolving graphs with burst detection." In 28th International Joint Conference on Artificial Intelligence (IJCAI). 2019.
[12] Ding, Ming, Jie Tang, and Jie Zhang. "Semi-supervised learning on graphs with generative adversarial nets." In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, pp. 913-922. 2018.
[13] Feng, Fuli, Xiangnan He, Jie Tang, and Tat-Seng Chua. "Graph adversarial training: Dynamically regularizing based on graph structure." IEEE Transactions on Knowledge and Data Engineering (2019).
[14] Zhang, Fanjin, Xiao Liu, Jie Tang, Yuxiao Dong, Peiran Yao, Jie Zhang, Xiaotao Gu et al. "Oag: Toward linking large-scale heterogeneous entity graphs." In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 2585-2595. 2019.
[15] Zhang, Yutao, Fanjin Zhang, Peiran Yao, and Jie Tang. "Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop." In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 1002-1011. 2018.
[16] Tang, Jian, Meng Qu, and Qiaozhu Mei. "Pte: Predictive text embedding through large-scale heterogeneous text networks." In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 1165-1174. 2015.
[17] Grover, Aditya, and Jure Leskovec. "node2vec: Scalable feature learning for networks." In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 855-864. 2016.
[18] Dong, Yuxiao, Nitesh V. Chawla, and Ananthram Swami. "metapath2vec: Scalable representation learning for heterogeneous networks." In Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, pp. 135-144. 2017.
[19] Zhang, Hongming, Liwei Qiu, Lingling Yi, and Yangqiu Song. "Scalable Multiplex Network Embedding." In IJCAI, vol. 18, pp. 3082-3088. 2018.
[20] Yang, Zhen, Ming Ding, Chang Zhou, Hongxia Yang, Jingren Zhou, and Jie Tang. Understanding Negative Sampling in Graph Representation Learning. In Proceedings of the Twenty-Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'20).
[21] Qiu, Jiezhong, Qibin Chen, Yuxiao Dong, Jing Zhang, Hongxia Yang, Ming Ding, Kuansan Wang, and Jie Tang. Graph Contrastive Coding for Structural Graph Representation Pre-Training. In Proceedings of the Twenty-Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'20).

總結

以上是生活随笔為你收集整理的复杂网络表示的原理，算法和应用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：写那么多年Java，还不知道啥是Java
下一篇：赛题解析 | 初赛赛道一：实现一个分布式

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片