节点相似性与链路预测
一、問題描述與評價標準
刻畫節點的相似性有很多種方法,最簡單直接的就是利用節點的屬性。近年來,基于網絡結構信息的節點相似性刻畫得到了越來越多的重視。
節點相似性分析的一個典型應用就是鏈路預測,它是指如何通過已知的各種信息預測給定網絡中尚不存在連邊的兩個節點之間產生連接的可能性。這種預測包含了對未知連接,也稱丟失連接的預測,也包含了對未來連接的預測?;诠濣c相似性進行鏈路預測的基本假設就是如果兩個節點之間的相似性越大,它們之間存在連接的可能性就越大。鏈路預測還可以用于預測演化網絡中未來可能出現的連接。
給定一個具有N個節點和M條邊的無向網絡G(V,E)。鏈路預測的基本思想是為網絡中每一對沒有連邊的節點對(x,y)賦予一個分數Sxy_{xy}xy?,然后將所有未連接的節點對按照該值從大到小排序,排在最前面的節點對出現連邊的概率最大。
為了測試鏈路預測算法的準確性,通常將網絡中已知的連邊集E分為訓練集ET^TT和測試集EP^PP兩部分:
在計算時只使用測試集的信息,并把不屬于現有邊集E的任意一對節點之間的可能連邊稱為不存在的邊。衡量鏈路預測算法精準度的兩種常用指標為AUC和Precision。
(1)AUC:AUC是從整體上衡量算法的精準度。它可以理解為,測試集中的邊的分數值比隨機選擇的一個不存在的邊的分數值高的概率。也就是說,每次隨機從測試集中選取一條邊與隨機選擇的不存在的邊進行比較:如果測試集中的邊的分數值大于不存在的邊的分數值,那么就加1分,如果兩個分數值相等就加0.5分。這樣獨立比較n次,如果有n′^{'}′次測試集中的邊的分數值大于不存在的邊的分數值,有n′′^{''}′′次兩個分數值相等,那么AUC定義為
顯然,如果所有分數都是隨機產生的,那么AUC=0.5。因此AUC大于0.5的程度衡量了算法在多大程度上比隨機選擇的方法精確。
(2)Precision只考慮排在前L位的邊是否預測準確,即前L個預測邊中預測準確的比例。如果排在前L位的邊中有m個在測試集中,那么Precision定義為:
顯然,Precision越大預測越準確。如果兩個算法AUC相同,而算法1的Precision大于算法2,那么說明算法1更好,因為它傾向于把真正連邊的節點對排在前面。
二、基于局部信息的節點相似性指標
兩個節點的共同鄰居的數量越多,這兩個節點就越相似,從而更傾向于相互連接。最簡單的基于共同鄰居的節點相似性指標定義如下:
其中,Γ\GammaΓ(x)為節點x的鄰居節點的集合。
在相似性指標的基礎上,還可以考慮兩個節點的共同鄰居的相對數量。
上圖列出了10種基于節點局部信息的相似性指標。其中第2到7種相似性指標是直接基于共同鄰居指標的不同的規范化而得到的,表中的k(x)=|Γ\GammaΓ(x)|為節點x的度。第8種指標PA是基于BA無標度網絡模型中新加入節點傾向于和度大的節點相連的有限連接機制而提出的。第9種指標AA的基本思想是度小的共同鄰居節點的貢獻大于度大的共同鄰居節點,因此根據共同鄰居節點的度為每個節點賦予一個權重值。第10種指標RA是從網絡資源分配的角度提出的。RA和AA指標最大的區別就是在于賦予共同鄰居節點的權重分別是以1/k,1/logk的形式遞減的。
三、基于全局信息的節點相似性指標
基于全局信息的節點相似性指標有以下3種:
(1)局部路徑指標。它在共同鄰居指標的基礎上考慮了三階鄰居的貢獻,定義如下:
其中α\alphaα為可調節參數,A為網絡的鄰接矩陣,(An^nn)xy_{xy}xy?給出了節點x和y之間長度為n的路徑數。當α\alphaα=0時,LP指標就等于共同鄰居指標。
(2)Katz指標。它考慮的是所有路徑數,且對越短的路徑賦予越大的權重,定義為:
其中β\betaβ為權重衰減因子。對應的相似性矩陣如下:
為了保證數列的收斂性,β\betaβ的取值必須小于鄰接矩陣A最大特征值的倒數。
(3)LHN-II指標。它和Katz指標類似,也是考慮所有的路徑,其基本想法是如果兩個節點的鄰居節點之間是相似的,那么這兩個節點之間也是相似的。注意到(Al^ll)xy_{xy}xy?的期望值為:
其中λ1\lambda_1λ1?為矩陣A的最大特征值。LHN-II和Katz指標的主要區別是把Katz指標中的(An^nn)xy_{xy}xy?變為(An^nn)xy_{xy}xy?/E[(An^nn)xy_{xy}xy?]。
LHN-II指標的表達式如下:
其中δxy\delta_{xy}δxy?為Kroneckerδ\deltaδ函數,Φ\PhiΦ為取值小于1的參數。上式最后一個等式的第一項是可以去掉的對角陣,從而相似性矩陣可以寫為:
其中D為度值矩陣,Dxy_{xy}xy?=δxy\delta_{xy}δxy?kx_xx?。
四、基于隨機游走的相似性指標
基于隨機游走的相似性指標有以下6種:
(1)平均通勤時間:設m(x,y)為一個隨機粒子從節點x到節點y平均需要走的步數,那么節點x和y的平均通勤時間定義為:
其數值解可通過求該網絡拉普拉斯矩陣L的偽逆L+^++獲得,即
其中lxy+_{xy}^+xy+?表示矩陣L+^++中相應位置的元素。如果兩個節點的平均通勤時間越小,那么兩個節點越接近。由此,定義基于ACT的相似性為:
(2)基于隨機游走的余弦相似性(Cos+ )。在由向量νx\nu_xνx?=Λ1/2\Lambda^{1/2}Λ1/2UT^TTe展開的歐式空間內,L+^++中的元素lxy+_{xy}^+xy+?可表示為兩向量νx\nu_xνx?和νy\nu_yνy?的內積,即lxy+_{xy}^+xy+?=νxTνy\nu_x^T\nu_yνxT?νy?,其中U是一個標準正交矩陣,由L+^++特征向量按照對應的特征根從大到小排列,Λ\LambdaΛ為以特征根為對角元素的對角矩陣,ex_xx?表示一個一維向量且只有第x個元素為1,其他都為0。由此定義余弦相似性如下:
(3)重啟的隨機游走(RWR)。這個指標可以看成是PageRank算法的拓展應用。它假設隨機游走粒子在每走一步的時候都以一定概率返回初始位置。設粒子返回概率為1-c,P為網絡的馬爾可夫概率轉移矩陣,其元素Pxy_{xy}xy?=axy_{xy}xy?/kx_xx?表示節點x處的粒子下一步走到節點y的概率。某一粒子初始時刻在節點x處,那么t +1時刻該粒子到達網絡各個節點的概率向量為:
其中ex_xx?表示初始狀態。上式的穩定解為:
其中元素qxy_{xy}xy?為從節點x出發的粒子最終有多少概率走到節點y。由此定義RWR相似性如下:
(4)SimRank指標。它的基本假設是,如果兩節點所連接的節點相似,那么這兩個節點就相似。其定義如下:
其中假定sxx_{xx}xx?=1,C∈\in∈[0,1]為相似性傳遞時的衰減參數。SimR可以用來描述兩個分別從節點x和y出發的粒子多久會相遇。
(5)局部隨機游走指標(LRW)。 該指標與上述4種基于隨機游走的相似性不同,它只考慮有限步數的隨機游走過程。一個粒子t時刻從節點x出發,定義πxy_{xy}xy?(t)為t+1時刻這個粒子正好走到節點y的概率,那么可得到系統演化方程
其中πx_xx?(0)為一個Nx1的向量,只有第x個元素為1,其他為0,即πx_xx?(0)=ex_xx?。設定各個節點的初始資源分布為qx_xx?,那么基于t步隨機游走的相似性為
(6)疊加的局部隨機游定指標(SRW)。這個指標的想法就是與目標節點更近的節點更有可能與目標節點相連。在LRW的基礎上將t步及其以前的結果求和便得到SRW值。即
總結
以上是生活随笔為你收集整理的节点相似性与链路预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PR值:PagePank算法
- 下一篇: 随机网络模型