PR值:PagePank算法
一、基本算法
1、基本步驟
PagePank算法的基本思想是:WWW上一個頁面的重要性取決于指向它的其它頁面的數量和質量。針對一般的有向網絡,基本的PagePank算法可敘述如下:
(1)初始步:給定所有節點的初始PagePank
值PRi_ii?(0),i=1,2,,,N,滿足∑1N\sum_1^N∑1N?PRi_ii?(0)=1。
(2)基本的PagePank校正規則:把每個節點在第k-1步時的PR值平分給它所指向的節點。也就是說,如果節點i的出度為kiout_i^{out}iout?,那么節點i所指向的每一個節點分得的PR值為PRi_ii?(k-1)/kiout_i^{out}iout?。如果一個節點的出度為0,那么它就始終把PR值只給自己。每個節點的新的PR值校正為它所分得的PR值之和,即有
注意在上述算法中,所有節點的PR值之和總是不變的,因此,無需向HITS算法一樣每一步都做歸一化處理。
上式表明,一個節點的重要性是指向它的節點的重要性的加權組合。
在有向網絡的鄰接矩陣A=(aij_{ij}ij?)N×N_{N\times N}N×N?基礎上定義基本Google矩陣Aˉ\bar{A}Aˉ=(aˉij\bar{a}_{ij}aˉij?)N×N_{N\times N}N×N?如下:
那么,基本的PagePank校正規則可以寫為如下的校正形式:
上式就是求解矩陣Aˉ\bar{A}Aˉ的與模最大的特征值對應的主特征向量的冪法,并且有:
上圖所示的網絡對應的基本Google矩陣Aˉ\bar{A}Aˉ為:
假設每個節點初始的PR值均為1/8,當迭代步數增加時每個節點的PR值會趨于上上圖中每個節點旁邊的分數所示的穩態PR值。
2、算法缺陷
我們從復雜網絡上的隨機行走的觀點來解釋基本的PagePank算法,從而發現它存在的問題:首先,完全隨機的選擇一個初始節點;然后,每次都是從當前節點出發,在從該節點指出去的邊中隨機選擇一條邊并沿著這條邊到達另一個節點。可以證明,隨機行走k步后位于節點i的概率就等于應用基本PagePank算法k步后所得到的節點i的PR值。
上述行走規則的缺陷在于:一旦到達某個出度為0的節點,就會永遠停留在該節點而無法在走出來。出度為0的節點也稱為懸掛節點,這些節點的存在會使得基本的PagePank算法失效。
更為一般的,如果網絡中存在一些沒有指出邊的子圖,那么這些子圖中的節點有可能”吸盡“網絡中所有的PR值。
3、缺陷處理
對于懸掛節點的處理有一種簡單的辦法:假設一旦到達一個出度為0的頁面,那么就以相同概率1/N隨機訪問網絡中的任一頁面。從數學上看,這相當于把基本Google矩陣Aˉ\bar{A}Aˉ中的全零行替換為每個元素均為1/N的行。我們稱這種修正為隨機性修正,因為修正后的Google矩陣是每一行的元素之和都為1的行隨機矩陣,其元素為:
二、PagePank算法
1、PagePank算法收斂性問題
上述針對懸掛節點的隨機性修正并沒有完全解決基本的PagePank算法收斂性問題。事實上,即使網絡上沒有出度為0的懸掛節點,甚至即使網絡是強連通的,基本的PagePank算法也仍然有可能失效。
例如上圖中由5個節點組成的環狀網絡,對應的基本Google矩陣滿足:
從上表可以看出,如果初始PR的值取為PR(0)=[1,0,0,0,0]T^TT,那么經過5次迭代后PR值又回到了初值,也就是說,算法將不停的循環而無法收斂。
2、收斂性問題的解決
解決基本的PagePank算法收斂性的有效辦法是:從當前頁面出發,不管該頁面是否為懸掛頁面,都允許以一定概率隨機選取網絡中的任一頁面作為下一步要瀏覽的頁面。
針對一般的有向網絡,相應有如下的修正的隨機行走規則:
完全隨機地選擇一個初始節點。如果當前所在節點的出度大于零,那么以概率s(0<s<1)在指出去的邊中隨機選擇一條邊并沿著該邊到達下一個節點,以概率1-s在整個網絡上完全隨機選擇一個節點作為下一步要到達的節點。如果當前所在節點的出度等于零,那么完全隨機選擇一個節點作為下一步要到達的節點。
3、修正后的PagePank算法
基于上述修正的隨機行走思想,修正的PagePank算法如下:
(1)(1)初始步:給定所有節點的初始PagePank
值PRi_ii?(0),i=1,2,,,N,滿足∑1N\sum_1^N∑1N?PRi_ii?(0)=1。
(2)修正的PagePank校正規則:給定一個標度常數s∈\in∈(0,1)。首先按照基本的PagePank校正規則計算各個節點的PR值,然后把每個節點的PR值通過比列因子s進行縮減。這樣,所有節點的PR值之和也就縮減為s,再把1-s平均分給每個節點PR值,以保持網絡總的PR值為1,即有
可以證明:基于修正的隨機行走規則行走k步后位于節點i的概率就等于應用PagePank校正規則k步后所得的節點i的PR值。
PagePank校正規則的矩陣形式如下:
其中,
注意到不管網絡連通性如何,Aˉ\bar{A}Aˉ是一個非負矩陣,從而A~\tilde{A}A~是一個正矩陣。根據矩陣論理中的Perron-Frobenius定理,我們有如下結論:
(1)矩陣A~\tilde{A}A~的模最大的特征值為實特征值λi\lambda_iλi?>0,且有λi\lambda_iλi?>|λi\lambda_iλi?|,i=2,3,,N。
(2)與特征值λi\lambda_iλi?對應的單位特征向量PR?^*?(||PR?^*?||1_11?=1)的元素全為正。
(3)如果矩陣Aˉ\bar{A}Aˉ是行隨機矩陣,那么A~\tilde{A}A~也是行隨機矩陣。在此情形,λ1\lambda_1λ1?=1,對于任意的非零和非負的單位初始向量,PagePank校正規則計算得到的PR(k)當k->∞\infty∞時收斂得到PR?^*?。
三、排序魯棒性及網絡結構
通過分析網絡結構對PagePank算法計算得到的PR值得影響,發現均勻得隨機網絡中節點的PR值的影響,發現均勻的隨機網絡中節點的PR值排序對網絡擾動較為敏感,而非均勻的無標度網絡中會涌現個別超穩定的PR值最大的節點,它們在按照PR值排序中的位置對于網絡擾動具有很高的魯棒性。這項研究考慮的是在保持每個節點的度值不變的情況下。
總結
以上是生活随笔為你收集整理的PR值:PagePank算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 集合及其运算
- 下一篇: 节点相似性与链路预测