pagerank算法详解
目錄
- 一、pagerank簡(jiǎn)介
- 兩個(gè)重要假設(shè)
- 二、pagerank算法
- 公式定義
- 計(jì)算演示
- 矩陣化計(jì)算
- 三、存在的兩個(gè)問(wèn)題
- 問(wèn)題1.Dead Ends
- 問(wèn)題2.Spider Traps
一、pagerank簡(jiǎn)介
PageRank算法的基本想法是在有向圖上定義一個(gè)隨機(jī)游走模型,即一階馬爾可夫鏈,描述隨機(jī)游走者沿著有向圖隨機(jī)訪問(wèn)各個(gè)結(jié)點(diǎn)的行為。在一定條件下,極限情況訪問(wèn)每個(gè)結(jié)點(diǎn)的概率收斂到平穩(wěn)分布,這時(shí)各個(gè)結(jié)點(diǎn)的平穩(wěn)概率值就是其PageRank值,表示結(jié)點(diǎn)的重要度。PageRank 是遞歸定義的,PageRank 的計(jì)算可以通過(guò)迭代算法進(jìn)行。
入鏈數(shù):指向該節(jié)點(diǎn)的鏈接數(shù)
出鏈數(shù):由該節(jié)點(diǎn)指出的鏈接數(shù)
以上圖為例:A的入鏈數(shù)為1,出鏈數(shù)為3,所以將由A指向其他節(jié)點(diǎn)的邊權(quán)重設(shè)置為1/3,表示A訪問(wèn)B、C、D節(jié)點(diǎn)的概率均為1/3
兩個(gè)重要假設(shè)
- 數(shù)量假設(shè):在Web圖模型中,如果一個(gè)頁(yè)面節(jié)點(diǎn)接收到的其他網(wǎng)頁(yè)指向的入鏈數(shù)量越多,那么這個(gè)頁(yè)面越重要。
- 質(zhì)量假設(shè):指向頁(yè)面A的入鏈質(zhì)量不同,質(zhì)量高的頁(yè)面會(huì)通過(guò)鏈接向其他頁(yè)面?zhèn)鬟f更多的權(quán)重。所以越是質(zhì)量高的頁(yè)面指向頁(yè)面A,則頁(yè)面A越重要。
二、pagerank算法
公式定義
- PR(a)表示當(dāng)前節(jié)點(diǎn)a的PR值
- PR(Ti)表示其他各個(gè)節(jié)點(diǎn)(能夠指向a)的PR值
- L(Ti)表示其他各個(gè)節(jié)點(diǎn)(能夠指向a)的出鏈數(shù)
- i代表當(dāng)前時(shí)刻或迭代次數(shù)
計(jì)算演示
接下來(lái)以下圖為例進(jìn)行計(jì)算演示:
以A為例:
A有兩個(gè)入鏈節(jié)點(diǎn)C(出鏈數(shù)為1,PR=1/4)和D(出鏈數(shù)為2,PR=1/4)由計(jì)算公式得到:i=1時(shí)刻的PR(A) = (1/4)/1 + (1/4)/2 = 3/8
其余節(jié)點(diǎn)計(jì)算方法類似,不作贅述。
矩陣化計(jì)算
該有向圖的鄰接矩陣如下所示:
借助鄰接矩陣(轉(zhuǎn)移矩陣)的表示方式,我們可以簡(jiǎn)化上述計(jì)算,將四個(gè)節(jié)點(diǎn)的PR值轉(zhuǎn)化為V向量,并于轉(zhuǎn)移矩陣相乘,可以得到新一輪的PR值向量
由此可以得到每一步PR值迭代的結(jié)果為:MV, MMV, MMM*V 最終會(huì)收斂為M‘ * V(詳細(xì)數(shù)學(xué)證明,有興趣可以百度查詢)
三、存在的兩個(gè)問(wèn)題
問(wèn)題1.Dead Ends
如上圖所示:B沒(méi)有任何出鏈,這就是Dead Ends,Dead Ends會(huì)導(dǎo)致網(wǎng)站權(quán)重變成0.
最樸素的想法是:對(duì)全是0的列的每一個(gè)元素加上1/n(n為節(jié)點(diǎn)個(gè)數(shù))
對(duì)M進(jìn)行修正
問(wèn)題2.Spider Traps
如上圖所示,A節(jié)點(diǎn)與其它節(jié)點(diǎn)之間沒(méi)有出鏈,這就是Spider Traps,這將導(dǎo)致網(wǎng)站權(quán)重變?yōu)橄褚粋€(gè)節(jié)點(diǎn)偏移(經(jīng)過(guò)多輪迭代后,A的權(quán)重越來(lái)越大,趨近于1)
需要對(duì)M進(jìn)行修正:
如上圖所示仍有β的概率訪問(wèn)出鏈頁(yè)面,但剩下(1 -β)的概率會(huì)隨機(jī)跳轉(zhuǎn)到其他頁(yè)面,防止一直從A跳轉(zhuǎn)到A的情況
總結(jié)
以上是生活随笔為你收集整理的pagerank算法详解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 每当此时的FreeEIM
- 下一篇: 谷歌地图街景图中可查看照片拍摄日期