(简单介绍)PageRank算法
文章目錄
- 前言
- 引入
- 形式化
- PageRank
前言
這個(gè)是一個(gè)經(jīng)典算法,還是有必要了解的,這里由于講得不會(huì)很詳細(xì),所以要求你有一點(diǎn)數(shù)學(xué)知識,如果有,看完這篇就大概明白PageRank是個(gè)啥了。本篇不涉及證明之類的,而是主要搞清楚背景以及怎么做。
參考視頻:PageRank算法。
引入
我們可以看到,搜索華東師范大學(xué)之后,其官網(wǎng)網(wǎng)站排在第一,百度百科排在后面,這個(gè)排序結(jié)果是背后人為設(shè)置的還是自動(dòng)生成的呢?當(dāng)然是自動(dòng)生成的,并且這個(gè)算法叫做PageRank算法。
形式化
即一個(gè)網(wǎng)頁重要不重要,一個(gè)是可以觀察是否有很多其他網(wǎng)頁指向它,另外就是指向它的網(wǎng)頁是不是重要的網(wǎng)頁。也就是說,如果有10個(gè)垃圾網(wǎng)頁指向你,還不如一個(gè)重量級“專家”網(wǎng)頁指向你。
一個(gè)例子,假設(shè)頁面A是100權(quán)重,由于兩個(gè)出度,給了頁面C和D各自50的權(quán)重,而頁面B是9個(gè)權(quán)重,由于三個(gè)出度,給了頁面C 3個(gè)權(quán)重。從而頁面C獲得53權(quán)重,頁面D或者50權(quán)重,從而頁面C比頁面D重要。
但是上面存在一個(gè)問題,我們需要先有頁面A和頁面B的權(quán)重,萬一頁面C也指向頁面A,那么就是先雞后蛋的問題了。
上面和我們通常的鄰接矩陣定義有點(diǎn)不一樣,通常是存在i到j(luò)的弧,那么gij=1,上面相反。不過沒事,習(xí)慣就好。這里相當(dāng)于變成了第一列在描述第一個(gè)節(jié)點(diǎn),依此類推。
注意,前面說了,列是描述一個(gè)節(jié)點(diǎn),所以除以出度,是列除以。
PageRank
其中I0應(yīng)該是可以隨意初始化,最終會(huì)趨于穩(wěn)定。你可以理解為,通過很多次迭代之后,穩(wěn)定了下來,先雞后蛋解決了,穩(wěn)定下來的那個(gè)I就是各個(gè)網(wǎng)頁的PageRank值,例如上述是第8個(gè)節(jié)點(diǎn)值最大,那么就意味著第8個(gè)網(wǎng)頁最重要。
總結(jié)
以上是生活随笔為你收集整理的(简单介绍)PageRank算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: css教程 school,CSS 教程
- 下一篇: 战舰V3适配oneos系列01:bsp适