大话主题敏感PageRank
?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 本文節(jié)選自《這就是搜索引擎:核心技術(shù)詳解》第六章
??????? 主題敏感PageRank是PageRank算法的改進(jìn)版本,該算法已被Google使用在個(gè)性化搜索服務(wù)中。
6.6.1?主題敏感PageRank與PageRank的差異
????? PageRank算法基本遵循前面章節(jié)提到的“隨機(jī)游走模型”,即用戶在瀏覽某個(gè)網(wǎng)頁時(shí),如果希望跳轉(zhuǎn)到其它頁面,則隨機(jī)選擇本網(wǎng)頁包含的某個(gè)鏈接,進(jìn)入另外一個(gè)頁面。主題敏感PageRank則對(duì)該概念模型做出改進(jìn),引入了更符合現(xiàn)實(shí)的假設(shè)。一般來說用戶會(huì)對(duì)某些領(lǐng)域感興趣,同時(shí),當(dāng)瀏覽某個(gè)頁面時(shí),這個(gè)頁面也是與某個(gè)主題相關(guān)的(比如體育報(bào)道或者娛樂新聞),所以,當(dāng)用戶看完當(dāng)前頁面,希望跳轉(zhuǎn)時(shí),更傾向于點(diǎn)擊和當(dāng)前頁面主題類似的鏈接,即主題敏感PageRank是將用戶興趣、頁面主題以及鏈接所指向網(wǎng)頁與當(dāng)前網(wǎng)頁主題的相似程度綜合考慮而建立的模型。很明顯,這更符合真實(shí)用戶的瀏覽過程。
?????PageRank是全局性的網(wǎng)頁重要性衡量標(biāo)準(zhǔn),每個(gè)網(wǎng)頁會(huì)根據(jù)鏈接情況,被賦予一個(gè)唯一的PageRank分值。主題敏感PageRank在此點(diǎn)有所不同,該算法引入16種主題類型,對(duì)于某個(gè)網(wǎng)頁來說,對(duì)應(yīng)某個(gè)主題類型都有相應(yīng)的PageRank分值,即每個(gè)網(wǎng)頁會(huì)被賦予16個(gè)主題相關(guān)PageRank分值。
???? 在接受到用戶查詢后,兩個(gè)算法在處理方式上也有較大差異。PageRank算法與查詢無關(guān),只能作為相似度計(jì)算的一個(gè)計(jì)算因子體現(xiàn)作用,無法獨(dú)立使用。而主題敏感PageRank是查詢相關(guān)的,可單獨(dú)作為相似度計(jì)算公式使用。而且,在接收到用戶查詢后,主題敏感PageRank還需要利用分類器,計(jì)算該查詢隸屬于事先定義好的16個(gè)主題的隸屬度,并在相似度計(jì)算時(shí)的排序公式中利用此信息。
6.6.2?主題敏感PageRank計(jì)算流程
? ??? 主題敏感PageRank計(jì)算主要由兩個(gè)步驟構(gòu)成,第一步是離線的分類主題PageRank數(shù)值計(jì)算;第二步是在線利用算好的主題PageRank分值,來評(píng)估網(wǎng)頁和用戶查詢的相似度,以按照相似度排序提供給用戶搜索結(jié)果。下面以具體示例來了解主題敏感PageRank的計(jì)算流程。
????分類主題PageRank計(jì)算
????主題敏感PageRank參考ODP網(wǎng)站(www.dmoz.org),定義了16個(gè)大的主題類別,包括體育、商業(yè)、科技等。ODP(Open?Directory?Project)是人工整理的多層級(jí)網(wǎng)頁分類導(dǎo)航站點(diǎn)(參見圖6-19),在頂級(jí)的16個(gè)大分類下還有更細(xì)致的小
??????????????????
?????
??????????????????????????????????????????????????????????????????? 圖6-19??ODP首頁
粒度分類結(jié)構(gòu),在最底層目錄下,人工收集了符合該目錄主題的精選高質(zhì)量網(wǎng)頁地址,以供互聯(lián)網(wǎng)用戶導(dǎo)航尋址。主題敏感PageRank采用了ODP最高級(jí)別的16個(gè)分類類別作為事先定義的主題類型。?
?????主題敏感PageRank對(duì)16個(gè)類別的主題,依次計(jì)算該類別的PageRank分值,圖6-20圖示了其計(jì)算流程和基本思路,為了簡(jiǎn)化說明,示意圖只表現(xiàn)出了三個(gè)分類類別。在計(jì)算某個(gè)類別的PageRank分值時(shí),將所有網(wǎng)頁劃分為兩個(gè)集合,一個(gè)集合是ODP對(duì)應(yīng)分類主題下所包括的所有網(wǎng)頁,即人工精選的高質(zhì)量網(wǎng)頁,可以稱之為集合S,剩下的網(wǎng)頁放入另外一個(gè)集合內(nèi),可稱之為集合T。在計(jì)算PageRank時(shí),由于集合S內(nèi)的網(wǎng)頁能夠很好地表征分類主題,所以賦予較大的跳轉(zhuǎn)概率值。通過這種設(shè)定,集合S內(nèi)的網(wǎng)頁根據(jù)鏈接關(guān)系向集合T中網(wǎng)頁傳遞權(quán)值,因?yàn)橹苯佑墟溄又赶虻耐黝}類似,這樣就將與該分類主題內(nèi)容相似的網(wǎng)頁賦予較高的PageRank值,而無關(guān)的網(wǎng)頁則賦予較低權(quán)重的PageRank分值,以此方式達(dá)到對(duì)網(wǎng)頁所包含主題的判斷。
???????????????????????????????????????????
?????????????????????????????????????????? 圖6-20?網(wǎng)頁的分類主題PageRank計(jì)算
??????? 回到圖6-20,假設(shè)有個(gè)編號(hào)為1號(hào)的網(wǎng)頁,其被列為ODP目錄中的藝術(shù)類別中,在對(duì)藝術(shù)類別進(jìn)行PageRank計(jì)算時(shí),1號(hào)網(wǎng)頁在集合S內(nèi),計(jì)算結(jié)束后,該網(wǎng)頁獲得的PageRank分值為0.5。當(dāng)計(jì)算體育和商業(yè)類別的主題PageRank分值時(shí),1號(hào)網(wǎng)頁在集合T中,獲得了相應(yīng)的集合S中網(wǎng)頁傳遞的權(quán)值,分別為0.02和0.01。在所有類別計(jì)算結(jié)束后,1號(hào)網(wǎng)頁獲得了3個(gè)不同主題對(duì)應(yīng)的PageRank分值,組成一個(gè)主題PageRank向量。通過類似的方式,互聯(lián)網(wǎng)內(nèi)任意網(wǎng)頁也可以獲得相應(yīng)的主題相關(guān)PageRank向量。通過以上過程可以看出,主題相關(guān)的PageRank分值向量其實(shí)代表了某個(gè)網(wǎng)頁所講述內(nèi)容所屬類別的概率。
???????注意:在上述計(jì)算主題PageRank過程中,從集合S和集合T的劃分,及其權(quán)值傳播方式中可以看出,該步驟計(jì)算過程也符合“子集傳播模型”。但是由于本算法主框架及其出發(fā)點(diǎn)都是為了改進(jìn)PageRank,所以將其歸入“隨機(jī)游走模型”的衍生算法類別中。
???
??? 在線相似度計(jì)算
?????? 圖6-21給出了主題敏感PageRank在線計(jì)算用戶查詢與網(wǎng)頁相似度的示意圖。假設(shè)用戶輸入了查詢請(qǐng)求“喬丹”,搜索系統(tǒng)首先利用“用戶查詢分類器”對(duì)查詢進(jìn)行分類,計(jì)算用戶查詢隸屬于定義好的各個(gè)類別的概率分別是多少,在我們給出的例子里,“喬丹”隸屬于體育類別的概率為0.6,娛樂類別的概率為0.1,商業(yè)類別的概率為0.3。
??????????????????????????????????????????????
??????????????????????????????????????????? 圖6-21?在線相似度計(jì)算
?????? 在進(jìn)行上述用戶查詢分類計(jì)算的同時(shí),搜索系統(tǒng)讀取索引,找出包含了用戶查詢“喬丹”的所有網(wǎng)頁,并獲得上一步驟離線計(jì)算好的各個(gè)分類主題的PageRank值,在圖6-21的例子里,假設(shè)某個(gè)網(wǎng)頁A的各個(gè)主題PageRank值分別為體育0.2,娛樂0.3以及商業(yè)0.1。
????? 得到用戶查詢的類別向量和某個(gè)網(wǎng)頁的主題PageRank向量后,即可計(jì)算這個(gè)網(wǎng)頁和查詢的相似度。通過計(jì)算兩個(gè)向量的乘積就可以得出兩者之間的相關(guān)性。在圖6-21的例子里,網(wǎng)頁A和用戶查詢“喬丹”的相似度為:
Sim(“喬丹”,A)=?0.6*0.2+0.1*0.3+0.3*0.1=0.18
????? 對(duì)包含“喬丹”這個(gè)關(guān)鍵詞的網(wǎng)頁,都根據(jù)以上方法計(jì)算,得出其與用戶查詢的相似度后,就可以按照相似度由高到低排序輸出,作為本次搜索的搜索結(jié)果返回給用戶。
6.6.3利用主題敏感PageRank構(gòu)造個(gè)性化搜索
???? 以上內(nèi)容介紹的是主題敏感PageRank的基本思想和計(jì)算流程,從其內(nèi)在機(jī)制來說,這個(gè)算法非常適合作為個(gè)性化搜索的技術(shù)方案。
??? 在圖6-21所示例子里,計(jì)算相似度使用的只有用戶當(dāng)前輸入的查詢?cè)~“喬丹”,如果能夠?qū)Υ诉M(jìn)行擴(kuò)展,即不僅僅使用當(dāng)前查詢?cè)~,也考慮利用用戶過去的搜索記錄等個(gè)性化信息。比如用戶之前搜索過“耐克”,則可以推斷用戶輸入“喬丹”是想購買運(yùn)動(dòng)服飾,而如果之前搜索過“姚明”,則很可能用戶希望獲得體育方面的信息。通過這種方式,可以將用戶的個(gè)性化信息和當(dāng)前查詢相融合來構(gòu)造搜索系統(tǒng),以此達(dá)到個(gè)性化搜索的目的,更精準(zhǔn)的提供搜索服務(wù)。
總結(jié)
以上是生活随笔為你收集整理的大话主题敏感PageRank的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大话SALSA算法
- 下一篇: 搜索引擎链接算法之:HITS算法解析