日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大话主题敏感PageRank

發布時間:2024/2/28 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大话主题敏感PageRank 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 本文節選自《這就是搜索引擎:核心技術詳解》第六章


??????? 主題敏感PageRankPageRank算法的改進版本,該算法已被Google使用在個性化搜索服務中。

6.6.1?主題敏感PageRankPageRank的差異

????? PageRank算法基本遵循前面章節提到的“隨機游走模型”,即用戶在瀏覽某個網頁時,如果希望跳轉到其它頁面,則隨機選擇本網頁包含的某個鏈接,進入另外一個頁面。主題敏感PageRank則對該概念模型做出改進,引入了更符合現實的假設。一般來說用戶會對某些領域感興趣,同時,當瀏覽某個頁面時,這個頁面也是與某個主題相關的(比如體育報道或者娛樂新聞),所以,當用戶看完當前頁面,希望跳轉時,更傾向于點擊和當前頁面主題類似的鏈接,即主題敏感PageRank是將用戶興趣、頁面主題以及鏈接所指向網頁與當前網頁主題的相似程度綜合考慮而建立的模型。很明顯,這更符合真實用戶的瀏覽過程。

?????PageRank是全局性的網頁重要性衡量標準,每個網頁會根據鏈接情況,被賦予一個唯一的PageRank分值。主題敏感PageRank在此點有所不同,該算法引入16種主題類型,對于某個網頁來說,對應某個主題類型都有相應的PageRank分值,即每個網頁會被賦予16個主題相關PageRank分值。

???? 在接受到用戶查詢后,兩個算法在處理方式上也有較大差異。PageRank算法與查詢無關,只能作為相似度計算的一個計算因子體現作用,無法獨立使用。而主題敏感PageRank是查詢相關的,可單獨作為相似度計算公式使用。而且,在接收到用戶查詢后,主題敏感PageRank還需要利用分類器,計算該查詢隸屬于事先定義好的16個主題的隸屬度,并在相似度計算時的排序公式中利用此信息。


6.6.2?主題敏感PageRank計算流程


? ??? 主題敏感PageRank計算主要由兩個步驟構成,第一步是離線的分類主題PageRank數值計算;第二步是在線利用算好的主題PageRank分值,來評估網頁和用戶查詢的相似度,以按照相似度排序提供給用戶搜索結果。下面以具體示例來了解主題敏感PageRank的計算流程。


????分類主題PageRank計算

????主題敏感PageRank參考ODP網站(www.dmoz.org),定義了16個大的主題類別,包括體育、商業、科技等。ODP(Open?Directory?Project)是人工整理的多層級網頁分類導航站點(參見圖6-19),在頂級的16個大分類下還有更細致的小

??????????????????

?????

??????????????????????????????????????????????????????????????????? 圖6-19??ODP首頁

粒度分類結構,在最底層目錄下,人工收集了符合該目錄主題的精選高質量網頁地址,以供互聯網用戶導航尋址。主題敏感PageRank采用了ODP最高級別的16個分類類別作為事先定義的主題類型。?

?????主題敏感PageRank16個類別的主題,依次計算該類別的PageRank分值,圖6-20圖示了其計算流程和基本思路,為了簡化說明,示意圖只表現出了三個分類類別。在計算某個類別的PageRank分值時,將所有網頁劃分為兩個集合,一個集合是ODP對應分類主題下所包括的所有網頁,即人工精選的高質量網頁,可以稱之為集合S,剩下的網頁放入另外一個集合內,可稱之為集合T。在計算PageRank時,由于集合S內的網頁能夠很好地表征分類主題,所以賦予較大的跳轉概率值。通過這種設定,集合S內的網頁根據鏈接關系向集合T中網頁傳遞權值,因為直接有鏈接指向的往往主題類似,這樣就將與該分類主題內容相似的網頁賦予較高的PageRank值,而無關的網頁則賦予較低權重的PageRank分值,以此方式達到對網頁所包含主題的判斷。

???????????????????????????????????????????

?????????????????????????????????????????? 圖6-20?網頁的分類主題PageRank計算

??????? 回到圖6-20,假設有個編號為1號的網頁,其被列為ODP目錄中的藝術類別中,在對藝術類別進行PageRank計算時,1號網頁在集合S內,計算結束后,該網頁獲得的PageRank分值為0.5。當計算體育和商業類別的主題PageRank分值時,1號網頁在集合T中,獲得了相應的集合S中網頁傳遞的權值,分別為0.020.01。在所有類別計算結束后,1號網頁獲得了3個不同主題對應的PageRank分值,組成一個主題PageRank向量。通過類似的方式,互聯網內任意網頁也可以獲得相應的主題相關PageRank向量。通過以上過程可以看出,主題相關的PageRank分值向量其實代表了某個網頁所講述內容所屬類別的概率。

???????注意:在上述計算主題PageRank過程中,從集合S和集合T的劃分,及其權值傳播方式中可以看出,該步驟計算過程也符合“子集傳播模型”。但是由于本算法主框架及其出發點都是為了改進PageRank,所以將其歸入“隨機游走模型”的衍生算法類別中。

???

??? 在線相似度計算


?????? 圖6-21給出了主題敏感PageRank在線計算用戶查詢與網頁相似度的示意圖。假設用戶輸入了查詢請求“喬丹”,搜索系統首先利用“用戶查詢分類器”對查詢進行分類,計算用戶查詢隸屬于定義好的各個類別的概率分別是多少,在我們給出的例子里,“喬丹”隸屬于體育類別的概率為0.6,娛樂類別的概率為0.1,商業類別的概率為0.3

??????????????????????????????????????????????


??????????????????????????????????????????? 圖6-21?在線相似度計算

?????? 在進行上述用戶查詢分類計算的同時,搜索系統讀取索引,找出包含了用戶查詢“喬丹”的所有網頁,并獲得上一步驟離線計算好的各個分類主題的PageRank值,在圖6-21的例子里,假設某個網頁A的各個主題PageRank值分別為體育0.2,娛樂0.3以及商業0.1

????? 得到用戶查詢的類別向量和某個網頁的主題PageRank向量后,即可計算這個網頁和查詢的相似度。通過計算兩個向量的乘積就可以得出兩者之間的相關性。在圖6-21的例子里,網頁A和用戶查詢“喬丹”的相似度為:

Sim(“喬丹”,A)=?0.6*0.2+0.1*0.3+0.3*0.1=0.18

????? 對包含“喬丹”這個關鍵詞的網頁,都根據以上方法計算,得出其與用戶查詢的相似度后,就可以按照相似度由高到低排序輸出,作為本次搜索的搜索結果返回給用戶。


6.6.3利用主題敏感PageRank構造個性化搜索

???? 以上內容介紹的是主題敏感PageRank的基本思想和計算流程,從其內在機制來說,這個算法非常適合作為個性化搜索的技術方案。

??? 在圖6-21所示例子里,計算相似度使用的只有用戶當前輸入的查詢詞“喬丹”,如果能夠對此進行擴展,即不僅僅使用當前查詢詞,也考慮利用用戶過去的搜索記錄等個性化信息。比如用戶之前搜索過“耐克”,則可以推斷用戶輸入“喬丹”是想購買運動服飾,而如果之前搜索過“姚明”,則很可能用戶希望獲得體育方面的信息。通過這種方式,可以將用戶的個性化信息和當前查詢相融合來構造搜索系統,以此達到個性化搜索的目的,更精準的提供搜索服務。


總結

以上是生活随笔為你收集整理的大话主题敏感PageRank的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。