google怎么做(2.相似网页算法)
/*版權(quán)聲明:可以任意轉(zhuǎn)載,轉(zhuǎn)載時(shí)請(qǐng)務(wù)必標(biāo)明文章原始出處和作者信息 .*/
GOOGLE 的相似網(wǎng)頁(yè)功能算法
?
中科院軟件所 張俊林
?time stamp:???????? 2006年4月3日
?
我們使用GOOGLE在檢索結(jié)果列表里面每個(gè)檢索結(jié)果會(huì)有”相似網(wǎng)頁(yè)(Similar pages)”的鏈接,主要提供和所列出的頁(yè)面相似的網(wǎng)頁(yè),那么這個(gè)功能是如何實(shí)現(xiàn)的?
GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)利用鏈接分析來(lái)提供相關(guān)網(wǎng)頁(yè)的功能,其基本思路是:如果一個(gè)頁(yè)面和另外一個(gè)頁(yè)面相似,那么其鏈接關(guān)系也是相似的.其算法如下:
(1)?? 用戶選定某個(gè)頁(yè)面A,希望查看相關(guān)網(wǎng)頁(yè);
(2)?? 首先根據(jù)頁(yè)面鏈接關(guān)系構(gòu)建兩個(gè)頁(yè)面集合,第一個(gè)頁(yè)面集合是有外向鏈接(out link)指向頁(yè)面A的所有互聯(lián)網(wǎng)頁(yè)面,我們假設(shè)這個(gè)集合包含兩個(gè)網(wǎng)頁(yè){B,C},也就是說(shuō)B和C頁(yè)面都有鏈接指向頁(yè)面A,同時(shí)我們假定B有鏈接指向D頁(yè)面,C有鏈接指向E頁(yè)面;
(3)?? 第二個(gè)頁(yè)面集合是第一個(gè)頁(yè)面集合里面的頁(yè)面外向鏈接指向的所有頁(yè)面;上面的例子就是集合{D,E};
(4)?? 第一個(gè)頁(yè)面集合指向第二個(gè)頁(yè)面集合的每個(gè)鏈接都賦予一個(gè)權(quán)重值,權(quán)重的設(shè)定有不同的方法,基本原則是如果是同一個(gè)網(wǎng)站的不同頁(yè)面的鏈接,那么鏈接權(quán)重要降低.
(5)?? 第二個(gè)頁(yè)面集合的頁(yè)面根據(jù)指向自己的鏈接的權(quán)重值之和來(lái)確定頁(yè)面分值,按照分值大小順序排序輸出
?
看起來(lái)比較繁瑣,實(shí)際上基本想法很簡(jiǎn)單,一句話概況就是:誰(shuí)的鏈接指向我?那么這些指向我的頁(yè)面還指向誰(shuí)?
總結(jié)
以上是生活随笔為你收集整理的google怎么做(2.相似网页算法)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Google怎么做(1.相关提示)
- 下一篇: Orion算法:GOOGLE干掉百度的核