日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搜索引擎是怎么删除重复网页的

發(fā)布時間:2025/5/22 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 搜索引擎是怎么删除重复网页的 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

百度曾在站長貼吧里做過這樣一個回復(fù):從用戶體驗角度,“有些轉(zhuǎn)載未必比原創(chuàng)差”。

比方一篇科技原創(chuàng)博文,被知名門戶網(wǎng)站的科技頻道轉(zhuǎn)載。如果這種轉(zhuǎn)載保留原創(chuàng)者姓名和出處鏈接,實際上對原創(chuàng)者是有利的,因為起到了更好的傳播效果。只是國內(nèi)的轉(zhuǎn)載,很多是掐頭去尾,使原創(chuàng)者比較受傷。

據(jù)資料表明近似重復(fù)網(wǎng)頁的數(shù)量占網(wǎng)頁總數(shù)的的比較高達(dá)全部頁面的29%,而完全相同的頁面大約占全部頁面的22%。

很多站長都會抱怨,自己寫的文章被轉(zhuǎn)載后要么排名消失、要么轉(zhuǎn)載站排在前面,比如下圖:

在解決這個問題之前,我認(rèn)為有必要了解下搜索引擎的“去重算法框架”,換個角度看看搜索引擎是怎么給網(wǎng)頁去重的。

你的網(wǎng)頁什么時候會被刪除?

因為互聯(lián)網(wǎng)上有大約22%的內(nèi)容是相同的,一旦你的文章發(fā)表在網(wǎng)上,就有可能會被轉(zhuǎn)載,而一般判斷幫你的網(wǎng)頁為轉(zhuǎn)載,那么搜索引擎一般會從三個時間段來刪除你的網(wǎng)頁:

(1)抓取頁面的時候刪除,這樣可以減少搜索引擎帶寬以及減少存儲數(shù)量;

(2)收錄之后刪除重復(fù)網(wǎng)頁;

(3)用戶檢索時候進(jìn)行再次刪除;增加準(zhǔn)確性,耗費時間;

內(nèi)容重復(fù)的4種類型:

1.如果2篇文章內(nèi)容和格式上毫無差別,則這種重復(fù)叫做“完全重復(fù)頁面”

2.如果2篇文章內(nèi)容相同,但是格式不同,則叫做“內(nèi)容重復(fù)頁面”

3.如果2篇文章有部分重要的內(nèi)容相同,并且格式相同,則稱為“布局重復(fù)頁面”

4.如果2篇文章有部分重要的內(nèi)容相同,但是格式不同,則稱為“部分重復(fù)頁面”

刪除重復(fù)網(wǎng)頁對于搜索引擎有很多好處:

1.如果這些重復(fù)網(wǎng)頁并從搜索引擎數(shù)據(jù)庫中去掉,就能節(jié)省一部分存儲空間,提高檢索的質(zhì)量。

2.為了提高網(wǎng)頁的搜集速度,搜索引擎會對以往搜集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁,

在今后的網(wǎng)頁搜集過程中就可以避開這些網(wǎng)頁,這就是為什么總轉(zhuǎn)載的網(wǎng)站排名不高的原因了。

3.對某個鏡像度較高的網(wǎng)頁,搜索引擎會賦予它較高的優(yōu)先級,當(dāng)用戶搜索時就會賦予它較高的權(quán)重。

4. 近似鏡像網(wǎng)頁的及時發(fā)現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量,也就是說如果用戶點擊了一個死鏈接,

那么可以將用戶引導(dǎo)到一個相同頁面,這樣可以有效的增加用戶的檢索體驗。

通用去重算法框架

對于網(wǎng)頁去重任務(wù),具體可以采取的技術(shù)手段五花八門,各有創(chuàng)新和特色,但是如果仔細(xì)研究,其實大致都差不多。

上圖給出了通用算法框架的流程圖,對于給定的文檔,首先要通過一定特抽取手段,從文檔中抽取出一系列能夠表征文檔主題內(nèi)容的特征集合。

這一步驟往往有其內(nèi)在要求,即盡可能保留文檔重要信息,刪除無關(guān)信息。之所以要刪除部分信息,主要是從計算速度的角度考慮,一般來說,刪除的信息越多,計算速度會越快。

這就是為什么你想做的關(guān)鍵字總沒有排名,反而不想做的關(guān)鍵詞卻能排名靠前的原因之一,搜索引擎把它認(rèn)為不重要的詞語刪除了。

轉(zhuǎn)載于:https://www.cnblogs.com/mfryf/archive/2013/06/06/3122300.html

總結(jié)

以上是生活随笔為你收集整理的搜索引擎是怎么删除重复网页的的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。