日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搜索引擎反作弊之:整体技术思路

發布時間:2024/2/28 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 搜索引擎反作弊之:整体技术思路 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
??? ? ? ? ? ? ? ? ? ? ? ? ?? 本文節選自《這就是搜索引擎:核心技術詳解》第八章

???? 如上所述,目前搜索引擎作弊手段五花八門,層出不窮,作為應對方的搜索引擎,也相應調整技術思路,不斷有針對性地提出反作弊的技術方案,所以如果整理反作弊技術方案,會發現技術方法很多,理清思路不易。

???? 盡管如此,如果對大多數反作弊技術深入分析,會發現在整體技術思路上還是有規律可循。從基本的思路角度,可以將反作弊手段大致劃分為以下三種:“信任傳播模型”、“不信任傳播模型”和“異常發現模型”。其中前兩種技術模型可以進一步抽象歸納為“鏈接分析”一章提到的“子集傳播模型”,為了簡化說明,此處不再敷述,而是直接將這兩個子模型列出。將具體算法和這幾個模型建立起關系,有助于對反作弊算法的宏觀思路和相互聯系樹立起清晰的概念。

?

8.5.1信任傳播模型

???? 圖8-6展示了“信任傳播模型”的示意圖。所謂“信任傳播模型”,基本思路如下:在海量的網頁數據中,通過一定技術手段或者人工半人工手段,從中篩選出部分完全值得信任的頁面,也即肯定不會作弊的頁面(可以理解為白名單),算法以這些白名單內的頁面作為出發點,賦予白名單內的頁面節點較高的信任度分值,其它頁面是否作弊,要根據其和白名單內節點的鏈接關系來確定。白名單內節點通過鏈接關系將信任度分值向外擴散傳播,如果某個節點最后得到的信任度分值高于一定閾值,則認為沒有問題,而低于這一閾值的網頁則會被認為是作弊網頁。

????????????

??????????????? ????????????圖8-6 信任傳播模型

?

??? 很多算法在整體流程和算法框架上遵循如上描述,其區別點往往體現在以下兩方面:

a.如何獲得最初的信任頁面子集合,不同的方法手段可能有差異。

b.信任度是如何進行傳播的,不同的方法可能有細微差異。

?

8.5.2不信任傳播模型

?

?????? ??????圖8-7 不信任傳播模型

????? 圖8-7展示了“不信任傳播模型”的整體框架示意圖。從大的技術框架上來講,其和“信任傳播模型”是相似的,最大的區別在于:初始的頁面子集合不是值得信任的頁面節點,而是確認存在作弊行為的頁面集合,即不值得信任的頁面集合(可以理解為黑名單)。賦予黑名單內頁面節點不信任分值,通過鏈接關系將這種不信任關系傳播出去,如果最后頁面節點的不信任分值大于設定的閾值,則會被認為是作弊網頁。

??? 同樣,很多算法可以歸入這一模型框架,只是在具體實施細節方面有差異,整體思路基本一致。

?

8.5.3異常發現模型

?? ?? 異常發現模型也是高度抽象化的一個算法框架模型,其基本假設認為:作弊網頁必然存在有異于正常網頁的特征,這種特征有可能是內容方面的 ,也有可能是鏈接關系方面的。而制定具體算法的流程往往是先找到一些作弊的網頁集合,分析出其異常特征有哪些,然后利用這些異常特征來識別作弊網頁。

?? ?? 具體來說,這個框架模型又可細分為兩種子模型,這兩種子模型在如何判斷異常方面有不同的考慮角度。一種考慮角度比較直觀,即直接從作弊網頁包含的獨特特征來構建算法(參見圖8-8);另外一種角度則認為不正常的網頁即為作弊網頁,也就是說,是通過統計等手段分析正常的網頁應該具備哪些特征,如果網頁不具備這些正常網頁的特征,則被認為是作弊網頁(參見圖8-9)。圖8-8和圖8-9體現了這兩種不同的思路。

?????????????????? ?????????????????????????????????????????????????????????????

???????????????????????????????????? 圖8-8 異常發現模型一

?

?????????????????? ? ? ? ? ? ? ? ? ? 圖8-9 異常發現模型二

????

?????? 盡管反作弊算法五花八門,但是不論采取哪種具體算法,其實都包含了一些基本假設,經常被反作弊算法使用的基本假設有:

a.????? 盡管作弊網頁喜歡將鏈接指向高質量網頁,但是很少有高質量網頁將鏈接指向作弊網站的現象;

b.????? 作弊網頁之間傾向于互相指向;

? ?很多算法的基本思路都是從這些基本假設出發來構造的。


總結

以上是生活随笔為你收集整理的搜索引擎反作弊之:整体技术思路的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。