数学之美系列十七 -- 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)
2006年11月28日 上午 03:18:00
Google 研究員 吳軍
?
自從有了搜索引擎,就有了針對搜索引擎網頁排名的作弊(SPAM)。以至于用戶發現在搜索引擎中排名靠前的網頁不一定就是高質量的,用句俗話說,閃光的不一定是金子。
?
搜索引擎的作弊,雖然方法很多,目的只有一個,就是采用不正當手段提高自己網頁的排名。早期最常見的作弊方法是重復關鍵詞。比如一個賣數碼相機的網站,重復地羅列各種數碼相機的品牌,如尼康、佳能和柯達等等。為了不讓讀者看到眾多討厭的關鍵詞,聰明一點的作弊者常用很小的字體和與背景相同的顏色來掩蓋這些關鍵詞。其實,這種做法很容易被搜索引擎發現并糾正。
?
在有了網頁排名(page rank)以后,作弊者發現一個網頁被引用的連接越多,排名就可能越靠前,于是就有了專門賣鏈接和買鏈接的生意。比如,有人自己創建成百上千個網站,這些網站上沒有實質的內容,只有到他們的客戶網站的連接。這種做法比重復關鍵詞要高明得多,但是還是不太難被發現。因為那些所謂幫別人提高排名的網站,為了維持生意需要大量地賣鏈接,所以很容易露馬腳。(這就如同造假鈔票,當某一種假鈔票的流通量相當大以后,就容易找到根源了。)再以后,又有了形形色色的作弊方式,我們就不在這里一一贅述了。
?
幾年前,我加入Google做的第一件事就是消除網絡作弊。在Google最早發現搜索引擎作弊的是Matt Cutts,他在我加入Google前幾個月開始研究這個問題,后來,辛格,馬丁和我先后加入進來。我們經過幾個月的努力,清除了一半的作弊者。(當然,以后抓作弊的效率就不會有這么高了。)其中一部分網站從此"痛改前非",但是還是有很多網站換一種作弊方法繼續作弊,因此,抓作弊成了一種長期的貓捉老鼠的游戲。雖然至今還沒有一個一勞永逸地解決作弊問題的方法,但是,Google基本做到了對于任何已知的作弊方法,在一定時間內發現并清除它,從而總是將作弊的網站的數量控制在一個很小的比例范圍。
?
抓作弊的方法很像信號處理中的去噪音的辦法。學過信息論和有信號處理經驗的讀者可能知道這么一個事實,我們如果在發動機很吵的汽車里用手機打電話,對方可能聽不清;但是如果我們知道了汽車發動機的頻率,我們可以加上一個和發動機噪音相反的信號,很容易地消除發動機的噪音,這樣,收話人可以完全聽不到汽車的噪音。事實上,現在一些高端的手機已經有了這種檢測和消除噪音的功能。消除噪音的流程可以概括如下:
在圖中,原始的信號混入了噪音,在數學上相當于兩個信號做卷積。噪音消除的過程是一個解卷積的過程。這在信號處理中并不是什么難題。因為第一,汽車發動機的頻率是固定的,第二,這個頻率的噪音重復出現,只要采集幾秒鐘的信號進行處理就能做到。從廣義上講,只要噪音不是完全隨機的、并且前后有相關性,就可以檢測到并且消除。(事實上,完全隨機不相關的高斯白噪音是很難消除的。)
?
搜索引擎的作弊者所作的事,就如同在手機信號中加入了噪音,使得搜索結果的排名完全亂了。但是,這種人為加入的噪音并不難消除,因為作弊者的方法不可能是隨機的(否則就無法提高排名了)。而且,作弊者也不可能是一天換一種方法,即作弊方法是時間相關的。因此,搞搜索引擎排名算法的人,可以在搜集一段時間的作弊信息后,將作弊者抓出來,還原原有的排名。當然這個過程需要時間,就如同采集汽車發動機噪音需要時間一樣,在這段時間內,作弊者可能會嘗到些甜頭。因此,有些人看到自己的網站經過所謂的優化(其實是作弊),排名在短期內靠前了,以為這種所謂的優化是有效的。但是,不久就會發現排名掉下去了很多。這倒不是搜索引擎以前寬容,現在嚴厲了,而是說明抓作弊需要一定的時間,以前只是還沒有檢測到這些作弊的網站而已。
?
還要強調一點,Google抓作弊和恢復網站原有排名的過程完全是自動的(并沒有個人的好惡),就如同手機消除噪音是自動的一樣。一個網站要想長期排名靠前,就需要把內容做好,同時要和那些作弊網站劃清界限。
轉載于:https://www.cnblogs.com/renly/archive/2013/01/08/2851794.html
總結
以上是生活随笔為你收集整理的数学之美系列十七 -- 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分布式对象存储系统在openstack中
- 下一篇: 数据库系统为什么使用三级模式结构