搜索引擎反作弊之内容作弊
?
網頁反作弊是目前所有商業搜索引擎需要解決的重要難點,出于商業利益驅使,很多網站站長會針對搜索引擎排名進行分析,并采取一些手段來提高網站排名,這種行為本身無可厚非,很多優化行為是符合搜索引擎排序規則的,但是也存在一些惡意的優化行為,通過特殊手段將網頁的搜索排名提高到與其網頁質量不相稱的位置,這樣會嚴重影響搜索引擎用戶的搜索體驗。而搜索引擎為了保證排名的公正性,也需要對作弊行為進行識別和處罰。所謂“道高一尺,魔高一丈”,只要這種經濟利益存在,作弊與反作弊會一直作為搜索引擎領域的斗爭而存在下去。 本章主要講解目前常見的一些互聯網網頁作弊方法以及搜索引擎公司對應的反制措施。從大的分類來說,比較常見的作弊方法包括:內容作弊、鏈接作弊、隱藏作弊以及最近幾年興起的Web2.0作弊方法。學術界以及搜索引擎公司也有針對性的提出了各種反作弊算法,本章介紹了比較典型的各類反作弊算法思路,并抽象出了幾種反作弊算法的框架。 8.1 內容作弊 內容作弊的目的是通過精心更改或者調控網頁內容,使得網頁在搜索引擎排名中獲得與其網頁不相稱的高排名。搜索引擎排名一般包含了內容相似性和鏈接重要性計算,內容作弊主要針對搜索引擎排序算法中的內容相似性計算部分。通過故意加大目標詞詞頻,或者在網頁重要位置引入與網頁內容無關的單詞來影響搜索結果排名。 8.1.1常見內容作弊手段 比較常見的內容作弊方式包括: 1. 關鍵詞重復 對于作弊者關心的目標關鍵詞,大量重復設置在頁面內容中。因為詞頻是搜索引擎相似度計算中必然會考慮的因子,關鍵詞重復本質上是通過增高目標關鍵詞的詞頻來影響搜索引擎內容相似性排名。 2. 無關查詢詞作弊 為了能夠盡可能多吸引搜索流量,作弊者在頁面內容中增加很多和頁面主題無關的關鍵詞,這本質上也是一種詞頻作弊,即將原先為0的單詞詞頻增加到非0詞頻,以此吸引更多搜索引擎流量。 比如有的作弊者在網頁的末端以不可見的方式加入一堆單詞詞表。也有作弊者在正文內容插入某些熱門查詢詞。甚至有些頁面內容是靠機器完全隨機生成或者利用其他網頁的頁面內容片段隨機拼湊而成的。 3. 圖片alt標簽文本作弊 alt標簽原本是作為圖片描述信息來使用的,一般不會在HTML頁面顯示,除非用戶將鼠標放在圖片上,但是搜索引擎會利用這個信息,所以有些作弊者將alt的內容以作弊詞匯來填充,達到吸引更多搜索流量的目的。 4. 網頁標題作弊 網頁標題作為描述網頁內容的綜述性信息,對于判斷一個網頁所講述的主題是非常重要的啟發因素。所以搜索引擎在計算相似性得分時,往往會增加標題詞匯的得分權重。作弊者利用這一點,將與網頁主題無關的目標詞重復放置在標題位置來獲得好的排名。 5. 網頁重要標簽作弊 網頁不像普通格式的文本,是帶有HTML標簽的,而有些HTML標簽代表了強調內容重要性的含義,比如加粗標記 ,段落標題 ,字體大小標記等。 搜索引擎一般會利用這些信息進行排序,因為這些標記因素能夠更好的體現網頁的內容所表現的主題信息。作弊者通過在這些重要位置插入作弊關鍵詞也能影響搜索引擎排名結果。 6. 網頁元信息作弊 網頁元信息比如網頁內容描述區(meta description)和網頁內容關鍵詞區(meta keyword)是供制作網頁的人對網頁主題信息進行簡短描述的,同以上情況類似,作弊者往往也會通過在其中插入作弊關鍵詞來影響網頁排名。 通過以上幾種常見作弊手段的描述,我們可以看出,作弊者的作弊意圖主要有以下幾類: 1. 增加目標作弊詞詞頻來影響排名; 2. 增加主題無關內容或者熱門查詢吸引流量; 3. 關鍵位置插入目標作弊詞影響排名; 8.1.2 內容農場(Content Farm) Google在2011年2月份高調宣布針對低質量網頁內容調整排序算法,據報道此算法影響了大約11.8%的網頁排名,而這項調整措施是專門針對以Demand Media網站為代表的“內容農場”作弊手法的。 圖8-1是內容農場運作模式的示意圖,內容農場運營者廉價雇傭大量自由職業者,支持他們付費寫作,但是寫作內容普遍質量低下,很多文章是通過拷貝稍加修改來完成的,但是他們會研究搜索引擎的熱門搜索詞等情況,并有機地將這些詞匯添加到寫作內容中。這樣,普通搜索引擎用戶在搜索時,會被吸引進入內容農場網站,通過大量低質量內容吸引流量,內容農場可以賺取廣告費用。 圖8-1 內容農場運營模式 與傳統的內容作弊方式比,內容農場不采用機器拼接內容等機械方式,而是雇傭人員寫作,但是由于寫作者素質等原因決定了其發布內容質量低下,這種作弊方式搜索引擎往往難以給出是否作弊明確的界定,但是又嚴重影響搜索結果質量,所以是一種很難處理的作弊手法。
轉載于:https://blog.51cto.com/htsdee2w/823030
總結
以上是生活随笔為你收集整理的搜索引擎反作弊之内容作弊的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 海豚浏览器发布双核版本 支持html5
- 下一篇: C#关于电脑DPI改动显示的问题