當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

关于杂质过滤的一点研究

發布時間：2024/3/13 编程问答 66 豆豆

生活随笔收集整理的這篇文章主要介紹了关于杂质过滤的一点研究小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、問題描述

通過爬蟲采集的網上內容中包含大量的無用信息（雜質），需要通過計算機自動過濾這些無用雜質，保留真正有用的內容，過濾本身是一個類別判斷即分類的過程。

2、解決方案

一般來說，雜質的主要來源有：

關鍵詞誤判：錯誤命中采集關鍵詞；
無用、垃圾網站：例如 “昆山新聞網” 信息網站等；
黃/賭/毒/游戲類信息：一些論壇發表的黃/賭/毒/游戲類帖子；
其他：例如考研培訓、招聘網站等特定不需要的網站；

總體的來說，需要通過對標注語料的觀察，嘗試總結雜質的大致分類及占比，優先處理占比大的雜質類型。

雜質過濾一般有兩種方案：

規則方法：借助專業人員的幫助，為每個類別定義大量的推理規則，如果一篇文檔能滿足這些推理規則，則可以判定屬于該類別。
統計方法：通過訓練語料結合一定訓練模型，在用模型對新的語料進行預測。相應算法比如：樸素貝葉斯、 word2vec、隨機森林、SVM等。

3、方法選取

針對不同類型的雜質，選用不同的過濾方式，注重過濾方式的“性價比”。

一般而言，基于統計的機器學習方法需要大量的訓練語料支持，有一定的成本門檻。優先選擇簡單實用的規則過濾，通過多次規則迭代，根據效果再考慮使用機器學習算法不失為一種優先選擇。

4、具體實施

4.1 關鍵詞誤判

描述：命中采集關鍵詞，例如“中智行科技有限公司”/”中智（中國和智利）”，但該關鍵詞并非指關愛通的中智；

思路：

添加排除詞，例如：中智行|中智行科技有限公司等；

添加規則,例如：中智.*?兩國關系，中智.*?經貿等；

中文分詞，例如“漢中智能”，通過分詞結果“漢中”、“智能”不包含“中智”即可過濾掉。

4.2 無用、垃圾網站過濾

描述：在對雜質進行觀察中發現一些雜質都來源于某些特定垃圾網站，例如“昆山新聞網”，從這些網站采集的信息都屬于雜質信息。對應這些雜質，可以通過域名過濾的方式排除。

思路：

判斷無用、垃圾網站：如果從該域名抓取的信息完全或絕大部分（例如95%以上，具體需和數據部人員溝通）屬于雜質，那么該網站就屬于無用、垃圾網站；

找出這些無用、垃圾網站的域名作為雜質特征。

域名過濾簡單直接，靈活性和擴展性好。

4.3 黃/賭/毒/游戲類雜質

描述：該類信息一般會出現在論壇、貼吧等，無法通過域名過濾去除。

思路：該類雜質一般會包含明顯的特征詞，例如“破天一劍”，“熱血江湖”等，但該關鍵詞在標題和內容中都有可能出現，所以需要引入對標題+內容的基于排除關鍵詞的過濾機制。

步驟：

加入標題偵測機制，基于排除關鍵詞列表，對標題包含排除關鍵詞的數據直接判為雜質；

對每個排除關鍵詞，基于標注語料，統計雜質識別準確率，確保該關鍵詞不會造成非雜質被過濾掉。

4.4 其他雜質

描述：部分可通過雜質內容包含的其他特征進行過濾，例如詩歌：

霜風可可不輝光，中智生朝鳥滿天。

雖未帝王山下路，最愁還是慢琴弦。

——寒露《寒露詩選》

#原創詩詞# #七絕#

通過信息中的“#原創詩詞# #七絕#”等特征可過濾掉。

最后剩下的就是難以通過總結規則的過濾的雜質，這時就需要引入機器學習算法。

4.5 機器學習算法

可供使用的分類算法有很多，例如在垃圾郵件過濾中有名的樸素貝葉斯，Logistic回歸，SVM，隨機森林等。下面以"Word2vec + 隨機森林"來說明：

思路：基于word2vec，選取文檔特征詞；根據提煉后的特征詞，向量化文檔；使用隨機森林分類算法訓練模型，分類。

步驟：

通過word2vec訓練詞向量，可以得到一個詞向量空間，每個詞都是該空間中一點，文檔由詞構成，將文檔分詞后，通過求取平均值的方式，可將文檔也投射到詞向量空間中，通過計算詞與文檔的余弦相似度，作為該詞對所屬文檔的貢獻度（該詞在文檔中的權重）

入隨機森林訓練預由此每篇文檔便對應若干加權詞，這些詞都是潛在的特征詞

分類別對所有加權詞進行相加匯總并標準化，基于最能表征類別的原則，提取一定量的關鍵詞（具體數量需實驗測試效果，過大過小都不適合）

于是每篇文檔可表示特征詞向量的形式加入隨機森林訓練預測

4.6 總結

選擇方法時考慮“性價比”；

先觀察總結，能總結出簡單的規則，盡量先通過規則過濾；

規則可以是基于標題，域名，內容等，只要測試效果好不必拘泥形式；

若剩余雜質仍過多，再結合機器學習分類算法。

5、實驗

本次實驗主要處理如下類型的雜質：

無用、垃圾網站：例如 “昆山新聞網” 信息網站等
黃/賭/毒/游戲類信息：一些論壇發表的黃/賭/毒/游戲類帖子
疊詞重復問題：例如網頁http://www.scxiantan.com/bjpp/48819.html中源碼包含以下：

學院無錫職業技術學院成都理工大學工程技術學院石家莊職業技術學院鄭州鐵路職業技術學院西安鐵路職業技術學院邢臺職業技術學院青島港灣職業技術學院長沙民政職業技術學院鄭州工業應用技術學院青島酒店管理職業技術學院山東信息職業技術學院武漢船舶職業技術學院武漢工程職業技術學院秦皇島職業技術學院泰山職業技術學院德州職業技術學院湖北交通職業技術學院云南交通職業技術學院濟南工程職業技術學院山西工程技術學院鄭州工程技術學院漳州職業技術學院山東電子職業技術學院佛山科學技術學院天津渤海職業技術學院天津電子信息職業技術學院陜西工業職業技術學院江西工業職業技術學院南昌大學科學技術學院煙臺工程職業技術學院西安航空職業技術學院石家莊郵電職業技術學院黃岡職業技術學院寧波職業技術學院大連職業技術學院南京信息職業技術學院河北交通職業技術學院廣州民航職業技術學院江蘇工程職業技術學院湖南應用技術學院廣東交通職業技術學院陜西職業技術學院廣東輕工職業技術學院杭州職業技術學院江西交通職業技術學院寧波大學科學技術學院安徽職業技術學院浙江工業職業技術學院楊凌職業技術學院上海電子信息職業技術學院襄陽職業技術學院成都航空職業技術學院哈爾濱職業技術學院萊蕪職業技術學院深圳信息職業技術學院

采用方法：

無用、垃圾網站：網址過濾
黃/賭/毒/游戲類信息：規則過濾+網址過濾
疊詞重復問題：機器學習算法（采用詞密度過濾，對多次出現的詞進行統計，引入懲罰機制，在文章中出現的地方相隔不遠，詞頻計數累加，即：第一次出現詞頻+1，相隔不遠第二次又出現詞頻+2，第三次詞頻+3，如此類推，當相隔較遠時，詞頻計數累加重新置為+1，最后計算最大詞密度=詞頻/句子數)

結果：

以下實驗結果僅針對前述三種雜質，其他類型雜質過濾掉算正確，不過濾掉也不算錯誤。

實驗總共取一個月的數據4443條，其中程序判斷過濾掉3259條，不過濾1184條。

程序運行相關：平均26.88ms處理一條數據，CPU占用30%左右，運行內存占用100M左右。

經過人工標注，采用相關過濾流程，可過濾大部分雜質，總體正確率95%以上。

標注統計結果如下：

類別	程序判斷	正確	正確率（%）
過濾	1184	1145	96.71
不過濾	3259	3078	94.45

總結

以上是生活随笔為你收集整理的关于杂质过滤的一点研究的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

杂质

上一篇：伤害世界怎么自建服务器,《伤害世界Hur
下一篇： java二级程序题两个角度_两个角度图_