社交平台舆情分析项目的总结和感想(LU学习,EM,KNN)(二)
前文說到根據貝葉斯過濾器篩選出的評論將其中被分類為有價值評論的排名前50條拿出來作人工標注,這樣就得到了一個小評論樣本庫。于是我們面對的問題就變成了一個典型的部分監督學習,又稱LU學習。
LU學習的全稱是Labeled Examples & Unlabeled Examples,和監督學習相比,LU學習不僅會把那些已標引的數據用于訓練分類器,還會把未標引的數據中的有價值信息挖掘出來加以充分利用。
解決LU學習的方法可以在Web數據挖掘這本書的第5章中找到,在書中作者描述了一種EM算法+貝葉斯分類器的解決方案,利用EM算法不停地迭代,改進貝葉斯分類器中的參數。在項目中我最終采用了EM算法+KNN分類器的辦法。對于每個未標引的評論,找出已標引評論中與其最相近的10條,然后根據這10條評論的標引情況來給這條評論打分(要打兩個分:贊同和反對)根據打分的比值來分類。如果比值接近于,這不標引。此外,如果10條最鄰近評論中有非人工標引的評論,這條評論的權值為0.5。
小竅門:
最后我做些經驗之談,當人們發表評論時往往會用 “雖然……但是……” 或 “……不過……” 或類似的轉折結構來更加全面地表述自己的觀點。但是這種評論的論點往往在后半句而且前半句表達的觀點與真正的觀點是相反的,所以當程序識別除了這樣的結構后,應該主動過濾掉前半句,防止混淆分類器。
轉載于:https://www.cnblogs.com/rav009/p/5131097.html
總結
以上是生活随笔為你收集整理的社交平台舆情分析项目的总结和感想(LU学习,EM,KNN)(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OSCache使用指南
- 下一篇: YII框架开发一个项目的通用目录结构: