當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

社交平台舆情分析项目的总结和感想（LU学习，EM，KNN）(二)

發布時間：2024/10/12 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了社交平台舆情分析项目的总结和感想（LU学习，EM，KNN）(二) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前文說到根據貝葉斯過濾器篩選出的評論將其中被分類為有價值評論的排名前50條拿出來作人工標注，這樣就得到了一個小評論樣本庫。于是我們面對的問題就變成了一個典型的部分監督學習，又稱LU學習。

LU學習的全稱是Labeled Examples & Unlabeled Examples，和監督學習相比，LU學習不僅會把那些已標引的數據用于訓練分類器，還會把未標引的數據中的有價值信息挖掘出來加以充分利用。

解決LU學習的方法可以在Web數據挖掘這本書的第5章中找到，在書中作者描述了一種EM算法+貝葉斯分類器的解決方案，利用EM算法不停地迭代，改進貝葉斯分類器中的參數。在項目中我最終采用了EM算法+KNN分類器的辦法。對于每個未標引的評論，找出已標引評論中與其最相近的10條，然后根據這10條評論的標引情況來給這條評論打分（要打兩個分：贊同和反對）根據打分的比值來分類。如果比值接近于，這不標引。此外，如果10條最鄰近評論中有非人工標引的評論，這條評論的權值為0.5。

小竅門：

最后我做些經驗之談，當人們發表評論時往往會用 “雖然……但是……” 或 “……不過……” 或類似的轉折結構來更加全面地表述自己的觀點。但是這種評論的論點往往在后半句而且前半句表達的觀點與真正的觀點是相反的，所以當程序識別除了這樣的結構后，應該主動過濾掉前半句，防止混淆分類器。

轉載于:https://www.cnblogs.com/rav009/p/5131097.html

總結

以上是生活随笔為你收集整理的社交平台舆情分析项目的总结和感想（LU学习，EM，KNN）(二)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： OSCache使用指南
下一篇： YII框架开发一个项目的通用目录结构：

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

社交平台舆情分析项目的总结和感想（LU学习，EM，KNN）(二)

總結