當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

互信息卡方 - 文本挖掘

發布時間：2025/5/22 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了互信息卡方 - 文本挖掘小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在做文本挖掘，特別是有監督的學習時，常常需要從文本中提取特征，提取出對學習有價值的分類，而不是把所有的詞都用上，因此一些詞對分類的作用不大，比如“的、是、在、了”等停用詞。這里介紹兩種常用的特征選擇方法：

互信息

　　一個常用的方法是計算文檔中的詞項t與文檔類別c的互信息MI，MI度量的是詞的存在與否給類別c帶來的信息量。

卡方是基于顯著統計性來選擇特征的，因此他會比MI選出更多的罕見詞項，而這些詞項對分類并不靠譜。

　　雖然卡方和互信息的出發點不同，但它們的準確性卻相差不多，因為大部分文本分類問題中，只有很少的強特征，大部分都是弱特征。只要所有的強特征和很多弱特征被選出，那么分類的準確率就不會低。

　　另外上面介紹的兩種特征選擇主要用于文本的分類等用監督學習，而不適宜聚類等無監督學習，因為聚類我們不知道每篇文檔屬于的類別，也就無從計算互信息和卡方值，這時一般使用TF-IDF作為特征詞的選取方法。

參考：http://blog.csdn.net/leiting_imecas/article/details/52233137

以上是生活随笔為你收集整理的互信息卡方 - 文本挖掘的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。