互信息 卡方 - 文本挖掘
生活随笔
收集整理的這篇文章主要介紹了
互信息 卡方 - 文本挖掘
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在做文本挖掘,特別是有監督的學習時,常常需要從文本中提取特征,提取出對學習有價值的分類,而不是把所有的詞都用上,因此一些詞對分類的作用不大,比如“的、是、在、了”等停用詞。這里介紹兩種常用的特征選擇方法:
互信息
一個常用的方法是計算文檔中的詞項t與文檔類別c的互信息MI,MI度量的是詞的存在與否給類別c帶來的信息量。
?
卡方是基于顯著統計性來選擇特征的,因此他會比MI選出更多的罕見詞項,而這些詞項對分類并不靠譜。
雖然卡方和互信息的出發點不同,但它們的準確性卻相差不多,因為大部分文本分類問題中,只有很少的強特征,大部分都是弱特征。只要所有的強特征和很多弱特征被選出,那么分類的準確率就不會低。
另外上面介紹的兩種特征選擇主要用于文本的分類等用監督學習,而不適宜聚類等無監督學習,因為聚類我們不知道每篇文檔屬于的類別,也就無從計算互信息和卡方值,這時一般使用TF-IDF作為特征詞的選取方法。
?
參考:http://blog.csdn.net/leiting_imecas/article/details/52233137
?
總結
以上是生活随笔為你收集整理的互信息 卡方 - 文本挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: javascript自定义事件原理
- 下一篇: session:的生命周期