日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

互信息 卡方 - 文本挖掘

發布時間:2025/5/22 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 互信息 卡方 - 文本挖掘 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在做文本挖掘,特別是有監督的學習時,常常需要從文本中提取特征,提取出對學習有價值的分類,而不是把所有的詞都用上,因此一些詞對分類的作用不大,比如“的、是、在、了”等停用詞。這里介紹兩種常用的特征選擇方法:

互信息

  一個常用的方法是計算文檔中的詞項t與文檔類別c的互信息MI,MI度量的是詞的存在與否給類別c帶來的信息量。

?

卡方是基于顯著統計性來選擇特征的,因此他會比MI選出更多的罕見詞項,而這些詞項對分類并不靠譜。

  雖然卡方和互信息的出發點不同,但它們的準確性卻相差不多,因為大部分文本分類問題中,只有很少的強特征,大部分都是弱特征。只要所有的強特征和很多弱特征被選出,那么分類的準確率就不會低。

  另外上面介紹的兩種特征選擇主要用于文本的分類等用監督學習,而不適宜聚類等無監督學習,因為聚類我們不知道每篇文檔屬于的類別,也就無從計算互信息和卡方值,這時一般使用TF-IDF作為特征詞的選取方法。

?

參考:http://blog.csdn.net/leiting_imecas/article/details/52233137

?

總結

以上是生活随笔為你收集整理的互信息 卡方 - 文本挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。