當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

weka 初练之文本分类

發布時間：2023/12/13 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 weka 初练之文本分类小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

0.注意weka的中文編碼
RunWeka.ini-----》fileEncoding=utf-8
1.首先對分詞后的無新詞發現的分詞文件，轉換成arff文件命令
java weka.core.converters.TextDirectoryLoader -dir D:\weibo\catagory\data10W\nlpirSegment\noNI > D:\weibo\catagory\data10W\nlpirSegment\weka\wb10w.arff
發現轉換特別快
2.打開上面的文件進行生成詞向量，首先選擇通過特征的有無，1000特征/每類文檔，最后保存當前文件 wb10w_vsm_true_false_weight.arff
生成6千多個特征
3.打開上面的arrf文件，進行特征選擇，評估策略選擇 IG，搜索策略選擇Ranker 特征數5000，保存文件wb10w_as_true_false_weight.arrf
4.bayes 分類器 66訓練數據結果復制到 result文件中

轉載于:https://www.cnblogs.com/dasheng-maritime/p/6160403.html

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的weka 初练之文本分类的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

文本
Weka

编程问答

weka 初练之 文本分类

總結

weka 初练之文本分类