日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java weka 聚类_简单开源数据挖掘工具weka进行文本聚类

發布時間:2023/12/10 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 java weka 聚类_简单开源数据挖掘工具weka进行文本聚类 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目前非代碼的數據挖掘工具很多,但非開源,weka是一款開源軟件。只要安裝jdk環境就可使用(具體安裝jdk可以百度)

本文將論述如何不用代碼,使用weka操作,通過與文檔頻數與單詞權的特征選擇方法進行文本聚類(數據為附件)

第一步:將weka創建NetBeans文件目錄中

將weka導入NetBeans軟件中,

1 在某處新建一個WEKA-Rebuild目錄,在它下面建一個目錄叫src。在WEKA的安裝目錄中找到weka-src.jar,用winrar之類的解壓縮軟件打開,并把其中的目錄weka解壓縮到剛才建立的src目錄下。 現在的目錄結構應該是 WEKA-Rebuild -> src-> weka -> associations, attributeSelection, ... 打開NetBeans,“文件”菜單 - “新建項目” - 選擇“常規”中的“基于現有源代碼的Java項目” - “下一步”。“項目文件夾”選擇WEKA-Rebuild目錄,“項目名稱”寫weka-rebuild, “下一步”。在“源包文件夾”那里“添加文件夾”,找到src目錄“打開”,“完成”。

2現在NetBeans左上方項目那一欄應該有粗體的“weka-rebuild”,這就是我們要編譯的weka項目。右鍵點它,“生成項目”。下方會出現很多警告,不用管,不出意外的話最后會提示你生成項目成功。仍然右鍵點擊“weka-rebuild”,“運行項目”。會彈出一個對話框讓你設置主類。WEKA的主類可設置成weka.gui.Main。選中合適的主類后“確定”,不一會兒WEKA的界面就會出現在你面前,和開始菜單里運行的WEKA效果一樣。

打開NetBeans軟件。點擊源包-weka.gui.,找到Main.java文件。雙擊,結果如下圖所示。

第二步:執行weka

1.點擊 源包-weka core tokenizers,右鍵 選擇 新建java類。

修改類名為:CHWordTokenizer

選擇包為:weka core tokenizers

點擊完成 。結果見下圖。

2.修改代碼。將已給資料中的代碼復制到文本中。

并將原橘黃色部分“Utf-8”改成“cp936”。如下圖所示。

3.點開之前已經打開過的Main.java界面

點擊 運行-運行文件

出現下圖所示界面。

在該界面中,點擊 application-explorer。返回weka界面,點擊open file,載進中文文檔。

第三步:創建中文文本文件。

1.將已有中文文本資料 sample 文件夾放入D盤。

2.打開weka - SimpleCLI。

3.在輸入欄輸入 【java weka.core.converters.TextDirectoryLoader-dir d:/sample > d:/sample.arff】點擊回車鍵運行。如下圖所示。

4.D盤出現sample.arff文件。

5.打開C盤weka的安裝文件夾,找到RunWeka.ini文件

將cp1252替換成cp936(簡體中文)

保存文件

第四步:改分詞。

1.打開 weka-explorer-open file-sample .arff

2.Filter-choose-unsupervised-attribute-StringToWordVector

將 tokenizer 改成 CHWordTokenizer

點擊ok

4.點擊apply,點擊save,查看word形式(命名:sampleword1)的成果。

再次打開Filter-choose-unsupervised-attribute-StringToWordVector

雙擊修改 StringToWordVector 的參數。

將 IDFTransform 改為 True (調平滑)

outputWordCounts 改為 True

minTermFreq改為 1

wordToKeep 改為 200

點擊 OK 運行

7.點擊apply,點擊save,查看word形式(命名:sampleword2)的成果。

8.由下圖可以看出,第1個的權重變成1。660731,第2個權重是2.040221,第5個權重是2.278869……

權重結果和sampleword1 不同。

9.返回weka,重新加載sample.arff原始文件

10.點擊 Cluster-simpleMeans,雙擊調整參數。

11.點擊 distanceFunction ,選擇第二項 歐氏距離。

將 numClusters 改為 10

點擊OK

總結

以上是生活随笔為你收集整理的java weka 聚类_简单开源数据挖掘工具weka进行文本聚类的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。