数据挖掘工具weka使用
http://xiaogao39.blog.163.com/blog/static/7285602200910395121696/
Weka全名為懷卡托智能分析環(huán)境(WaikatoEnviron-meritforKnowledgeAnalysis),是一個基于java、用于數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的開源項目,其開發(fā)者是來自新西蘭懷卡托大學的IanH.Witten和EibeFrank。經過12年的發(fā)展歷程,Weka是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一,而且被公認為是數(shù)據(jù)挖掘開源項目中最著名的一個,每月下載次數(shù)已超過萬次。 和其他數(shù)據(jù)挖掘工具的艱深復雜不同,Weka使數(shù)據(jù)挖掘輕松易行,無需編程也能輕松實現(xiàn):它提供了統(tǒng)一的用戶界面,可在任何數(shù)據(jù)集上應用各種預處理和數(shù)據(jù)挖掘算法,同時還提供了數(shù)據(jù)可視化工具。介紹Weka的使用方法。
??????? 運行Weka軟件,有四種不同的界面供您選擇:SimpleCLI、Explorer、Experimenter、KnowledgeFlow。
??? (1)SimpleCLI:能通過鍵入文本命令的方式來實現(xiàn)其他三個用戶界面所提供的所有功能。
?????? (2)Explorer:是普通用戶最常用的一個界面。用戶可以從ARFF文件(Weka使用的一種文本文件格式)、網(wǎng)頁或數(shù)據(jù)庫中讀取數(shù)據(jù)集。打開數(shù)據(jù)文件后,可以選擇算法對數(shù)據(jù)進行預處理。這時窗體上給出了這個數(shù)據(jù)集的一些基本特征,如含有多少屬性,各屬性的一些簡單統(tǒng)計量,右下方還給出一些可視化效果圖。這些都是比較直觀的分析,如果想發(fā)現(xiàn)隱藏在數(shù)據(jù)集背后的關系,還需要選擇Weka提供的各種分類、聚類或關聯(lián)規(guī)則的算法。所有設置完成后,點擊Start按鈕,就可以安心地等待weka帶來最終的結果。哪些結果是真正有用的還要靠經驗來判斷。
?????? (3)Experimenter:這個界面可以同時使用多個算法對一組(或多組)數(shù)據(jù)進行分析,對各種算法分析的結果進行比較并從中選出最佳,還可以使用Experimenter把一項任務分割成多個子項,每個子項可以在單獨的計算機上執(zhí)行,從而大大加快了分析進程。
?????? (4)KnowledgeFlow:Explore的不足在于,當用戶打開一個數(shù)據(jù)集時,所有數(shù)據(jù)將全部被讀入到主存當中,隨著任務規(guī)模的增大,普通配置的計算機很難滿足要求。KnowledgeFlow提供了一個用于處理大型數(shù)據(jù)集的遞增算法,專門處理這一問題。可以在KnowledgeFlow界面的工具條中拖動任意部件(代表數(shù)據(jù)源、預處理工具、數(shù)據(jù)挖掘算法、評估手段或可視化模塊)放置在畫布中,這些部件組合在一起形成一個數(shù)據(jù)流,當您選擇有遞增學習功能的過濾器和數(shù)據(jù)挖掘算法后,大型數(shù)據(jù)集就可以被分批讀取和處理。
由于Weka的開源、易操作等優(yōu)點,可供各類人群學習、使用。如果是一位數(shù)據(jù)挖掘算法的研究者,可以把自己的算法放在這個平臺上,然后從海量數(shù)據(jù)中發(fā)掘其背后隱藏的種種關系。如果是數(shù)據(jù)挖掘的初學者,這是最好的學習平臺,它不但簡單易學,還提供了八個數(shù)據(jù)挖掘、統(tǒng)計學上的經典案例供您參考;如果在工作中有大量的數(shù)據(jù)需要分析,Weka也許能幫您發(fā)現(xiàn)更大的商機。
注:Weka的最新版本是3.5:weka-3-5-3jre.exe(30.7M,帶ire)和weka-3-5-3.exe(12.5M);
應用平臺:Windows、Linux和Macintosh操作系統(tǒng);
下載地址:http://www.cs.waikato.ac.nz/ml/weka。
總結
以上是生活随笔為你收集整理的数据挖掘工具weka使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据仓库—数据仓库—Sybase IQ
- 下一篇: 数据挖掘方法案例介绍