當前位置：首頁 >

用 WEKA 进行数据挖掘，第 2 部分: 分类和群集

發布時間：2025/7/25 42 豆豆

生活随笔收集整理的這篇文章主要介紹了用 WEKA 进行数据挖掘，第 2 部分: 分类和群集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

from：http://www.ibm.com/developerworks/cn/opensource/os-weka2/index.html

簡介

在?用 WEKA 進行數據挖掘，第 1 部分：簡介和回歸，我介紹了數據挖掘的概念以及免費的開源軟件 Waikato Environment for Knowledge Analysis（WEKA），利用它可以挖掘數據來獲得趨勢和模式。我還談到了第一種數據挖掘的方法 — 回歸 — 使用它可以根據一組給定的輸入值預測數字值。這種分析方法非常容易進行，而且也是功能最不強大的一種數據挖掘方法，但是通過它，讀者對 WEKA 有了很好的了解，并且它還提供了一個很好的例子，展示了原始數據是如何轉換為有意義的信息的。

在本文中，我將帶您親歷另外兩種數據挖掘的方法，這二者要比回歸模型稍微復雜一些，但功能則更為強大。如果回歸模型只能為特定輸入提供一個數值輸出，那么這兩種模型則允許您對數據做不同的解析。正如我在第 1 部分中所說的，數據挖掘的核心就是將正確的模型應用于數據。即便有了有關客戶的最佳數據（無論這意味著什么），但是如果沒有將正確的模型應用于數據，那么這些數據也沒有任何意義。不妨從另一個角度考慮這件事情：如果您只使用能生成數值輸出的回歸模型，那么 Amazon 如何能告知您“購買了 X 產品的客戶還購買了 Y 產品”？這里沒有數值型的函數能夠告訴您這類信息。所以讓我們來深入研究可用在數據中的其他兩個模型。

在本文中，我會反復提及稱為“最近鄰”的數據挖掘方法，但我不會過多地對其進行剖析，詳細的介紹會在第 3 部分給出。不過，我在本文中的比較和描述部分將它包括進來以使討論更為完整。

回頁首

分類 vs. 群集 vs. 最近鄰

在我深入探討每種方法的細節并通過 WEKA 使用它們之前，我想我們應該先理解每個模型 — 每個模型適合哪種類型的數據以及每個模型試圖實現的目標。我們還會將我們已有的模型 — 回歸模型 — 也包括在我們的討論之中，以便您可以看到這三種新模型與我們已經了解的這個模型的對比。我將通過實際的例子展示每個模型的使用以及各自的不同點。這些實際的例子均圍繞著一個本地的 BMW 經銷店展開，研究它如何能增加銷售。這個經銷店已經保存了所有其過去的銷售信息及有關購買過 BMW、留意過 BMW 或是來過 BMW 展廳的每個客戶的信息。這個經銷店想要增加未來的銷售并部署了數據挖掘來實現此目標。

回歸

問題：“對于新的 BMW M5 車型我們該如何定價？” 回歸模型只能給出這個問題的一個數值答案。回歸模型會使用 BMW 和 M5 的過去銷售數據來基于所售汽車的屬性和賣點確定人們過去在這個經銷店購買車的價格。然后，回歸模型允許 BMW 經銷店插入新車的屬性來確定其價格。

比如：Selling Price = $25,000 + ($2900 * Liters in Engine) + ($9000 * isSedan) + ($11,000 * isConvertible) + ($100 * inches of car) + ($22,000 * isM)。

分類

問題：“那么客戶 X 有多大的可能會購買最新的 BMW M5 呢？” 創建一個分類樹（一個決策樹），并借此挖掘數據就可以確定這個人購買一輛新的 M5 的可能性有多大。這個樹上的節點可以是年齡、收入水平、目前擁有的車的數量、婚姻狀況、有無孩子、房主還是租戶。對這個決策樹使用此人的這些屬性就可以確定他購買 M5 的可能性。

群集

問題是：“哪個年齡組最喜歡銀色的 BMW M5？”這就需要挖掘數據來對比過去購車者的年齡和過去購買的車的顏色。從這些數據，就能夠找到某個年齡組（比如 22-30 歲）具有訂購某種顏色的 BMW M5 的更高的傾向性（75% 購買藍色）。同樣地，它也可顯示另一個不同的年齡組（比如 55-62）則更傾向于訂購銀色的 BMW（65 % 購買銀色，20 % 購買灰色）。這些數據，當挖掘后，傾向于集中于某些特定年齡組和特定顏色周圍，方便用戶快速判斷該數據內的模式。

分類

分類?（也即分類樹或決策樹）是一種數據挖掘算法，為如何確定一個新的數據實例的輸出創建逐步指導。它所創建的這個樹上的每個節點都代表一個位置，在這個位置必須基于輸入做出決策，并且會從一個節點移到下一個節點直至到達能夠得出預測的輸出的葉子節點。這雖然聽起來有些讓人迷惑，但其實它非常直觀。讓我們看一個例子。

清單 1. 簡單的分類樹

[ Will You Read This Section? ]/ \Yes No/ \ [Will You Understand It?] [Won't Learn It]/ \Yes No/ \[Will Learn It] [Won't Learn It]

這個簡單的分類樹試圖回答這個問題：“您理解分類樹么？”在每個節點，您都會回答這個問題并繼續沿著分支下移，直到您到達一個回答了是或不是的葉子節點。這個模型可用于任何未知的數據實例，來預測這個未知數據實例是否通過只詢問兩個簡單問題就能理解分類樹。這看上去像是分類樹的一大優勢 — 它無需有關數據的大量信息就能創建一個十分準確且信息豐富的樹。

分類樹的一個重要概念非常類似于我們在?用 WEKA 進行數據挖掘，第 1 部分：簡介和回歸?回歸模型中看到的概念：使用一個“訓練集”來生成模型。就是拿一組輸出值已知的數據集并使用此數據集來創建我們的模型。之后，只要我們有一個輸出值未知的新的數據點，我們都可以將其放入這個模型并生成預期的輸出。這與我們在回歸模型中看到的沒有差別。只不過，這個模型更進了一步，通常會把整個訓練集分成兩個部分：拿數據的約 60-80 % 放入我們的訓練集，用來生成模型；然后拿剩下的數據放入一個測試集，在模型生成后，立即用其來測試我們模型的準確性。

那么這個額外的步驟為什么在此模型中如此重要呢？這個問題就是所謂的過擬合：如果我們提供過多?數據用于模型創建，我們的模型雖然會被完美創建，但只針對的是該數據。請記住：我們想使用此模型來預測未來的未知數；我們不是想使用此模型來準確地預測我們已經知道的值。這就是為什么我們要創建一個測試集。在創建了模型后，我們要進行檢查以確保我們所創建模型的準確性不會在測試集降低。這就保證了我們的模型會準確地預測出未來的未知值。使用 WEKA 會看到它的實際效果。

這還引出了分類樹的另一個重要概念：修剪。修剪?正如其名字所指，意思是刪減分類樹的枝條。那么為什么有人會想要將信息從分類樹中刪除呢？還是因為過擬合的緣故。隨著數據集的增大以及屬性數量的增長，我們所創建的樹就會越來越復雜。理論上講，一個樹可以具有?leaves = (rows * attributes)。但那又有何益處呢？就預測未來的未知數而言，它根本幫不到我們，因它只適于我們現有的訓練數據。因此我們需要的是一種平衡。我們想要我們的樹盡量簡單，節點和枝葉盡量少。同時我們還想要它盡量地準確。這就需要進行權衡，我們不久就會看到。

在使用 WEKA 前，有關分類我還想指出最后一點，那就是假正和假負。假正指的是這樣的一個數據實例：我們創建的這個模型預測它應該是正的，但事實相反，實際值卻是負的。同樣地，假負指的是這樣一個數據實例：我們創建的這個模型預測它應該是負的，但事實相反，實際值卻是正的。

這些錯誤表明在我們的模型中出了問題，我們的模型正在錯誤地分類某些數據。雖然可能會出現不正確的分類，但可接受的錯誤百分比由模型創建者決定。比如，如果是在醫院里測試心臟監視器，很顯然，將需要極低的錯誤百分比。而如果您只是在有關數據挖掘的文章中挖掘一些虛構的數據，那么錯誤率可以更高一些。為了使之更進一步，還需要決定可以接受的假負與假正的百分比率是多少。我立即想到的一個例子就是垃圾郵件模型：一個假正（一個真郵件被標記為了垃圾郵件）要比假負（一個垃圾消息未被標記為垃圾郵件）更具破壞性。在像這樣的例子中，就可以判斷假負：假正的比率最低為 100:1 才是可以接受的。

好了，對于分類樹的背景和技術方面的介紹已經夠多了。讓我們現在開始獲得一些真正的數據并將其帶入 WEKA。

WEKA 數據集

我們用于分類示例的數據集所圍繞的仍然是我們虛構的 BMW 經銷店。這個經銷店正在啟動一個推銷計劃，試圖向其老客戶推銷兩年延保。這個經銷店過去曾做過類似的計劃并從過去的銷售中收集了 4,500 個數據點。數據集中的屬性有：

收入水平 [0=$0-$30k, 1=$31k-$40k, 2=$41k-$60k, 3=$61k-$75k, 4=$76k-$100k, 5=$101k-$150k, 6=$151k-$500k, 7=$501k+]
第一輛 BMW 購買的年/月
最近的 BMW 購買的年/月
是否過去曾響應過延保計劃

讓我們來看看在這個例子中使用的 Attribute-Relation File Format (ARFF)。

清單 2. 分類 WEKA 數據

@attribute IncomeBracket {0,1,2,3,4,5,6,7} @attribute FirstPurchase numeric @attribute LastPurchase numeric @attribute responded {1,0}@data4,200210,200601,0 5,200301,200601,1 ...

在 WEKA 內進行分類

使用我們之前使用過的相同步驟來將數據文件 bmw-training.arff （參見?下載）載入 WEKA。請注意：這個文件只包含經銷店記錄內的這 4,500 個記錄中的 3,000 個。我們需要分割我們的記錄以便某些數據實例被用來創建模型，某些被用來測試模型以確保沒有過擬合。在加載了數據后，屏幕應該類似于圖 1。

圖 1. WEKA 內的 BMW 分類數據

與我們在?用 WEKA 進行數據挖掘，第 1 部分：簡介和回歸?中對回歸模型所做的類似，我們選擇?Classify?選項卡，然后選擇?trees?節點，然后是?J48?葉子（我不知道為何這就是正式的名稱，不過還是接受吧）。

圖 2. BMW 分類算法

至此，我們已經準備好可以在 WEKA 內創建我們的模型了。請確保?Use training set?被選中以便我們使用剛剛加載的這個數據集來創建模型。單擊?Start?并讓 WEKA 運行。模型的輸出應類似于清單 3 內的結果。

清單 3. WEKA 的分類模型的輸出

Number of Leaves : 28Size of the tree : 43Time taken to build model: 0.18 seconds=== Evaluation on training set === === Summary ===Correctly Classified Instances 1774 59.1333 % Incorrectly Classified Instances 1226 40.8667 % Kappa statistic 0.1807 Mean absolute error 0.4773 Root mean squared error 0.4885 Relative absolute error 95.4768 % Root relative squared error 97.7122 % Total Number of Instances 3000 === Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.662 0.481 0.587 0.662 0.622 0.616 10.519 0.338 0.597 0.519 0.555 0.616 0 Weighted Avg. 0.591 0.411 0.592 0.591 0.589 0.616=== Confusion Matrix ===a b <-- classified as1009 516 | a = 1710 765 | b = 0

上述這些數字是什么意思？我們怎么才能知道這是一個好的模型？我們應該尋找的這個所謂的“樹”在哪里？這些問題問得很好。讓我們逐一回答：

這些數字是什么意思？?這里應該關注的重要數字是“Correctly Classified Instances”（59.1 %）與“Incorrectly Classified Instances”（40.9 %）旁邊的這些數字。其他的重要數字還有“ROC Area”列第一行的這個數字（0.616）；我稍候會詳細解釋這個數字，目前只需記住即可。最后，在“Confusion Matrix”中，顯示了假正和假負的數量。在這個矩陣中，假正為 516，假負為 710。
我們怎么才能知道這是一個好的模型？?由于準確率僅為 59.1 %，我不得不承認經初步分析后，這不是一個非常好的模型。
這個所謂的“樹”在哪里？?要看到這個樹，可右鍵單擊剛剛創建的這個模型。在彈出菜單中，選擇?Visualize tree。之后，就會看到我們所創建的這個分類樹，雖然在本例中，可視樹不能提供任何幫助。我們的樹如圖 3 所示。看到這個樹的另一種方式是在 Classifier Output 內往高處看，其中的文本輸出顯示了具有節點和葉子的整個樹。

圖 3. 分類樹可視化

還有最后一個步驟，就是驗證我們的分類樹，這需要貫穿模型運行我們的測試集并確保我們模型的準確性在測試集時與在訓練集時相差不遠。為此，在?Test options?內，選擇?Supplied test set?單選按鈕并單擊?Set。選擇文件 bmw-test.arff，內含 1,500 條記錄，而這些記錄在我們用來創建模型的訓練集中是沒有的。當我們這次單擊?Start?時，WEKA 將會貫穿我們已經創建的這個模型運行測試數據集并會讓我們知道模型的情況。讓我們現在單擊?Start。如下是輸出。

圖 4. 分類樹測試

對比這個測試集的“Correctly Classified Instances”（55.7 %）與訓練集的“Correctly Classified Instances”（59.1 %），我們看到此模型的準確性非常接近，這表明此模型不會在應用未知數據或未來數據時，發生故障。

不過，由于模型的準確性很差，只能正確地分類 60 % 的數據記錄，因此我們可以后退一步說：“哦，這個模型一點都不好。其準確性勉強超過 50 %，我隨便猜猜，也能得到這樣的準確性。”這完全正確。這也是我想審慎地告訴大家的一點：有時候，將數據挖掘算法應用到數據集有可能會生成一個糟糕的模型。這一點在這里尤其準確，并且它是故意的。

我本想帶您親歷用適合于分類模型的數據生成一個分類樹的全過程。然而，我們從 WEKA 獲得的結果表明我們錯了。我們在這里本應選擇的并非?分類樹。我們所創建的這個模型不能告訴我們任何信息，并且如果我們使用它，我們可能會做出錯誤的決策并浪費錢財。

那么這是不是意味著該數據無法被挖掘呢？當然不是，只不過需要使用另一種數據挖掘方法：最近鄰模型，該模型會在本系列的后續文章中討論，它使用相同的數據集，卻能創建一個準確性超過 88 % 的模型。它旨在強調一點：那就是必須為數據選擇合適的模型才能得到有意義的信息。

進一步閱讀：如果您想更多地了解分類樹，有一些關鍵字可以查找，因篇幅的原因我在這里就不逐一介紹了：ROC curves、AUC、false positives、false negatives、learning curves、Naive Bayes、information gain、overfitting、 pruning、chi-square test。

回頁首

群集

群集?讓用戶可以通過數據組來從數據確定模式。當數據集已定義并且需要從此數據確定一個通用的模式時，群集的優勢就會比較明顯。您可以根據自身業務需要創建一定數量的組。與分類相比，群集的一個好處是數據集內的每個屬性都被用來分析該數據。（在分類方法中，只有屬性的一個子集用在了模型中。）使用群集的一個主要劣勢是用戶需要提前知道他想要創建的組的數量。若用戶對其數據知之甚少，這可能會很困難。是應該創建三個組？五個組？還是十個組？所以在決定要創建的理想組數之前，可能需要進行幾個步驟的嘗試和出錯。

不過，對于一般的用戶，群集有可能是最為有用的一種數據挖掘方法。它可以迅速地將整個數據集分成組，供您快速得出結論。此方法背后的算法多少有些復雜和難懂，這也是我們為何要充分利用 WEKA 的原因。

算法概覽

如下是對群集中所用算法的一個簡要的快速概覽：

數據集內的每個屬性都應該是規格化的，因此，每個值均除以該屬性在數據集內的最高值與最低值間的差值。例如，如果屬性是年齡，且最高值為 72，最低值為 16，那么年齡 32 將被規格化為 0.5714。

理想的群集數量給定后，就可以隨機地從數據集選擇該數量的樣例來充當我們初始測試群集中心。比如，如果想要有三個群集，那么就可以從數據集中隨意選擇三行數據。

計算從每個數據樣例到群集中心（我們隨意選中的數據行）的距離，使用距離計算的最小平方法。

基于到每個群集中心的最短距離將每個數據行分配給一個群集。

計算重心，即只使用每個群集的數的每列數據的平均數。

計算每個數據樣例與剛剛創建的這些重心之間的距離。如果群集及群集數不變，那么就說明大功告成，群集創建完畢。如果它們變化，那么就需要返回到步驟 3 重新開始并一遍遍重復，直到不再變化為止。

很顯然，這看上去不怎么有趣。對于一個具有 10 行和三個群集的數據集，若使用電子數據表，需要花上 30 分鐘才能完成。那么想象一下，如果有 100,000 數據行和 10 個群集，若用手工完成那將花費多長時間。所幸的是，計算機在幾秒內就可以完成這類計算。

WEKA 的數據集

我們為群集示例要使用的這個數據集同樣也圍繞著我們虛構的 BMW 經銷店。這個經銷店保留了人們如何在經銷店以及展廳行走、他們看了哪些車以及他們最終購車的機率的記錄。經銷店期望通過尋找數據內的模式挖掘這些數據并使用群集來判斷其客戶是否有某種行為特點。在這個例子中有 100 行數據，并且每個列都描述了顧客在他們各自的 BMW 體驗中所到達的步驟，比如列中的 1 表示到達這一步的顧客看過這輛車，0 表示他們不曾到達看過車的這一步。清單 4 顯示了我們在 WEKA 中所使用的 ARFF 數據。

清單 4. 群集 WEKA 數據

@attribute Dealership numeric @attribute Showroom numeric @attribute ComputerSearch numeric @attribute M5 numeric @attribute 3Series numeric @attribute Z4 numeric @attribute Financing numeric @attribute Purchase numeric@data1,0,0,0,0,0,0,0 1,1,1,0,0,0,1,0 ...

在 WEKA 內進行群集

采用與將數據加載到?Preprocess?選項卡時的相同步驟來將數據文件 bmw-browsers.arff 加載到 WEKA 內。花上幾分鐘時間來查看一下這個選項卡內的數據。看看這些列、屬性數據以及列的分布等。在加載數據后，屏幕應該類似于圖 5。

圖 5. WEKA 內的 BMW 群集數據

有了這個數據集，我們就可以開始創建群集了，所以這次不是單擊?Classify?選項卡，而是要單擊?Cluster?選項卡。單擊?Choose?并從所出現的各種選項中選擇?SimpleKMeans（這是本文中我們所期望的進行群集的方法）。這時的 WEKA Explorer 窗口應該如圖 6 所示。

圖 6. BMW 群集算法

最后，我們想要通過單擊?SimpleKMeans?調整我們群集算法的屬性（雖然不是最佳的 UI 設計，但還是先接受吧）。這里我們想要調整的這個算法的惟一屬性是?numClusters?字段，它表明我們想要創建多少群集。（在開始之前，需要知道這一點。）讓我們將默認值從 2 更改為 5，若將來想要調整所創建群集的數量，就可以采用這些步驟。此時的 WEKA Explorer 應該類似于圖 7。單擊?OK?以接受這些值。

圖 7. 群集屬性

至此，我們已經可以運行這個群集算法了。如果使用電子數據表處理 100 行數據和五個數據群集將會花費幾個小時的計算時間，但 WEKA 在不到一秒鐘的時間內就能給出答案。輸出應該類似于清單 5。

清單 5. 群集輸出

Cluster# Attribute Full Data 0 1 2 3 4(100) (26) (27) (5) (14) (28) ================================================================================== Dealership 0.6 0.9615 0.6667 1 0.8571 0 Showroom 0.72 0.6923 0.6667 0 0.5714 1 ComputerSearch 0.43 0.6538 0 1 0.8571 0.3214 M5 0.53 0.4615 0.963 1 0.7143 0 3Series 0.55 0.3846 0.4444 0.8 0.0714 1 Z4 0.45 0.5385 0 0.8 0.5714 0.6786 Financing 0.61 0.4615 0.6296 0.8 1 0.5 Purchase 0.39 0 0.5185 0.4 1 0.3214Clustered Instances0 26 ( 26%) 1 27 ( 27%) 2 5 ( 5%) 3 14 ( 14%) 4 28 ( 28%)

那么這些結果該如何解析呢？這個輸出告訴我們每個群集是如何聯系在一起的，其中 “1” 表示該群集中的每個人都有相同的值 1，而 “0” 則表示該群集中的每個人的該屬性都有一個值 0。其他的數值是群集內的每個人的平均值。每個群集向我們展示了顧客內的一種行為類型，從中我們可以開始得出如下結論：

群集 0— 這個組我們可以稱之為 “Dreamers”，因他們圍著經銷店徘徊，查看在停車場上停著的車，卻不步入店面內，且更糟的是，他們沒有購買過任何東西。
群集 1— 我們將這一組稱為是 “M5 Lovers”，因為他們常常會徑直走到 M5 車型區，對 3-系列的車型和 Z4 均視而不見。不過，他們也沒有多高的購買率 — 只有 52 %。這表明存在潛在問題，也是經銷店今后改進的重點，比如可以派更多的銷售人員到 M5 區。
群集 2— 這個組很小，我們可以稱之為 “Throw-Aways”，因為他們沒有統計意義上的相關性，我們也不能從其行為得出任何好的結論。（這種情況若在群集上發生，可能表明應該減少所創建的群集的數量。）
群集 3— 這個組，我們稱之為 “BMW Babies”，因為他們總是會購買一輛車而且還會支付車款。正是在這里，數據向我們顯示了一些有趣的事情：他們一般會在停車場內查看各種車型，然后返回到經銷店內的計算機處搜索中意的車型是否有貨。他們最終會購買 M5 或 Z4 車型（但從不購買 3-系列的）。這個群集告訴經銷店它應該考慮讓它的搜索計算機在停車場處就能很容易地被看到（或安置一臺室外的搜索計算機），并且讓 M5 或 Z4 在搜索結果中更為醒目。一旦顧客決定購買汽車，他總是符合購車款的支付條件并能夠圓滿完成這次購買。
群集 4— 這個組我們將稱之為 “Starting Out With BMW”，因為他們總是看 3-系列的車型，從不看貴很多的 M5。他們會徑直步入展廳，而不會在停車場處東看西看，而且也不會使用計算機搜索終端。他們中有 50 % 會到達支付車款的階段，但只有 32 % 會最終成交。經銷店可以得出這樣的結論：這些初次購買 BMW 車的顧客知道自己想要的車型是哪種（ 3-系列的入門級車型）而且希望能夠符合購車款的支付條件以便買得起。經銷店可以通過放松購車款的支付條件或是降低 3- 系列車型的價格來提高這一組的銷售。

研究這些群集中數據的一種有趣方式是可視地查看它。為此，應該在?Cluster?選項卡上的這個?Result List?區域右鍵單擊（同樣地，亦不是最佳設計的 UI）。彈出菜單的一個選項是?Visualize Cluster Assignments。彈出的窗口則會讓您處理這些結果并可視地查看它們。對于本例，將 X 軸更改為?M5 (Num)，將 Y 軸更改為?Purchase (Num)，將顏色更改為?Cluster (Nom)。結果，有一個圖表會向我們顯示這些群集是如何按照誰看過 M5 以及誰購買了一輛 M5 分組的。而且，將“Jitter”放大到最高的 3/4 處，這會手動地將這些標繪點分散開以便我們能更容易地看到它們。

那么這些可視結果是否與我們從清單 5 中的結果集中得出的結論相符呢？我們可以從 X=1, Y=1 這一點（即看過 M5 且進行過購買的那些人）看出這里所表示的群集只有是 1 和 3。我們還看到處于點 X=0, Y=0 的群集只有 4 和 0。那么這與我們上述結論是否相符呢？答案是肯定的。群集 1 和 3 是過去購買過 M5 的，而群集 0 則沒有購買過任何車型，群集 4 只關注 3-系列。圖 8 顯示了本例的可視群集布局。您可以隨意嘗試更改 X 和 Y 軸來辨別出其他的趨勢和模式。

圖 8. 群集可視查看

進一步閱讀：如果您有興趣進一步鉆研，可以按如下術語搜索相關信息： Euclidean distance、Lloyd's algorithm、Manhattan Distance、Chebyshev Distance、sum of squared errors、cluster centroids。

回頁首

結束語

本文討論了兩種數據挖掘算法：分類樹和群集。這兩種算法與?用 WEKA 進行數據挖掘，第 1 部分：簡介和回歸?中介紹的回歸模型的算法不同之處在于沒有從模型只能得到數值輸出的限制。這兩個模型允許輸出更為靈活，是數據挖掘領域的兩個功能更為強大的武器。

從字面上理解，分類樹就是要創建一個具有分支、節點和枝葉的樹，能夠讓我們拿一個未知的數據點，將此數據點的屬性應用到這個樹并順著這個樹下移，直到到達一個葉子并且數據點的未知輸出可以斷定。我們了解了為了創建一個好的分類樹模型，我們必須要有一個輸出已知的現有數據集，從這個數據集才能構建我們的模型。我們還看到了我們需要將我們的數據集分成兩個部分：一個用來創建模型的訓練集；一個用來驗證模型是否正確且沒有過擬合的測試集。作為本部分的最后一個要點，我還指出在某些時候，即便是創建了一個您認為正確的數據模型，它也可能不正確，而您必須要摒棄整個模型和算法以尋找更好的解決方案。

群集算法是對一個數據集中的數據進行分組，以便您可以基于在這些組中看到的趨勢得出結論。群集與分類及回歸的不同之處在于它不生成單個的輸出變量（結論容易得出），因而要求您必需觀察輸出并嘗試得出自己的結論。正如在本例中看到的，這個模型生成了五個群集，但對群集內的這些數據的分析以及從這些信息中得出結論則取決于我們。就此而言，非常難以生成準確的群集模型（想象一下如果我們創建了過多或過少的群集，結果將會如何），而另一方面，我們將能夠從這個結果集中挖掘出一些有趣的信息 — 這些信息是使用我們之前討論過的其他任何模型都無法得到的。

第 3 部分是 “用 WEKA 進行數據挖掘” 系列的結束篇，會以最近鄰模型結束我們對模型的討論。我們還將會將 WEKA 用作第三方 Java? 庫，而不是作為一個獨立的應用程序，這樣一來，我們就可以將其直接嵌入到我們的服務器端代碼。我們也就能夠在我們的服務器上直接挖掘數據，而無須將它處理成一個 ARFF 文件后才能手動運行它。

回頁首

下載

描述名字大小示例代碼

os-weka2-Examples.zip	17KB

參考資料

學習

WEKA 要求所有關于它的出版物都必須提及這篇題為 “The WEKA Data Mining Software: An Update” （作者 Mark Hall、Eibe Frank、Geoffrey Holmes、Bernhard Pfahringer Peter Reutemann 和 Ian H. Witten）的論文。
利用?YouTube 上的這個視頻?了解如何將一個電子數據表用于一個簡單的回歸模型。
查閱?WEKA Web 站點?獲得此軟件的所有文檔和一個 FAQ。
在?Wikipedia 上查閱回歸分析，這里可能有比您想象中還要多的技術細節。
閱讀有關?ARFF?的詳細信息，以便您可以將數據加載入 WEKA。
IBM 也有自己的數據挖掘軟件， “?Integrate InfoSphere Warehouse data mining with IBM Cognos reporting, Part 1” 提供了一個很好的起點。
要收聽面向軟件開發人員的有趣訪談和討論，請訪問?developerWorks 播客。
隨時關注 developerWorks?技術活動和網絡廣播。
查閱最近將在全球舉辦的面向 IBM 開放源碼開發人員的研討會、交易展覽、網絡廣播和其他活動。
訪問 developerWorks?Open source 專區獲得豐富的 how-to 信息、工具和項目更新以及最受歡迎的文章和教程，幫助您用開放源碼技術進行開發，并將它們與 IBM 產品結合使用。
developerWorks 社區?是流行社區的一個成功典范，包含廣泛的主題。
查看免費的?developerWorks 演示中心，觀看并了解 IBM 及開源技術和產品功能。

獲得產品和技術

下載 WEKA?并在您的系統上運行它。
您可以查看有關 IBM?DB2 Intelligent Miner?軟件的詳細信息以便與 WEKA 進行對比。
使用?IBM 產品評估試用版軟件改進您的下一個開源開發項目，這些軟件可以通過下載獲得。
下載?IBM 產品評估試用版軟件?或?IBM SOA Sandbox for People?并使用來自 DB2?、Lotus?、Rational?、Tivoli? 和 WebSphere? 的應用程序開發工具和中間件產品。

討論

此外，請查閱 My developerWorks 上的這個新的?Data Mining?組。
參與?developerWorks 博客?并加入 developerWorks 社區。

條評論

請?登錄?或?注冊?后發表評論。

添加評論:

注意：評論中不支持 HTML 語法

非常好的weka入門介紹

由?ac嚕嚕嚕?于 2015年09月10日發布

報告濫用

"學習weka

總結

以上是生活随笔為你收集整理的用 WEKA 进行数据挖掘，第 2 部分: 分类和群集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Weka使用笔记
下一篇：用 WEKA 进行数据挖掘，第 3 部分