當前位置：首頁 > 编程语言 > python >内容正文

python

python数据挖掘分析案例python_Python 数据挖掘实例决策树分析

發布時間：2024/7/23 python 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 python数据挖掘分析案例python_Python 数据挖掘实例决策树分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

友情提示：此篇文章大約需要閱讀 7分鐘57秒，不足之處請多指教，感謝你的閱讀。

安裝Anaconda Python集成環境

下載環境

anaconda下載選擇

安裝環境

下載過程中使用默認，但有一個頁面需要確認，如下圖。

anaconda選擇頁面

第一個勾是是否把 Anaconda 加入環境變量，這涉及到能否直接在 cmd中使用 conda、jupyter、 ipython 等命令，推薦打勾。

第二個是是否設置 Anaconda 所帶的 Python 3.6 為系統默認的 Python 版本，可以打勾。

安裝完成后，在開始菜單中顯示“Anaconda2”如下圖所示。

安裝顯示界面

安裝第三方程序包 Graphviz

目的是在決策樹算法中八進制最終的樹結構。

1、打開 Anaconda Prompt ，輸入 conda install python-graphviz，回車即可完成安裝，如下圖所示，本圖所示已經安裝了 graphviz包，若之前沒有安裝，這時會花點時間安裝，安裝不用干預。

安裝決策樹依賴包

安裝完成后先輸入 python，然后再輸入 import graphviz，測試是否成功安裝，如上圖所示。

需要設置環境變量，才能使用新安裝的 graphviz。

Anaconda及依賴包環境變量設置

首先查看 anaconda安裝在哪個目錄下，可以打開 Spyder的屬性，看一看目標是什么目錄。例如本機的 anaconda安裝路徑為 C:\Users\lenovo\Anaconda2。

下面設置環境變量

(1) 在用戶變量“path”里添加 C:\Users\lenovo\Anaconda2\Library\bin\graphviz

(2) 在系統變量的“path”里添加 C:\Users\lenovo\Anaconda2\Library\bin\graphviz\dot.exe

(3) 如果現在有正在打開的 anaconda 程序，例如正在 Spyder，那么關閉 Spyder，再啟動，這樣剛才設置的環境變量生效。

決策樹分析

格式化原始數據

將下圖的表 demo輸入到 Excel中，保存為.csv 文件(.csv為逗號分隔值文件格式)。

注意將表 demo中的漢字值轉換成數據字值，例如“是否是公司職員”列中的“是”為“1”， “否”為“0”。轉換后的表中數據如下圖所示。

學習表

編寫數據分析代碼

編寫程序對上面的數據進行決策樹分類，采用信息熵(entropy)作為度量標準。參考代碼如下所示：

from sklearn.tree import DecisionTreeClassifier,export_graphviz

import graphviz

import csv

dataset = []

reader = csv.reader(open("demo.csv"))

for line in reader:

if reader.line_num == 1:

continue

dataset.append(line)

X = [x[0:4] for x in dataset]

y = [x[4] for x in dataset]

clf = DecisionTreeClassifier(criterion='entropy').fit(X, y)

dot_data = export_graphviz(clf, out_file=None)

graph = graphviz.Source(dot_data)

graph.render("table");

digraph Tree {

node [shape=box] ;

0 [label="X[0] <= 0.5\nentropy = 0.94\nsamples = 14\nvalue = [9, 5]"] ;

1 [label="X[1] <= 1.5\nentropy = 0.985\nsamples = 7\nvalue = [3, 4]"] ;

0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;

2 [label="entropy = 0.0\nsamples = 3\nvalue = [0, 3]"] ;

1 -> 2 ;

3 [label="X[1] <= 2.5\nentropy = 0.811\nsamples = 4\nvalue = [3, 1]"] ;

1 -> 3 ;

4 [label="entropy = 0.0\nsamples = 2\nvalue = [2, 0]"] ;

3 -> 4 ;

5 [label="X[3] <= 0.5\nentropy = 1.0\nsamples = 2\nvalue = [1, 1]"] ;

3 -> 5 ;

6 [label="entropy = 0.0\nsamples = 1\nvalue = [1, 0]"] ;

5 -> 6 ;

7 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1]"] ;

5 -> 7 ;

8 [label="X[1] <= 2.5\nentropy = 0.592\nsamples = 7\nvalue = [6, 1]"] ;

0 -> 8 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;

9 [label="entropy = 0.0\nsamples = 4\nvalue = [4, 0]"] ;

8 -> 9 ;

10 [label="X[3] <= 0.5\nentropy = 0.918\nsamples = 3\nvalue = [2, 1]"] ;

8 -> 10 ;

11 [label="entropy = 0.0\nsamples = 2\nvalue = [2, 0]"] ;

10 -> 11 ;

12 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1]"] ;

10 -> 12 ;

}

數據分析結果

程序運行結果在與該程序在同一目錄下的 table.pdf 文件中，將每一個葉子結點轉換成IF-THEN 規則。

決策樹分析結果

IF-THEN分類規則

(1)IF"不是公司員工" AND "年齡大于等于40", THEN "不買保險"。

(2)IF"不是公司員工" AND "年齡小于40", THEN "買保險"。

(3)IF"不是公司員工" AND "年齡大于50" AND "信用為良", THEN "不買保險"。

(4)IF"不是公司員工" AND "年齡大于40" AND "信用為優", THEN "買保險"。

(5)IF"是公司員工" AND "年齡小于50", THEN "不買保險"。

(6)IF"是公司員工" AND "年齡小于50" AND "信用為優", THEN "買保險"。

(7)IF"是公司員工" AND "年齡小于50" AND "信用為良", THEN "不買保險"。

總結

以上是生活随笔為你收集整理的python数据挖掘分析案例python_Python 数据挖掘实例决策树分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java约瑟夫环迭代器_Josephus
下一篇：字母绝对值python怎么表示_【怎样求

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python数据挖掘分析案例python_Python 数据挖掘实例 决策树分析

總結

python数据挖掘分析案例python_Python 数据挖掘实例决策树分析