python数据挖掘分析案例python_Python 数据挖掘实例 决策树分析
友情提示:此篇文章大約需要閱讀 7分鐘57秒,不足之處請多指教,感謝你的閱讀。
安裝Anaconda Python集成環境
下載環境
anaconda下載選擇
安裝環境
下載過程中使用默認,但有一個頁面需要確認,如下圖。
anaconda選擇頁面
第一個勾是是否把 Anaconda 加入環境變量,這涉及到能否直接在 cmd中使用 conda、jupyter、 ipython 等命令,推薦打勾。
第二個是是否設置 Anaconda 所帶的 Python 3.6 為系統默認的 Python 版本,可以打勾。
安裝完成后,在開始菜單中顯示“Anaconda2”如下圖所示。
安裝顯示界面
安裝第三方程序包 Graphviz
目的是在決策樹算法中八進制最終的樹結構。
1、打開 Anaconda Prompt ,輸入 conda install python-graphviz,回車即可完成安裝,如下圖所示,本圖所示已經安裝 了 graphviz包,若之前沒有安裝,這時會花點時間安裝,安裝不用干預。
安裝決策樹依賴包
安裝完成后先輸入 python,然后再輸入 import graphviz,測試是否成功安裝,如上圖所示。
需要設置環境變量,才能使用新安裝的 graphviz。
Anaconda及依賴包環境變量設置
首先查看 anaconda安裝在哪個目錄下,可以打開 Spyder的屬性,看一看目標是什么目 錄。例如本機的 anaconda安裝路徑為 C:\Users\lenovo\Anaconda2。
下面設置環境變量
(1) 在用戶變量“path”里添加 C:\Users\lenovo\Anaconda2\Library\bin\graphviz
(2) 在系統變量的“path”里添加 C:\Users\lenovo\Anaconda2\Library\bin\graphviz\dot.exe
(3) 如果現在有正在打開的 anaconda 程序,例如正在 Spyder,那么關閉 Spyder,再啟動,這 樣剛才設置的環境變量生效。
決策樹分析
格式化原始數據
將下圖的表 demo輸入到 Excel中,保存為.csv 文件(.csv為逗號分隔值文件格式)。
注意將表 demo中的漢字值轉換成數據字值,例如“是否是公司職員”列中的“是”為“1”, “否”為“0”。轉換后的表中數據如下圖所示。
學習表
編寫數據分析代碼
編寫程序對上面的數據進行決策樹分類,采用信息熵(entropy)作為度量標準。參考代碼如下所示:
from sklearn.tree import DecisionTreeClassifier,export_graphviz
import graphviz
import csv
dataset = []
reader = csv.reader(open("demo.csv"))
for line in reader:
if reader.line_num == 1:
continue
dataset.append(line)
X = [x[0:4] for x in dataset]
y = [x[4] for x in dataset]
clf = DecisionTreeClassifier(criterion='entropy').fit(X, y)
dot_data = export_graphviz(clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("table");
digraph Tree {
node [shape=box] ;
0 [label="X[0] <= 0.5\nentropy = 0.94\nsamples = 14\nvalue = [9, 5]"] ;
1 [label="X[1] <= 1.5\nentropy = 0.985\nsamples = 7\nvalue = [3, 4]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="entropy = 0.0\nsamples = 3\nvalue = [0, 3]"] ;
1 -> 2 ;
3 [label="X[1] <= 2.5\nentropy = 0.811\nsamples = 4\nvalue = [3, 1]"] ;
1 -> 3 ;
4 [label="entropy = 0.0\nsamples = 2\nvalue = [2, 0]"] ;
3 -> 4 ;
5 [label="X[3] <= 0.5\nentropy = 1.0\nsamples = 2\nvalue = [1, 1]"] ;
3 -> 5 ;
6 [label="entropy = 0.0\nsamples = 1\nvalue = [1, 0]"] ;
5 -> 6 ;
7 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1]"] ;
5 -> 7 ;
8 [label="X[1] <= 2.5\nentropy = 0.592\nsamples = 7\nvalue = [6, 1]"] ;
0 -> 8 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
9 [label="entropy = 0.0\nsamples = 4\nvalue = [4, 0]"] ;
8 -> 9 ;
10 [label="X[3] <= 0.5\nentropy = 0.918\nsamples = 3\nvalue = [2, 1]"] ;
8 -> 10 ;
11 [label="entropy = 0.0\nsamples = 2\nvalue = [2, 0]"] ;
10 -> 11 ;
12 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1]"] ;
10 -> 12 ;
}
數據分析結果
程序運行結果在與該程序在同一目錄下的 table.pdf 文件中,將每一個葉子結點轉換成IF-THEN 規則。
決策樹分析結果
IF-THEN分類規則
(1)IF"不是公司員工" AND "年齡大于等于40", THEN "不買保險"。
(2)IF"不是公司員工" AND "年齡小于40", THEN "買保險"。
(3)IF"不是公司員工" AND "年齡大于50" AND "信用為良", THEN "不買保險"。
(4)IF"不是公司員工" AND "年齡大于40" AND "信用為優", THEN "買保險"。
(5)IF"是公司員工" AND "年齡小于50", THEN "不買保險"。
(6)IF"是公司員工" AND "年齡小于50" AND "信用為優", THEN "買保險"。
(7)IF"是公司員工" AND "年齡小于50" AND "信用為良", THEN "不買保險"。
總結
以上是生活随笔為你收集整理的python数据挖掘分析案例python_Python 数据挖掘实例 决策树分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java约瑟夫环迭代器_Josephus
- 下一篇: 字母绝对值python怎么表示_【怎样求