當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习之决策树的原理及sklearn实现

發(fā)布時(shí)間：2023/12/15 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习之决策树的原理及sklearn实现小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.概述

1.1 決策樹是如何工作的？

決策樹（Decision Tree）是一種非參數(shù)的有監(jiān)督學(xué)習(xí)方法，它能夠從一系列有特征和標(biāo)簽的數(shù)據(jù)中總結(jié)出決策規(guī)則，并用樹狀圖的結(jié)構(gòu)來呈現(xiàn)這些規(guī)則，以解決分類和回歸問題。決策樹算法容易理解，適用各種數(shù)據(jù)，在解決各種問題時(shí)都有良好表現(xiàn)，尤其是以樹模型為核心的各種集成算法，在各個(gè)行業(yè)和領(lǐng)域都有廣泛的應(yīng)用。
決策樹算法的本質(zhì)是一種圖結(jié)構(gòu)，我們只需要問一系列問題就可以對數(shù)據(jù)進(jìn)行分類了。比如說，來看看下面這組數(shù)據(jù)集，這是一系列已知物種以及所屬類別的數(shù)據(jù)：

目標(biāo)是，將動(dòng)物們分為哺乳類和非哺乳類。那根據(jù)已經(jīng)收集到的數(shù)據(jù)，決策樹算法為我們算出了下面的這棵決策樹：

假如我們現(xiàn)在發(fā)現(xiàn)了一種新物種Python，它是冷血?jiǎng)游?#xff0c;體表帶鱗片，并且不是胎生，我們就可以通過這棵決策樹來判斷它的所屬類別。

決策樹算法的核心是要解決兩個(gè)問題：
1）如何從數(shù)據(jù)表中找出最佳節(jié)點(diǎn)和最佳分枝？
2）如何讓決策樹停止生長，防止過擬合？

1.2 sklearn中的決策樹

sklearn中決策樹的類都包含在tree這個(gè)模塊下，這個(gè)模塊一共包括五個(gè)類：

主要講解：DecisionTreeClassifier

sklearn的建模過程：

對應(yīng)的代碼如下所示：

from sklearn import tree #導(dǎo)入需要的模塊 clf = tree.DecisionTreeClassifier() #實(shí)例化 clf = clf.fit(X_train,y_train) #用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型 result = clf.score(X_test,y_test)

2.DecisionTreeClassifier

class sklearn.tree.DecisionTreeClassifier (criterion=’gini’, splitter=’best’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None,random_state=None, max_leaf_nodes=None,min_impurity_decrease=0.0, min_impurity_split=None,class_weight=None, presort=False )

重要參數(shù)：criterion

為了要將表格轉(zhuǎn)化為一棵樹，決策樹需要找出最佳節(jié)點(diǎn)和最佳的分枝方法，對分類樹來說，衡量這個(gè)“最佳”的指標(biāo)叫做“不純度”。通常來說，不純度越低，決策樹對訓(xùn)練集的擬合越好。現(xiàn)在使用的決策樹算法在分枝方法上的核心大多是圍繞在對某個(gè)不純度相關(guān)指標(biāo)的最優(yōu)化上。
不純度基于節(jié)點(diǎn)來計(jì)算，樹中的每個(gè)節(jié)點(diǎn)都會(huì)有一個(gè)不純度，并且子節(jié)點(diǎn)的不純度一定是低于父節(jié)點(diǎn)的，也就是說，在同一棵決策樹上，葉子節(jié)點(diǎn)的不純度一定是最低的。
Criterion這個(gè)參數(shù)正是用來決定不純度的計(jì)算方法的。sklearn提供了兩種選擇：

輸入“entropy”，使用信息熵（Entropy）

輸入”gini“，使用基尼系數(shù)（Gini Impurity）

利用sklearn實(shí)現(xiàn)決策樹：
1.導(dǎo)入所需要的算法庫和模塊

from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split

2.探索數(shù)據(jù)

#載入數(shù)據(jù) wine = load_wine() x = pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1) wine.feature_names ['alcohol','malic_acid','ash','alcalinity_of_ash','magnesium','total_phenols','flavanoids','nonflavanoid_phenols','proanthocyanins','color_intensity','hue','od280/od315_of_diluted_wines','proline']

3.劃分訓(xùn)練集和測試集

#. 分訓(xùn)練集和測試集 x_train,x_test,y_train,y_test = train_test_split(wine.data,wine.target,test_size=0.3) #建立模型 clf = tree.DecisionTreeClassifier(criterion="entropy") clf = clf.fit(x_train,y_train) score = clf.score(x_test,y_test)

經(jīng)過測試，模型的準(zhǔn)確率如下所示：

0.9629629629629629

4.查看重要的特征以及對應(yīng)的權(quán)重

clf.feature_importances_ [*zip(wine.feature_names,clf.feature_importances_)] [('alcohol', 0.018448661796409117),('malic_acid', 0.0),('ash', 0.0),('alcalinity_of_ash', 0.0),('magnesium', 0.0),('total_phenols', 0.0),('flavanoids', 0.43259590886482413),('nonflavanoid_phenols', 0.0),('proanthocyanins', 0.0),('color_intensity', 0.20507049195022564),('hue', 0.016757599408700523),('od280/od315_of_diluted_wines', 0.0),('proline', 0.32712733797984056)]

5.設(shè)置好criterion=“entropy”，random_state=30，splitter=“random”，改變max_depth,觀察準(zhǔn)確率的變化

import matplotlib.pyplot as plt test = [] for i in range(10):clf = tree.DecisionTreeClassifier(max_depth=i+1,criterion="entropy",random_state=30,splitter="random")clf = clf.fit(x_train, y_train)score = clf.score(x_test, y_test)test.append(score) plt.plot(range(1,11),test,color="red",label="max_depth") plt.legend() plt.show()

關(guān)于決策樹剪枝的相關(guān)知識(shí)，參考如下文檔：
鏈接：https://pan.baidu.com/s/1kL8S5r55ozqyZgdV6U6fKg
提取碼：1b3r

努力加油a啊

總結(jié)

以上是生活随笔為你收集整理的机器学习之决策树的原理及sklearn实现的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：深度学习之基于CNN实现汉字版手写数字识
下一篇： Pytorch(一) --线性模型