當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EduCoder 机器学习决策树

發(fā)布時間：2024/5/17 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 EduCoder 机器学习决策树小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

決策樹說通俗點(diǎn)就是一棵能夠替我們做決策的樹，或者說是我們?nèi)祟愒谝鰶Q策時腦回路的一種表現(xiàn)形式。

本實(shí)訓(xùn)項目的主要內(nèi)容是基于 python 語言搭建出決策樹模型對數(shù)據(jù)分類，并使用 sklearn 的決策時模型對鳶尾花數(shù)據(jù)進(jìn)行分類。

第1關(guān)：什么是決策樹

任務(wù)描述
相關(guān)知識
- 引例
- 決策樹的相關(guān)概念
編程要求
測試說明

任務(wù)描述

本關(guān)任務(wù)：根據(jù)本節(jié)課所學(xué)知識完成本關(guān)所設(shè)置的選擇題。

編程要求

根據(jù)本關(guān)所學(xué)習(xí)到的知識，完成所有選擇題。

測試說明

平臺會對你的選項進(jìn)行判斷，如果實(shí)際輸出結(jié)果與預(yù)期結(jié)果相同，則通關(guān)；反之，則 GameOver。

開始你的任務(wù)吧，祝你成功！

1、下列說法正確的是？（AB）
A、
訓(xùn)練決策樹的過程就是構(gòu)建決策樹的過程
B、
ID3算法是根據(jù)信息增益來構(gòu)建決策樹
C、
C4.5算法是根據(jù)基尼系數(shù)來構(gòu)建決策樹
D、
決策樹模型的可理解性不高
2、下列說法錯誤的是？（B）
A、
從樹的根節(jié)點(diǎn)開始，根據(jù)特征的值一步一步走到葉子節(jié)點(diǎn)的過程是決策樹做決策的過程
B、
決策樹只能是一棵二叉樹
C、
根節(jié)點(diǎn)所代表的特征是最優(yōu)特征

第2關(guān)：信息熵與信息增益

任務(wù)描述
相關(guān)知識
- 信息熵
- 條件熵
- 信息增益
編程要求
測試說明

任務(wù)描述

本關(guān)任務(wù)：掌握什么是信息增益，完成計算信息增益的程序設(shè)計。

編程要求

根據(jù)提示，在右側(cè)編輯器補(bǔ)充代碼，完成calcInfoGain函數(shù)實(shí)現(xiàn)計算信息增益。

calcInfoGain函數(shù)中的參數(shù):

feature：測試用例中字典里的feature，類型為ndarray；
label：測試用例中字典里的label，類型為ndarray；
index：測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。

測試說明

平臺會對你編寫的代碼進(jìn)行測試，期望您的代碼根據(jù)輸入來輸出正確的信息增益，以下為其中一個測試用例：

測試輸入： {'feature':[[0, 1], [1, 0], [1, 2], [0, 0], [1, 1]], 'label':[0, 1, 0, 0, 1], 'index': 0}

預(yù)期輸出： 0.419973

提示：計算log可以使用NumPy中的log2函數(shù)

開始你的任務(wù)吧，祝你成功！

import numpy as npdef calcInfoGain(feature, label, index):'''計算信息增益:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益，類型float'''#*********** Begin ***********## 計算熵def calcInfoEntropy(feature, label):'''計算信息熵:param feature:數(shù)據(jù)集中的特征，類型為ndarray:param label:數(shù)據(jù)集中的標(biāo)簽，類型為ndarray:return:信息熵，類型float'''label_set = set(label)result = 0for l in label_set:count = 0for j in range(len(label)):if label[j] == l:count += 1# 計算標(biāo)簽在數(shù)據(jù)集中出現(xiàn)的概率p = count / len(label)# 計算熵result -= p * np.log2(p)return result# 計算條件熵def calcHDA(feature, label, index, value):'''計算信息熵:param feature:數(shù)據(jù)集中的特征，類型為ndarray:param label:數(shù)據(jù)集中的標(biāo)簽，類型為ndarray:param index:需要使用的特征列索引，類型為int:param value:index所表示的特征列中需要考察的特征值，類型為int:return:信息熵，類型float'''count = 0# sub_feature和sub_label表示根據(jù)特征列和特征值分割出的子數(shù)據(jù)集中的特征和標(biāo)簽sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][index] == value:count += 1sub_feature.append(feature[i])sub_label.append(label[i])pHA = count / len(feature)e = calcInfoEntropy(sub_feature, sub_label)return pHA * ebase_e = calcInfoEntropy(feature, label)f = np.array(feature)# 得到指定特征列的值的集合f_set = set(f[:, index])sum_HDA = 0# 計算條件熵for value in f_set:sum_HDA += calcHDA(feature, label, index, value)# 計算信息增益return base_e - sum_HDA#*********** End *************#

第3關(guān)：使用ID3算法構(gòu)建決策樹

任務(wù)描述
相關(guān)知識
- ID3算法
- 使用決策樹進(jìn)行預(yù)測
編程要求
測試說明

任務(wù)描述

本關(guān)任務(wù)：補(bǔ)充python代碼，完成DecisionTree類中的fit和predict函數(shù)。

編程要求

填寫fit(self, feature, label)函數(shù)，實(shí)現(xiàn)ID3算法，要求決策樹保存在self.tree中。其中：

feature：訓(xùn)練集數(shù)據(jù)，類型為ndarray，數(shù)值全為整數(shù)；
label：訓(xùn)練集標(biāo)簽，類型為ndarray，數(shù)值全為整數(shù)。

填寫predict(self, feature)函數(shù)，實(shí)現(xiàn)預(yù)測功能，并將標(biāo)簽返回，其中：

feature：測試集數(shù)據(jù)，類型為ndarray，數(shù)值全為整數(shù)。（PS：feature中有多條數(shù)據(jù)）

測試說明

只需完成fit與predict函數(shù)即可，程序內(nèi)部會調(diào)用您所完成的fit函數(shù)構(gòu)建模型并調(diào)用predict函數(shù)來對數(shù)據(jù)進(jìn)行預(yù)測。預(yù)測的準(zhǔn)確率高于0.92視為過關(guān)。(PS:若self.tree is None則會打印決策樹構(gòu)建失敗)

開始你的任務(wù)吧，祝你成功！

import numpy as np class DecisionTree(object):def __init__(self):#決策樹模型self.tree = {}def calcInfoGain(self, feature, label, index):'''計算信息增益:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益，類型float'''# 計算熵def calcInfoEntropy(label):'''計算信息熵:param label:數(shù)據(jù)集中的標(biāo)簽，類型為ndarray:return:信息熵，類型float'''label_set = set(label)result = 0for l in label_set:count = 0for j in range(len(label)):if label[j] == l:count += 1# 計算標(biāo)簽在數(shù)據(jù)集中出現(xiàn)的概率p = count / len(label)# 計算熵result -= p * np.log2(p)return result# 計算條件熵def calcHDA(feature, label, index, value):'''計算信息熵:param feature:數(shù)據(jù)集中的特征，類型為ndarray:param label:數(shù)據(jù)集中的標(biāo)簽，類型為ndarray:param index:需要使用的特征列索引，類型為int:param value:index所表示的特征列中需要考察的特征值，類型為int:return:信息熵，類型float'''count = 0# sub_feature和sub_label表示根據(jù)特征列和特征值分割出的子數(shù)據(jù)集中的特征和標(biāo)簽sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][index] == value:count += 1sub_feature.append(feature[i])sub_label.append(label[i])pHA = count / len(feature)e = calcInfoEntropy(sub_label)return pHA * ebase_e = calcInfoEntropy(label)f = np.array(feature)# 得到指定特征列的值的集合f_set = set(f[:, index])sum_HDA = 0# 計算條件熵for value in f_set:sum_HDA += calcHDA(feature, label, index, value)# 計算信息增益return base_e - sum_HDA# 獲得信息增益最高的特征def getBestFeature(self, feature, label):max_infogain = 0best_feature = 0for i in range(len(feature[0])):infogain = self.calcInfoGain(feature, label, i)if infogain > max_infogain:max_infogain = infogainbest_feature = ireturn best_featuredef createTree(self, feature, label):# 樣本里都是同一個label沒必要繼續(xù)分叉了if len(set(label)) == 1:return label[0]# 樣本中只有一個特征或者所有樣本的特征都一樣的話就看哪個label的票數(shù)高if len(feature[0]) == 1 or len(np.unique(feature, axis=0)) == 1:vote = {}for l in label:if l in vote.keys():vote[l] += 1else:vote[l] = 1max_count = 0vote_label = Nonefor k, v in vote.items():if v > max_count:max_count = vvote_label = kreturn vote_label# 根據(jù)信息增益拿到特征的索引best_feature = self.getBestFeature(feature, label)tree = {best_feature: {}}f = np.array(feature)# 拿到bestfeature的所有特征值f_set = set(f[:, best_feature])# 構(gòu)建對應(yīng)特征值的子樣本集sub_feature, sub_labelfor v in f_set:sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][best_feature] == v:sub_feature.append(feature[i])sub_label.append(label[i])# 遞歸構(gòu)建決策樹tree[best_feature][v] = self.createTree(sub_feature, sub_label)return treedef fit(self, feature, label):''':param feature: 訓(xùn)練集數(shù)據(jù)，類型為ndarray:param label:訓(xùn)練集標(biāo)簽，類型為ndarray:return: None'''#************* Begin ************#self.tree = self.createTree(feature, label)#************* End **************#def predict(self, feature):''':param feature:測試集數(shù)據(jù)，類型為ndarray:return:預(yù)測結(jié)果，如np.array([0, 1, 2, 2, 1, 0])'''#************* Begin ************#result = []def classify(tree, feature):if not isinstance(tree, dict):return treet_index, t_value = list(tree.items())[0]f_value = feature[t_index]if isinstance(t_value, dict):classLabel = classify(tree[t_index][f_value], feature)return classLabelelse:return t_valuefor f in feature:result.append(classify(self.tree, f))return np.array(result)#************* End **************#

第4關(guān)：信息增益率

任務(wù)描述
相關(guān)知識
- 信息增益率
編程要求
測試說明

任務(wù)描述

本關(guān)任務(wù)：根據(jù)本關(guān)所學(xué)知識，完成calcInfoGainRatio函數(shù)。

編程要求

根據(jù)提示，在右側(cè)編輯器補(bǔ)充代碼，完成calcInfoGainRatio函數(shù)實(shí)現(xiàn)計算信息增益。

calcInfoGainRatio函數(shù)中的參數(shù):

feature：測試用例中字典里的feature，類型為ndarray；
label：測試用例中字典里的label，類型為ndarray；
index：測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益率。

測試說明

平臺會對你編寫的代碼進(jìn)行測試，期望您的代碼根據(jù)輸入來輸出正確的信息增益，以下為其中一個測試用例：

測試輸入： {'feature':[[0, 1], [1, 0], [1, 2], [0, 0], [1, 1]], 'label':[0, 1, 0, 0, 1], 'index': 0}

預(yù)期輸出： 0.432538

提示：計算log可以使用NumPy中的log2函數(shù)

開始你的任務(wù)吧，祝你成功！

import numpy as npdef calcInfoGain(feature, label, index):'''計算信息增益:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益，類型float'''# 計算熵def calcInfoEntropy(label):'''計算信息熵:param label:數(shù)據(jù)集中的標(biāo)簽，類型為ndarray:return:信息熵，類型float'''label_set = set(label)result = 0for l in label_set:count = 0for j in range(len(label)):if label[j] == l:count += 1# 計算標(biāo)簽在數(shù)據(jù)集中出現(xiàn)的概率p = count / len(label)# 計算熵result -= p * np.log2(p)return result# 計算條件熵def calcHDA(feature, label, index, value):'''計算信息熵:param feature:數(shù)據(jù)集中的特征，類型為ndarray:param label:數(shù)據(jù)集中的標(biāo)簽，類型為ndarray:param index:需要使用的特征列索引，類型為int:param value:index所表示的特征列中需要考察的特征值，類型為int:return:信息熵，類型float'''count = 0# sub_feature和sub_label表示根據(jù)特征列和特征值分割出的子數(shù)據(jù)集中的特征和標(biāo)簽sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][index] == value:count += 1sub_feature.append(feature[i])sub_label.append(label[i])pHA = count / len(feature)e = calcInfoEntropy(sub_label)return pHA * ebase_e = calcInfoEntropy(label)f = np.array(feature)# 得到指定特征列的值的集合f_set = set(f[:, index])sum_HDA = 0# 計算條件熵for value in f_set:sum_HDA += calcHDA(feature, label, index, value)# 計算信息增益return base_e - sum_HDAdef calcInfoGainRatio(feature, label, index):'''計算信息增益率:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益率，類型float'''#********* Begin *********#info_gain = calcInfoGain(feature, label, index)unique_value = list(set(feature[:, index]))IV = 0for value in unique_value:len_v = np.sum(feature[:, index] == value)IV -= (len_v/len(feature))*np.log2((len_v/len(feature)))return info_gain/IV#********* End *********#

第5關(guān)：基尼系數(shù)

任務(wù)描述
相關(guān)知識
- 基尼系數(shù)
編程要求
測試說明

任務(wù)描述

本關(guān)任務(wù)：根據(jù)本關(guān)所學(xué)知識，完成calcGini函數(shù)。

編程要求

根據(jù)提示，在右側(cè)編輯器補(bǔ)充代碼，完成calcGini函數(shù)實(shí)現(xiàn)計算信息增益。

calcGini函數(shù)中的參數(shù):

feature：測試用例中字典里的feature，類型為ndarray；
label：測試用例中字典里的label，類型為ndarray；
index：測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算基尼系數(shù)。

測試說明

平臺會對你編寫的代碼進(jìn)行測試，期望您的代碼根據(jù)輸入來輸出正確的信息增益，以下為其中一個測試用例：

測試輸入： {'feature':[[0, 1], [1, 0], [1, 2], [0, 0], [1, 1]], 'label':[0, 1, 0, 0, 1], 'index': 0}

預(yù)期輸出： 0.266667

開始你的任務(wù)吧，祝你成功！

import numpy as np def calcGini(feature, label, index):'''計算基尼系數(shù):param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:基尼系數(shù)，類型float'''#********* Begin *********#def _gini(label):unique_label = list(set(label))gini = 1for l in unique_label:p = np.sum(label == l)/len(label)gini -= p**2return giniunique_value = list(set(feature[:, index]))gini = 0for value in unique_value:len_v = np.sum(feature[:, index] == value)gini += (len_v/len(feature))*_gini(label[feature[:, index] == value])return gini#********* End *********#

第6關(guān)：預(yù)剪枝與后剪枝

任務(wù)描述
相關(guān)知識
- 為什么需要剪枝
- 預(yù)剪枝
- 后剪枝
編程要求
測試說明

任務(wù)描述

本關(guān)任務(wù)：補(bǔ)充python代碼，完成DecisionTree類中的fit和predict函數(shù)。

編程要求

填寫fit(self, train_feature, train_label, val_featrue, val_label)函數(shù)，實(shí)現(xiàn)帶后剪枝的ID3算法，要求決策樹保存在self.tree中。其中：

train_feature：訓(xùn)練集數(shù)據(jù)，類型為ndarray，數(shù)值全為整數(shù)；
train_label：訓(xùn)練集標(biāo)簽，類型為ndarray，數(shù)值全為整數(shù)；
val_feature：驗(yàn)證集數(shù)據(jù)，類型為ndarray，數(shù)值全為整數(shù)；
val_label：驗(yàn)證集標(biāo)簽，類型為ndarray，數(shù)值全為整數(shù)。

填寫predict(self, feature)函數(shù)，實(shí)現(xiàn)預(yù)測功能，并將標(biāo)簽返回，其中：

feature：測試集數(shù)據(jù)，類型為ndarray，數(shù)值全為整數(shù)。（PS：feature中有多條數(shù)據(jù)）

測試說明

只需完成fit與predict函數(shù)即可，程序內(nèi)部會調(diào)用您所完成的fit函數(shù)構(gòu)建模型并調(diào)用predict函數(shù)來對數(shù)據(jù)進(jìn)行預(yù)測。預(yù)測的準(zhǔn)確率高于0.935視為過關(guān)。(PS:若self.tree is None則會打印決策樹構(gòu)建失敗)

import numpy as np from copy import deepcopyclass DecisionTree(object):def __init__(self):#決策樹模型self.tree = {}def calcInfoGain(self, feature, label, index):'''計算信息增益:param feature:測試用例中字典里的feature，類型為ndarray:param label:測試用例中字典里的label，類型為ndarray:param index:測試用例中字典里的index，即feature部分特征列的索引。該索引指的是feature中第幾個特征，如index:0表示使用第一個特征來計算信息增益。:return:信息增益，類型float'''# 計算熵def calcInfoEntropy(feature, label):'''計算信息熵:param feature:數(shù)據(jù)集中的特征，類型為ndarray:param label:數(shù)據(jù)集中的標(biāo)簽，類型為ndarray:return:信息熵，類型float'''label_set = set(label)result = 0for l in label_set:count = 0for j in range(len(label)):if label[j] == l:count += 1# 計算標(biāo)簽在數(shù)據(jù)集中出現(xiàn)的概率p = count / len(label)# 計算熵result -= p * np.log2(p)return result# 計算條件熵def calcHDA(feature, label, index, value):'''計算信息熵:param feature:數(shù)據(jù)集中的特征，類型為ndarray:param label:數(shù)據(jù)集中的標(biāo)簽，類型為ndarray:param index:需要使用的特征列索引，類型為int:param value:index所表示的特征列中需要考察的特征值，類型為int:return:信息熵，類型float'''count = 0# sub_feature和sub_label表示根據(jù)特征列和特征值分割出的子數(shù)據(jù)集中的特征和標(biāo)簽sub_feature = []sub_label = []for i in range(len(feature)):if feature[i][index] == value:count += 1sub_feature.append(feature[i])sub_label.append(label[i])pHA = count / len(feature)e = calcInfoEntropy(sub_feature, sub_label)return pHA * ebase_e = calcInfoEntropy(feature, label)f = np.array(feature)# 得到指定特征列的值的集合f_set = set(f[:, index])sum_HDA = 0# 計算條件熵for value in f_set:sum_HDA += calcHDA(feature, label, index, value)# 計算信息增益return base_e - sum_HDA# 獲得信息增益最高的特征def getBestFeature(self, feature, label):max_infogain = 0best_feature = 0for i in range(len(feature[0])):infogain = self.calcInfoGain(feature, label, i)if infogain > max_infogain:max_infogain = infogainbest_feature = ireturn best_feature# 計算驗(yàn)證集準(zhǔn)確率def calc_acc_val(self, the_tree, val_feature, val_label):result = []def classify(tree, feature):if not isinstance(tree, dict):return treet_index, t_value = list(tree.items())[0]f_value = feature[t_index]if isinstance(t_value, dict):classLabel = classify(tree[t_index][f_value], feature)return classLabelelse:return t_valuefor f in val_feature:result.append(classify(the_tree, f))result = np.array(result)return np.mean(result == val_label)def createTree(self, train_feature, train_label):# 樣本里都是同一個label沒必要繼續(xù)分叉了if len(set(train_label)) == 1:return train_label[0]# 樣本中只有一個特征或者所有樣本的特征都一樣的話就看哪個label的票數(shù)高if len(train_feature[0]) == 1 or len(np.unique(train_feature, axis=0)) == 1:vote = {}for l in train_label:if l in vote.keys():vote[l] += 1else:vote[l] = 1max_count = 0vote_label = Nonefor k, v in vote.items():if v > max_count:max_count = vvote_label = kreturn vote_label# 根據(jù)信息增益拿到特征的索引best_feature = self.getBestFeature(train_feature, train_label)tree = {best_feature: {}}f = np.array(train_feature)# 拿到bestfeature的所有特征值f_set = set(f[:, best_feature])# 構(gòu)建對應(yīng)特征值的子樣本集sub_feature, sub_labelfor v in f_set:sub_feature = []sub_label = []for i in range(len(train_feature)):if train_feature[i][best_feature] == v:sub_feature.append(train_feature[i])sub_label.append(train_label[i])# 遞歸構(gòu)建決策樹tree[best_feature][v] = self.createTree(sub_feature, sub_label)return tree# 后剪枝def post_cut(self, val_feature, val_label):# 拿到非葉子節(jié)點(diǎn)的數(shù)量def get_non_leaf_node_count(tree):non_leaf_node_path = []def dfs(tree, path, all_path):for k in tree.keys():if isinstance(tree[k], dict):path.append(k)dfs(tree[k], path, all_path)if len(path) > 0:path.pop()else:all_path.append(path[:])dfs(tree, [], non_leaf_node_path)unique_non_leaf_node = []for path in non_leaf_node_path:isFind = Falsefor p in unique_non_leaf_node:if path == p:isFind = Truebreakif not isFind:unique_non_leaf_node.append(path)return len(unique_non_leaf_node)# 拿到樹中深度最深的從根節(jié)點(diǎn)到非葉子節(jié)點(diǎn)的路徑def get_the_most_deep_path(tree):non_leaf_node_path = []def dfs(tree, path, all_path):for k in tree.keys():if isinstance(tree[k], dict):path.append(k)dfs(tree[k], path, all_path)if len(path) > 0:path.pop()else:all_path.append(path[:])dfs(tree, [], non_leaf_node_path)max_depth = 0result = Nonefor path in non_leaf_node_path:if len(path) > max_depth:max_depth = len(path)result = pathreturn result# 剪枝def set_vote_label(tree, path, label):for i in range(len(path)-1):tree = tree[path[i]]tree[path[len(path)-1]] = vote_labelacc_before_cut = self.calc_acc_val(self.tree, val_feature, val_label)# 遍歷所有非葉子節(jié)點(diǎn)for _ in range(get_non_leaf_node_count(self.tree)):path = get_the_most_deep_path(self.tree)# 備份樹tree = deepcopy(self.tree)step = deepcopy(tree)# 跟著路徑走for k in path:step = step[k]# 葉子節(jié)點(diǎn)中票數(shù)最多的標(biāo)簽vote_label = sorted(step.items(), key=lambda item: item[1], reverse=True)[0][0]# 在備份的樹上剪枝set_vote_label(tree, path, vote_label)acc_after_cut = self.calc_acc_val(tree, val_feature, val_label)# 驗(yàn)證集準(zhǔn)確率高于0.9才剪枝if acc_after_cut > acc_before_cut:set_vote_label(self.tree, path, vote_label)acc_before_cut = acc_after_cutdef fit(self, train_feature, train_label, val_feature, val_label):''':param train_feature:訓(xùn)練集數(shù)據(jù)，類型為ndarray:param train_label:訓(xùn)練集標(biāo)簽，類型為ndarray:param val_feature:驗(yàn)證集數(shù)據(jù)，類型為ndarray:param val_label:驗(yàn)證集標(biāo)簽，類型為ndarray:return: None'''#************* Begin ************#self.tree = self.createTree(train_feature, train_label)# 后剪枝self.post_cut(val_feature, val_label)#************* End **************#def predict(self, feature):''':param feature:測試集數(shù)據(jù)，類型為ndarray:return:預(yù)測結(jié)果，如np.array([0, 1, 2, 2, 1, 0])'''#************* Begin ************#result = []# 單個樣本分類def classify(tree, feature):if not isinstance(tree, dict):return treet_index, t_value = list(tree.items())[0]f_value = feature[t_index]if isinstance(t_value, dict):classLabel = classify(tree[t_index][f_value], feature)return classLabelelse:return t_valuefor f in feature:result.append(classify(self.tree, f))return np.array(result)#************* End **************#

第7關(guān)：鳶尾花識別

任務(wù)描述
相關(guān)知識
- 數(shù)據(jù)簡介
- DecisionTreeClassifier
編程要求
測試說明

任務(wù)描述

本關(guān)任務(wù)：使用sklearn完成鳶尾花分類任務(wù)。

編程要求

補(bǔ)充python代碼，實(shí)現(xiàn)鳶尾花數(shù)據(jù)的分類任務(wù)，其中訓(xùn)練集數(shù)據(jù)保存在./step7/train_data.csv中，訓(xùn)練集標(biāo)簽保存在。./step7/train_label.csv中，測試集數(shù)據(jù)保存在。./step7/test_data.csv中。請將對測試集的預(yù)測結(jié)果保存至。./step7/predict.csv中。這些csv文件可以使用pandas讀取與寫入。

注意：當(dāng)使用pandas讀取完csv文件后，請將讀取到的DataFrame轉(zhuǎn)換成ndarray類型。這樣才能正常的使用fit和predict。

示例代碼：

import pandas as pd

# as_matrix()可以將DataFrame轉(zhuǎn)換成ndarray

# 此時train_df的類型為ndarray而不是DataFrame

train_df = pd.read_csv('train_data.csv').as_matrix()

數(shù)據(jù)文件格式如下圖所示:

標(biāo)簽文件格式如下圖所示:

PS：predict.csv文件的格式必須與標(biāo)簽文件格式一致。

測試說明

只需將結(jié)果保存至./step7/predict.csv即可，程序內(nèi)部會檢測您的代碼，預(yù)測準(zhǔn)確率高于0.95視為過關(guān)。

開始你的任務(wù)吧，祝你成功！

#********* Begin *********# import pandas as pd from sklearn.tree import DecisionTreeClassifiertrain_df = pd.read_csv('./step7/train_data.csv').as_matrix() train_label = pd.read_csv('./step7/train_label.csv').as_matrix() test_df = pd.read_csv('./step7/test_data.csv').as_matrix()dt = DecisionTreeClassifier() dt.fit(train_df, train_label) result = dt.predict(test_df)result = pd.DataFrame({'target':result}) result.to_csv('./step7/predict.csv', index=False)#********* End *********#

總結(jié)

以上是生活随笔為你收集整理的EduCoder 机器学习决策树的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： EduCoder 机器学习逻辑回归
下一篇： Hive 任务卡在 map = 0%,

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	是	否	是	否
2	是	是	否	是
3	否	是	是	否

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

编程问答

EduCoder 机器学习 决策树

第1關(guān)：什么是決策樹

任務(wù)描述

相關(guān)知識

引例

決策樹的相關(guān)概念

編程要求

測試說明

第2關(guān)：信息熵與信息增益

任務(wù)描述

相關(guān)知識

信息熵

條件熵

信息增益

編程要求

測試說明

第3關(guān)：使用ID3算法構(gòu)建決策樹

任務(wù)描述

相關(guān)知識

ID3算法

使用決策樹進(jìn)行預(yù)測

編程要求

測試說明

第4關(guān)：信息增益率

任務(wù)描述

相關(guān)知識

信息增益率

編程要求

測試說明

第5關(guān)：基尼系數(shù)

任務(wù)描述

相關(guān)知識

基尼系數(shù)

編程要求

測試說明

第6關(guān)：預(yù)剪枝與后剪枝

任務(wù)描述

相關(guān)知識

為什么需要剪枝

預(yù)剪枝

后剪枝

編程要求

測試說明

第7關(guān)：鳶尾花識別

任務(wù)描述

相關(guān)知識

數(shù)據(jù)簡介

DecisionTreeClassifier

編程要求

測試說明

總結(jié)

EduCoder 机器学习决策树

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0