當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习（四）决策树

發(fā)布時間：2024/4/14 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习（四）决策树小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、信息熵

首先給出信息熵的定義如下\[H\left( x\right) =-\sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) \]
1、無約束條件時，均勻分布熵最大
2、若給定分布的期望和方差，則正態(tài)分布的熵最大

二、決策樹是什么

決策樹就是下圖所示的東西

三、決策樹

1、幾個名詞：

1、訓(xùn)練數(shù)據(jù)集：D
2、數(shù)據(jù)的標(biāo)簽有K種，即有K個類，記為\(C_{k}\)
3、數(shù)據(jù)有多個特征，其中有某一個特征叫A，這個A特征有n個取值，記所有A特征取值為i的數(shù)據(jù)的集合為\(D_{i}\)
4、在子集\(D_{i}\)中屬于第k個類的樣本集合記為\(D_{ik}\)
定義如下兩個量：
\[H\left( D\right) =\sum ^{K}_{k=1}\dfrac {\left| C_{k}\right| }{\left| D\right| }\log\dfrac {\left| C_{k}\right| }{\left| D\right| }\]
\[H\left( D| A\right) =-\sum ^{n}_{i=1}\dfrac {\left| Di\right| }{\left| D\right| }\sum ^{K}_{k=1}\dfrac {\left| D_{ik}\right| }{\left| D_{i}\right| }log\dfrac {\left| D_{ik}\right| }{\left| D_{i}\right|}\]

2、評估指標(biāo)

根據(jù)以上定義的量，定義如下幾個評估指標(biāo)：
1、信息增益：\(g(D,A)=H(D)-H(D|A)\)
2、信息增益率：\(g_{r}(D,A)=g(D,A)/H(A)\)
3、基尼系數(shù)：\(Gini(p)=1-\sum ^{K}_{k=1}(\dfrac {\left| C_{k}\right| }{\left| D\right| })^{2}\)

3、決策樹算法

常用決策樹算法包括ID3算法、C4.5算法，CART決策樹，它們最重要的不同在于評估指標(biāo)不同，其中，ID3采用信息增益作為評估指標(biāo)，C4.5采用信息增益率作為評估指標(biāo)，CART決策樹采用基尼系數(shù)作為評估指標(biāo)。

我們以ID3為例，它首先掃描所有特征，找出信息增益最大的特征作為其根節(jié)點(diǎn)，在對其各個子節(jié)點(diǎn)遞歸地進(jìn)行這個過程，直至達(dá)到某個收斂條件。

4、決策樹的目標(biāo)函數(shù)

決策樹的目標(biāo)函數(shù)，或者說決策樹的損失函數(shù)為：
\(C(T)=\sum_{t\in leaf}N_{t}\times H(t)\)
其中，\(N_{t}\)代表某一葉結(jié)點(diǎn)中包含的樣本數(shù)；\(H(t)\)代表該葉結(jié)點(diǎn)中的熵

對該目標(biāo)函數(shù)進(jìn)行正則化后的目標(biāo)函數(shù)為：\(C_{\alpha}(T)=C(T)+\alpha\times|leafs|\),即加上葉節(jié)點(diǎn)個數(shù)的信息。

轉(zhuǎn)載于:https://www.cnblogs.com/Yolanda7171/p/7242334.html

總結(jié)

以上是生活随笔為你收集整理的机器学习（四）决策树的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：倒腾了一天的笔记-centos 部署ja
下一篇： velocity 的 escape实现