日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习(四)决策树

發(fā)布時間:2024/4/14 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习(四)决策树 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、信息熵

首先給出信息熵的定義如下\[H\left( x\right) =-\sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) \]
1、無約束條件時,均勻分布熵最大
2、若給定分布的期望和方差,則正態(tài)分布的熵最大

二、決策樹是什么

決策樹就是下圖所示的東西

三、決策樹

1、幾個名詞:

1、訓(xùn)練數(shù)據(jù)集:D
2、數(shù)據(jù)的標(biāo)簽有K種,即有K個類,記為\(C_{k}\)
3、數(shù)據(jù)有多個特征,其中有某一個特征叫A,這個A特征有n個取值,記所有A特征取值為i的數(shù)據(jù)的集合為\(D_{i}\)
4、在子集\(D_{i}\)中屬于第k個類的樣本集合記為\(D_{ik}\)
定義如下兩個量:
\[H\left( D\right) =\sum ^{K}_{k=1}\dfrac {\left| C_{k}\right| }{\left| D\right| }\log\dfrac {\left| C_{k}\right| }{\left| D\right| }\]
\[H\left( D| A\right) =-\sum ^{n}_{i=1}\dfrac {\left| Di\right| }{\left| D\right| }\sum ^{K}_{k=1}\dfrac {\left| D_{ik}\right| }{\left| D_{i}\right| }log\dfrac {\left| D_{ik}\right| }{\left| D_{i}\right|}\]

2、評估指標(biāo)

根據(jù)以上定義的量,定義如下幾個評估指標(biāo):
1、信息增益:\(g(D,A)=H(D)-H(D|A)\)
2、信息增益率:\(g_{r}(D,A)=g(D,A)/H(A)\)
3、基尼系數(shù):\(Gini(p)=1-\sum ^{K}_{k=1}(\dfrac {\left| C_{k}\right| }{\left| D\right| })^{2}\)

3、決策樹算法

常用決策樹算法包括ID3算法、C4.5算法,CART決策樹,它們最重要的不同在于評估指標(biāo)不同,其中,ID3采用信息增益作為評估指標(biāo),C4.5采用信息增益率作為評估指標(biāo),CART決策樹采用基尼系數(shù)作為評估指標(biāo)。

我們以ID3為例,它首先掃描所有特征,找出信息增益最大的特征作為其根節(jié)點(diǎn),在對其各個子節(jié)點(diǎn)遞歸地進(jìn)行這個過程,直至達(dá)到某個收斂條件。

4、決策樹的目標(biāo)函數(shù)

決策樹的目標(biāo)函數(shù),或者說決策樹的損失函數(shù)為:
\(C(T)=\sum_{t\in leaf}N_{t}\times H(t)\)
其中,\(N_{t}\)代表某一葉結(jié)點(diǎn)中包含的樣本數(shù);\(H(t)\)代表該葉結(jié)點(diǎn)中的熵

對該目標(biāo)函數(shù)進(jìn)行正則化后的目標(biāo)函數(shù)為:\(C_{\alpha}(T)=C(T)+\alpha\times|leafs|\),即加上葉節(jié)點(diǎn)個數(shù)的信息。

轉(zhuǎn)載于:https://www.cnblogs.com/Yolanda7171/p/7242334.html

總結(jié)

以上是生活随笔為你收集整理的机器学习(四)决策树的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。