當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】 ID3,C4.5,CART决策树

發(fā)布時(shí)間：2023/12/20 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】 ID3,C4.5,CART决策树小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

決策樹(shù)模型在監(jiān)督學(xué)習(xí)中非常常見(jiàn)，可用于分類（二分類、多分類）和回歸。雖然將多棵弱決策樹(shù)的Bagging、Random Forest、Boosting等tree ensembel 模型更為常見(jiàn)，但是“完全生長(zhǎng)”決策樹(shù)因?yàn)槠浜?jiǎn)單直觀，具有很強(qiáng)的解釋性，也有廣泛的應(yīng)用，而且決策樹(shù)是tree ensemble 的基礎(chǔ)，值得好好理解。一般而言一棵“完全生長(zhǎng)”的決策樹(shù)包含，特征選擇、決策樹(shù)構(gòu)建、剪枝三個(gè)過(guò)程，這篇文章主要是簡(jiǎn)單梳理比較ID3、C4.5、CART算法。《統(tǒng)計(jì)學(xué)習(xí)方法》中有比較詳細(xì)的介紹。

一、決策樹(shù)的優(yōu)點(diǎn)和缺點(diǎn)

??? 優(yōu)點(diǎn)：

決策樹(shù)算法中學(xué)習(xí)簡(jiǎn)單的決策規(guī)則建立決策樹(shù)模型的過(guò)程非常容易理解，

決策樹(shù)模型可以可視化，非常直觀

應(yīng)用范圍廣，可用于分類和回歸，而且非常容易做多類別的分類

能夠處理數(shù)值型和連續(xù)的樣本特征

??? 缺點(diǎn)：

很容易在訓(xùn)練數(shù)據(jù)中生成復(fù)雜的樹(shù)結(jié)構(gòu)，造成過(guò)擬合（overfitting）。剪枝可以緩解過(guò)擬合的負(fù)作用，常用方法是限制樹(shù)的高度、葉子節(jié)點(diǎn)中的最少樣本數(shù)量。

學(xué)習(xí)一棵最優(yōu)的決策樹(shù)被認(rèn)為是NP-Complete問(wèn)題。實(shí)際中的決策樹(shù)是基于啟發(fā)式的貪心算法建立的，這種算法不能保證建立全局最優(yōu)的決策樹(shù)。Random Forest 引入隨機(jī)能緩解這個(gè)問(wèn)題

要翻墻

信息論基礎(chǔ)http://leijun00.github.io/2014/07/information-theory/

ID3:

根據(jù)信息增益(Information gain)來(lái)選取Feature作為決策樹(shù)分裂的節(jié)點(diǎn)

實(shí)際上就是一個(gè)互信息I(D,A)

C4.5

信息增益計(jì)算的是子節(jié)點(diǎn)的純度，是用樣本的label值，而分裂信息用的是特征的純度（劃重點(diǎn)）。

C5.0

C5.0?是Ross Quinlan 1998年提出來(lái)的,對(duì)C4.5做了很多改進(jìn),目前他是作為商業(yè)機(jī)密在售賣(mài).該算法引入了Boosting的算法框架,比前面提到的算法性能更快,對(duì)內(nèi)存的使用更有效,決策樹(shù)更小等等.更詳細(xì)的請(qǐng)?jiān)L問(wèn)他的個(gè)人主頁(yè)查閱文章http://www.rulequest.com/see5-unix.html和http://rulequest.com/download.html.

CART

CART(Classification and regression tree)是由L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出,是應(yīng)用很廣泛的決策樹(shù)學(xué)習(xí)方法.

cart是顆二叉樹(shù)

看下算法的優(yōu)點(diǎn)：

沒(méi)有分布假設(shè)、沒(méi)有數(shù)據(jù)同質(zhì)性(Homogeneity)要求

觀測(cè)值屬性可以是分類、離散、連續(xù)的混合。

對(duì)異常值(Outlier)值不敏感，異常值一般會(huì)被處理掉

在面對(duì)缺失值、變量多等問(wèn)題時(shí)，CART顯得給長(zhǎng)穩(wěn)健(ROBUST)

缺點(diǎn)：

非基于概率模型，很難對(duì)決策樹(shù)的結(jié)果的準(zhǔn)確程度做度量

分類樹(shù)

回歸樹(shù)

文中有一個(gè)簡(jiǎn)單的例子，可以看一下加深印象

每一次都對(duì)子樹(shù)重復(fù)這個(gè)操作，不過(guò)樣本集變成子樹(shù)的樣本集，特征集也變成子樹(shù)的特征集。一直到可以結(jié)束條件。

CART為什么要用基尼系數(shù)

一方面是便于計(jì)算，熵模型需要計(jì)算log等。
最小化不純度而不是最大化信息增益。cart是一顆二叉樹(shù)，每一步通過(guò)判斷一個(gè)特征是與不是進(jìn)行二分，慢慢提高子樹(shù)的純度。最大化信息增益是每一步消去一個(gè)特征使得信息增益最大，每一步做的太果斷了，不給后面留機(jī)會(huì)。就比如可能把人群分為青年，中年和老年，最大化信息增益可能在第一次分割的時(shí)候就直接把人群這個(gè)屬性給分掉了。而使用cart二分的話，可能第一步是判斷是不是老年，第二步可能去判斷性別了，第三步的特征才又回到是青年還是中年。留有一個(gè)余地。

下一章會(huì)詳細(xì)講剪枝策略，預(yù)剪枝和后剪枝

決策樹(shù)：http://leijun00.github.io/2014/09/decision-tree/

總結(jié)

以上是生活随笔為你收集整理的【机器学习】 ID3,C4.5,CART决策树的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【机器学习】二次损失函数的不足及交叉熵
下一篇：【机器学习】树的剪枝策略