日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】 ID3,C4.5,CART决策树

發(fā)布時(shí)間:2023/12/20 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习】 ID3,C4.5,CART决策树 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

決策樹(shù)模型在監(jiān)督學(xué)習(xí)中非常常見(jiàn),可用于分類(二分類、多分類)和回歸。雖然將多棵弱決策樹(shù)的Bagging、Random Forest、Boosting等tree ensembel 模型更為常見(jiàn),但是“完全生長(zhǎng)”決策樹(shù)因?yàn)槠浜?jiǎn)單直觀,具有很強(qiáng)的解釋性,也有廣泛的應(yīng)用,而且決策樹(shù)是tree ensemble 的基礎(chǔ),值得好好理解。一般而言一棵“完全生長(zhǎng)”的決策樹(shù)包含,特征選擇、決策樹(shù)構(gòu)建、剪枝三個(gè)過(guò)程,這篇文章主要是簡(jiǎn)單梳理比較ID3、C4.5、CART算法。《統(tǒng)計(jì)學(xué)習(xí)方法》中有比較詳細(xì)的介紹。

一、決策樹(shù)的優(yōu)點(diǎn)和缺點(diǎn)

??? 優(yōu)點(diǎn):

  • 決策樹(shù)算法中學(xué)習(xí)簡(jiǎn)單的決策規(guī)則建立決策樹(shù)模型的過(guò)程非常容易理解,
  • 決策樹(shù)模型可以可視化,非常直觀
  • 應(yīng)用范圍廣,可用于分類和回歸,而且非常容易做多類別的分類
  • 能夠處理數(shù)值型和連續(xù)的樣本特征
  • ??? 缺點(diǎn):

  • 很容易在訓(xùn)練數(shù)據(jù)中生成復(fù)雜的樹(shù)結(jié)構(gòu),造成過(guò)擬合(overfitting)。剪枝可以緩解過(guò)擬合的負(fù)作用,常用方法是限制樹(shù)的高度、葉子節(jié)點(diǎn)中的最少樣本數(shù)量。
  • 學(xué)習(xí)一棵最優(yōu)的決策樹(shù)被認(rèn)為是NP-Complete問(wèn)題。實(shí)際中的決策樹(shù)是基于啟發(fā)式的貪心算法建立的,這種算法不能保證建立全局最優(yōu)的決策樹(shù)。Random Forest 引入隨機(jī)能緩解這個(gè)問(wèn)題
  • 要翻墻

    信息論基礎(chǔ)http://leijun00.github.io/2014/07/information-theory/

    ID3:

    根據(jù)信息增益(Information gain)來(lái)選取Feature作為決策樹(shù)分裂的節(jié)點(diǎn)

    實(shí)際上就是一個(gè)互信息I(D,A)

    C4.5

    信息增益計(jì)算的是子節(jié)點(diǎn)的純度,是用樣本的label值,而分裂信息用的是特征的純度(劃重點(diǎn))。

    C5.0

    C5.0?是Ross Quinlan 1998年提出來(lái)的,對(duì)C4.5做了很多改進(jìn),目前他是作為商業(yè)機(jī)密在售賣(mài).該算法引入了Boosting的算法框架,比前面提到的算法性能更快,對(duì)內(nèi)存的使用更有效,決策樹(shù)更小等等.更詳細(xì)的請(qǐng)?jiān)L問(wèn)他的個(gè)人主頁(yè)查閱文章http://www.rulequest.com/see5-unix.html和http://rulequest.com/download.html.

    CART

    CART(Classification and regression tree)是由L.Breiman,J.Friedman,R.OlshenC.Stone于1984年提出,是應(yīng)用很廣泛的決策樹(shù)學(xué)習(xí)方法.

    cart是顆二叉樹(shù)

    看下算法的優(yōu)點(diǎn):

  • 沒(méi)有分布假設(shè)、沒(méi)有數(shù)據(jù)同質(zhì)性(Homogeneity)要求
  • 觀測(cè)值屬性可以是分類、離散、連續(xù)的混合。
  • 對(duì)異常值(Outlier)值不敏感,異常值一般會(huì)被處理掉
  • 在面對(duì)缺失值、變量多等問(wèn)題時(shí),CART顯得給長(zhǎng)穩(wěn)健(ROBUST)
  • 缺點(diǎn):

  • 非基于概率模型,很難對(duì)決策樹(shù)的結(jié)果的準(zhǔn)確程度做度量
  • 分類樹(shù)

    回歸樹(shù)

    文中有一個(gè)簡(jiǎn)單的例子,可以看一下加深印象

    每一次都對(duì)子樹(shù)重復(fù)這個(gè)操作,不過(guò)樣本集變成子樹(shù)的樣本集,特征集也變成子樹(shù)的特征集。一直到可以結(jié)束條件。

    CART為什么要用基尼系數(shù)

    • 一方面是便于計(jì)算,熵模型需要計(jì)算log等。
    • 最小化不純度而不是最大化信息增益。cart是一顆二叉樹(shù),每一步通過(guò)判斷一個(gè)特征是與不是進(jìn)行二分,慢慢提高子樹(shù)的純度。最大化信息增益是每一步消去一個(gè)特征使得信息增益最大,每一步做的太果斷了,不給后面留機(jī)會(huì)。就比如可能把人群分為青年,中年和老年,最大化信息增益可能在第一次分割的時(shí)候就直接把人群這個(gè)屬性給分掉了。而使用cart二分的話,可能第一步是判斷是不是老年,第二步可能去判斷性別了,第三步的特征才又回到是青年還是中年。留有一個(gè)余地。

    ?

    下一章會(huì)詳細(xì)講剪枝策略,預(yù)剪枝和后剪枝

    決策樹(shù):http://leijun00.github.io/2014/09/decision-tree/

    ?

    總結(jié)

    以上是生活随笔為你收集整理的【机器学习】 ID3,C4.5,CART决策树的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。