日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】 ID3,C4.5,CART决策树

發布時間:2023/12/20 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习】 ID3,C4.5,CART决策树 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

決策樹模型在監督學習中非常常見,可用于分類(二分類、多分類)和回歸。雖然將多棵弱決策樹的Bagging、Random Forest、Boosting等tree ensembel 模型更為常見,但是“完全生長”決策樹因為其簡單直觀,具有很強的解釋性,也有廣泛的應用,而且決策樹是tree ensemble 的基礎,值得好好理解。一般而言一棵“完全生長”的決策樹包含,特征選擇、決策樹構建、剪枝三個過程,這篇文章主要是簡單梳理比較ID3、C4.5、CART算法。《統計學習方法》中有比較詳細的介紹。

一、決策樹的優點和缺點

??? 優點:

  • 決策樹算法中學習簡單的決策規則建立決策樹模型的過程非常容易理解,
  • 決策樹模型可以可視化,非常直觀
  • 應用范圍廣,可用于分類和回歸,而且非常容易做多類別的分類
  • 能夠處理數值型和連續的樣本特征
  • ??? 缺點:

  • 很容易在訓練數據中生成復雜的樹結構,造成過擬合(overfitting)。剪枝可以緩解過擬合的負作用,常用方法是限制樹的高度、葉子節點中的最少樣本數量。
  • 學習一棵最優的決策樹被認為是NP-Complete問題。實際中的決策樹是基于啟發式的貪心算法建立的,這種算法不能保證建立全局最優的決策樹。Random Forest 引入隨機能緩解這個問題
  • 要翻墻

    信息論基礎http://leijun00.github.io/2014/07/information-theory/

    ID3:

    根據信息增益(Information gain)來選取Feature作為決策樹分裂的節點

    實際上就是一個互信息I(D,A)

    C4.5

    信息增益計算的是子節點的純度,是用樣本的label值,而分裂信息用的是特征的純度(劃重點)。

    C5.0

    C5.0?是Ross Quinlan 1998年提出來的,對C4.5做了很多改進,目前他是作為商業機密在售賣.該算法引入了Boosting的算法框架,比前面提到的算法性能更快,對內存的使用更有效,決策樹更小等等.更詳細的請訪問他的個人主頁查閱文章http://www.rulequest.com/see5-unix.html和http://rulequest.com/download.html.

    CART

    CART(Classification and regression tree)是由L.Breiman,J.Friedman,R.OlshenC.Stone于1984年提出,是應用很廣泛的決策樹學習方法.

    cart是顆二叉樹

    看下算法的優點:

  • 沒有分布假設、沒有數據同質性(Homogeneity)要求
  • 觀測值屬性可以是分類、離散、連續的混合。
  • 對異常值(Outlier)值不敏感,異常值一般會被處理掉
  • 在面對缺失值、變量多等問題時,CART顯得給長穩健(ROBUST)
  • 缺點:

  • 非基于概率模型,很難對決策樹的結果的準確程度做度量
  • 分類樹

    回歸樹

    文中有一個簡單的例子,可以看一下加深印象

    每一次都對子樹重復這個操作,不過樣本集變成子樹的樣本集,特征集也變成子樹的特征集。一直到可以結束條件。

    CART為什么要用基尼系數

    • 一方面是便于計算,熵模型需要計算log等。
    • 最小化不純度而不是最大化信息增益。cart是一顆二叉樹,每一步通過判斷一個特征是與不是進行二分,慢慢提高子樹的純度。最大化信息增益是每一步消去一個特征使得信息增益最大,每一步做的太果斷了,不給后面留機會。就比如可能把人群分為青年,中年和老年,最大化信息增益可能在第一次分割的時候就直接把人群這個屬性給分掉了。而使用cart二分的話,可能第一步是判斷是不是老年,第二步可能去判斷性別了,第三步的特征才又回到是青年還是中年。留有一個余地。

    ?

    下一章會詳細講剪枝策略,預剪枝和后剪枝

    決策樹:http://leijun00.github.io/2014/09/decision-tree/

    ?

    總結

    以上是生活随笔為你收集整理的【机器学习】 ID3,C4.5,CART决策树的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。