机器学习笔记(七)——决策树模型
引言
決策樹(Decision Tree)是一種基本的分類和回歸方法。它的擴展方法有GBDT和GBRT 等。決策樹模型的學習過程主要有特征選擇、決策樹生成和剪枝。主要算法有ID3、C4.5和CART等。
一、決策樹模型
決策樹首先是一個樹形結構,它包括兩種類型的節點:內部節點和葉節點。內部節點是屬性,葉節點是具體的分類。當決策樹根據一些學習方法建立好之后,就可以進行實例的預測了,首先從根節點開始,對應決策樹的屬性進行實例的劃分,直至葉節點,那么這個實例的類就被分出來了。一個簡單的決策樹模型如下圖所示:
其實,可以將決策樹看成是IF-THEN 規則的集合。決策樹還表示給定特征條件下類的條件概率分布。
二、決策樹的學習
給定一個數據集合D,每一個實例都有特征和類標簽。要生成一顆決策樹,使得它能對數據集合D有很好的擬合,同時還要求對未知數據可以進行預測。決策樹的學習同樣是最小化損失函數。損失函數是正則化的極大似然估計。
決策樹的構造如下:
1. 開始構造根節點,將所有數據都放入根節點
2. 選擇一個最有特征,按照這一特征將訓練數據分割成子集,使得各個子集在當前條件下有一個是最好的分類,如果這些子集都能被正確分類,那么構造葉節點,否則,重復步驟2。直到所有的訓練數據都被正確分類,或者沒有合適的特征。
這就生成了一棵決策樹。上述方法構造的決策樹對訓練數據集有著很好的擬合,但是對于未知數據的預測卻不一定有很好的分類能力,即上述過程可能導致過擬合的問題。解決這一問題的方法是對決策樹進行剪枝。另外,如果特征過多,在決策樹開始建立之前就可以對特征進行選擇。
下邊的內容會圍繞決策樹學習的一些算法展開討論。
總結
以上是生活随笔為你收集整理的机器学习笔记(七)——决策树模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STM32开发 -- 低功耗模式详解(2
- 下一篇: STM32开发 -- 低功耗模式详解(3