唐宇迪学习笔记11:决策树算法
目錄
一、決策樹算法概述
1、樹模型
2、樹的組成
3、決策樹的訓練與測試
訓練階段
測試階段
二、熵的作用
1、如何切分特征(選擇節點)
問題
想象一下
目標
2、衡量標準-熵
熵
熵值公式
舉例
三、信息增益原理
1、熵值
2、信息增益
四、決策樹構造實例
1、實例
數據
特征
目標
2、決策樹構造
例子:基于天氣劃分
五、信息增益率與gini系數
決策樹算法
ID3
C4.5
CART
GINI系數
連續值
六、預剪枝方法
決策樹剪枝策略
為什么要剪枝
剪枝策略
預剪枝
七、后剪枝方法
八、回歸問題解決
一、決策樹算法概述
1、樹模型
決策樹:從根節點開始一步步走到葉子節點(決策)。所有的數據最終都會落到葉子節點,既可以做分類也可以做回歸。
2、樹的組成
根節點:第一個選擇點
非葉子節點與分支:中間過程
葉子節點:最終的決策結果
3、決策樹的訓練與測試
-
訓練階段
從給定的訓練集構造出來一棵樹(從跟節點開始選擇特征, 如何進行特征切分)。有數據想構建樹。
-
測試階段
根據構造出來的樹模型從上到下去走一遍就好了。有數據想得結果。
一旦構造好了決策樹,那么分類或者預測任務就很簡單了,只需要走一遍 就可以了,那么難點就在于如何構造出來一顆樹,這就沒那么容易了,需 要考慮的問題還有很多的!
二、熵的作用
1、如何切分特征(選擇節點)
-
問題
根節點的選擇該用哪個特征呢?接下來呢?如何切分呢?
-
想象一下
我們的目標應該是根節點就像一個老大似的能更好的切分數據 (分類的效果更好),根節點下面的節點自然就是二當家了。
-
目標
通過一種衡量標準,來計算通過不同特征進行分支選擇后的分類 情況,找出來最好的那個當成根節點,以此類推。
2、衡量標準-熵
-
熵
熵是表示隨機變量不確定性的度量 。(解釋:說白了就是物體內部的混亂程度,比如雜貨市場里面什么都有 那肯定混亂呀,專賣店里面只賣一個牌子的那就穩定多啦)
-
熵值公式
,?i=1,2, ... , n
-
舉例
A集合[1,1,1,1,1,1,1,1,2,2] B集合[1,2,3,4,5,6,7,8,9,1]
顯然A集合的熵值要低,因為A里面只有兩種類別,相對穩定一些。而B中類別太多了,熵值就會大很多。(在分類任務中我們希望通過節點分支后數據類別的熵值大還是小呢?)
三、信息增益原理
1、熵值
不確定性越大,得到的熵值也就越大。
當p=0或p=1時,H(p)=0,隨機變量完全沒有不確定性。
當p=0.5時,H(p)=1,此時隨機變量的不確定性最大。
2、信息增益
特征X使得類Y的不確定性減少的程度。 (分類后的專一性,希望分類后的結果是同類在一起)?
四、決策樹構造實例
1、實例
-
數據
14天打球情況
-
特征
4種環境變化
-
目標
構造決策樹,判斷當出現一種天氣的情況下,打不打球。
2、決策樹構造
劃分方式:4種
問題:誰當根節點呢?
依據:信息增益
例子:基于天氣劃分
- 在歷史數據中(14天)有9天打球,5天不打球,所以此時的熵應為:
- 4個特征逐一分析,先從outlook特征開始:
Outlook = sunny時,熵值為0.971
Outlook = overcast時,熵值為0
Outlook = rainy時,熵值為0.971
- 加權計算
根據數據統計,outlook取值分別為sunny,overcast,rainy的概率分別為:5/14, 4/14, 5/14
熵值計算:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693
(gain(temperature)=0.029 gain(humidity)=0.152 gain(windy)=0.048)
- 計算信息增益
信息增益:系統的熵值從原始的0.940下降到了0.693,增益為0.247。
同樣的方式可以計算出其他特征的信息增益,那么我們選擇最大的那個,相當于是遍歷了一遍特征,找出來了大當家,然后再其余中繼續通過信息增益找二當家!
(找:信息增益大,熵值小)
五、信息增益率與gini系數
決策樹算法
-
ID3
信息增益(有什么問題呢?)
問題:ID當做特征,熵值為0,不適合解決稀疏特征,種類非常多的。
-
C4.5
信息增益率(解決ID3問題,考慮自身熵)
-
CART
使用GINI系數來當做衡量標準
-
GINI系數
(和熵的衡量標準類似,計算方式不相同)
連續值
進行離散化。?
六、預剪枝方法
決策樹剪枝策略
-
為什么要剪枝
決策樹過擬合風險很大,理論上可以完全分得開數據 (想象一下,如果樹足夠龐大,每個葉子節點不就一個數據了嘛)
-
剪枝策略
(預剪枝,后減枝)
預剪枝
邊建立決策樹過程中進行剪枝的操作(更實用)。
限制深度,葉子節點個數。葉子節點樣本數,信息增益量等。
七、后剪枝方法
后剪枝:當建立完決策樹后來進行剪枝操作。
通過一定的衡量標準
?:損失
:gini系數
:葉子節點個數
(葉子節點越多,損失越大)
八、回歸問題解決
回歸問題將方差作為衡量(評估)標準。看標簽的平均方差。
分類問題將熵值作為衡量標準。
總結
以上是生活随笔為你收集整理的唐宇迪学习笔记11:决策树算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: lab 常用配置参数 代码片段
- 下一篇: [UE4]集合:TSet容器