當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

唐宇迪学习笔记11：决策树算法

發布時間：2023/12/10 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了唐宇迪学习笔记11：决策树算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、決策樹算法概述

1、樹模型

2、樹的組成

3、決策樹的訓練與測試

訓練階段

測試階段

二、熵的作用

1、如何切分特征(選擇節點)

問題

想象一下

目標

2、衡量標準-熵

熵

熵值公式

舉例

三、信息增益原理

1、熵值

2、信息增益

四、決策樹構造實例

1、實例

數據

特征

目標

2、決策樹構造

例子：基于天氣劃分

五、信息增益率與gini系數

決策樹算法

ID3

C4.5

CART

GINI系數

連續值

六、預剪枝方法

決策樹剪枝策略

為什么要剪枝

剪枝策略

預剪枝

七、后剪枝方法

八、回歸問題解決

一、決策樹算法概述

1、樹模型

決策樹：從根節點開始一步步走到葉子節點(決策)。所有的數據最終都會落到葉子節點，既可以做分類也可以做回歸。

2、樹的組成

根節點:第一個選擇點

非葉子節點與分支:中間過程

葉子節點:最終的決策結果

3、決策樹的訓練與測試

訓練階段

從給定的訓練集構造出來一棵樹(從跟節點開始選擇特征，如何進行特征切分)。有數據想構建樹。

測試階段

根據構造出來的樹模型從上到下去走一遍就好了。有數據想得結果。

一旦構造好了決策樹，那么分類或者預測任務就很簡單了，只需要走一遍就可以了，那么難點就在于如何構造出來一顆樹，這就沒那么容易了，需要考慮的問題還有很多的!

二、熵的作用

1、如何切分特征(選擇節點)

問題

根節點的選擇該用哪個特征呢?接下來呢?如何切分呢?

想象一下

我們的目標應該是根節點就像一個老大似的能更好的切分數據 (分類的效果更好)，根節點下面的節點自然就是二當家了。

目標

通過一種衡量標準，來計算通過不同特征進行分支選擇后的分類情況，找出來最好的那個當成根節點，以此類推。

2、衡量標準-熵

熵是表示隨機變量不確定性的度量。(解釋:說白了就是物體內部的混亂程度，比如雜貨市場里面什么都有那肯定混亂呀，專賣店里面只賣一個牌子的那就穩定多啦)

熵值公式

，?i=1,2, ... , n

舉例

A集合[1,1,1,1,1,1,1,1,2,2] B集合[1,2,3,4,5,6,7,8,9,1]

顯然A集合的熵值要低，因為A里面只有兩種類別，相對穩定一些。而B中類別太多了，熵值就會大很多。(在分類任務中我們希望通過節點分支后數據類別的熵值大還是小呢?)

三、信息增益原理

1、熵值

不確定性越大，得到的熵值也就越大。

當p=0或p=1時，H(p)=0,隨機變量完全沒有不確定性。

當p=0.5時，H(p)=1,此時隨機變量的不確定性最大。

2、信息增益

特征X使得類Y的不確定性減少的程度。 (分類后的專一性，希望分類后的結果是同類在一起)?

四、決策樹構造實例

1、實例

數據

14天打球情況

特征

4種環境變化

目標

構造決策樹，判斷當出現一種天氣的情況下，打不打球。

2、決策樹構造

劃分方式：4種

問題：誰當根節點呢?

依據：信息增益

例子：基于天氣劃分

在歷史數據中(14天)有9天打球，5天不打球，所以此時的熵應為:

4個特征逐一分析，先從outlook特征開始:

Outlook = sunny時，熵值為0.971

Outlook = overcast時，熵值為0

Outlook = rainy時，熵值為0.971

加權計算

根據數據統計，outlook取值分別為sunny,overcast,rainy的概率分別為：5/14, 4/14, 5/14

熵值計算：5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693

(gain(temperature)=0.029 gain(humidity)=0.152 gain(windy)=0.048)

計算信息增益

信息增益：系統的熵值從原始的0.940下降到了0.693，增益為0.247。

同樣的方式可以計算出其他特征的信息增益，那么我們選擇最大的那個，相當于是遍歷了一遍特征，找出來了大當家，然后再其余中繼續通過信息增益找二當家!

（找：信息增益大，熵值小）

五、信息增益率與gini系數

決策樹算法

信息增益(有什么問題呢?)

問題：ID當做特征，熵值為0，不適合解決稀疏特征，種類非常多的。

C4.5

信息增益率(解決ID3問題，考慮自身熵)

CART

使用GINI系數來當做衡量標準

GINI系數

(和熵的衡量標準類似，計算方式不相同)

連續值

進行離散化。?

六、預剪枝方法

決策樹剪枝策略

為什么要剪枝

決策樹過擬合風險很大，理論上可以完全分得開數據 (想象一下，如果樹足夠龐大，每個葉子節點不就一個數據了嘛)

剪枝策略

（預剪枝，后減枝）

預剪枝

邊建立決策樹過程中進行剪枝的操作(更實用)。

限制深度，葉子節點個數。葉子節點樣本數，信息增益量等。

七、后剪枝方法

后剪枝：當建立完決策樹后來進行剪枝操作。

通過一定的衡量標準

?：損失

：gini系數

：葉子節點個數

(葉子節點越多，損失越大)

八、回歸問題解決

回歸問題將方差作為衡量（評估）標準。看標簽的平均方差。

分類問題將熵值作為衡量標準。

總結

以上是生活随笔為你收集整理的唐宇迪学习笔记11：决策树算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。