日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

唐宇迪学习笔记11:决策树算法

發布時間:2023/12/10 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 唐宇迪学习笔记11:决策树算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

一、決策樹算法概述

1、樹模型

2、樹的組成

3、決策樹的訓練與測試

訓練階段

測試階段

二、熵的作用

1、如何切分特征(選擇節點)

問題

想象一下

目標

2、衡量標準-熵

熵值公式

舉例

三、信息增益原理

1、熵值

2、信息增益

四、決策樹構造實例

1、實例

數據

特征

目標

2、決策樹構造

例子:基于天氣劃分

五、信息增益率與gini系數

決策樹算法

ID3

C4.5

CART

GINI系數

連續值

六、預剪枝方法

決策樹剪枝策略

為什么要剪枝

剪枝策略

預剪枝

七、后剪枝方法

八、回歸問題解決


一、決策樹算法概述

1、樹模型

決策樹:從根節點開始一步步走到葉子節點(決策)。所有的數據最終都會落到葉子節點,既可以做分類也可以做回歸。

2、樹的組成

根節點:第一個選擇點

非葉子節點與分支:中間過程

葉子節點:最終的決策結果

3、決策樹的訓練與測試

  • 訓練階段

從給定的訓練集構造出來一棵樹(從跟節點開始選擇特征, 如何進行特征切分)。有數據想構建樹。

  • 測試階段

根據構造出來的樹模型從上到下去走一遍就好了。有數據想得結果。

一旦構造好了決策樹,那么分類或者預測任務就很簡單了,只需要走一遍 就可以了,那么難點就在于如何構造出來一顆樹,這就沒那么容易了,需 要考慮的問題還有很多的!

二、熵的作用

1、如何切分特征(選擇節點)

  • 問題

根節點的選擇該用哪個特征呢?接下來呢?如何切分呢?

  • 想象一下

我們的目標應該是根節點就像一個老大似的能更好的切分數據 (分類的效果更好),根節點下面的節點自然就是二當家了。

  • 目標

通過一種衡量標準,來計算通過不同特征進行分支選擇后的分類 情況,找出來最好的那個當成根節點,以此類推。

2、衡量標準-熵

熵是表示隨機變量不確定性的度量 。(解釋:說白了就是物體內部的混亂程度,比如雜貨市場里面什么都有 那肯定混亂呀,專賣店里面只賣一個牌子的那就穩定多啦)

  • 熵值公式

,?i=1,2, ... , n

  • 舉例

A集合[1,1,1,1,1,1,1,1,2,2] B集合[1,2,3,4,5,6,7,8,9,1]

顯然A集合的熵值要低,因為A里面只有兩種類別,相對穩定一些。而B中類別太多了,熵值就會大很多。(在分類任務中我們希望通過節點分支后數據類別的熵值大還是小呢?)

三、信息增益原理

1、熵值

不確定性越大,得到的熵值也就越大。

當p=0或p=1時,H(p)=0,隨機變量完全沒有不確定性。

當p=0.5時,H(p)=1,此時隨機變量的不確定性最大。

2、信息增益

特征X使得類Y的不確定性減少的程度。 (分類后的專一性,希望分類后的結果是同類在一起)?

四、決策樹構造實例

1、實例

  • 數據

14天打球情況

  • 特征

4種環境變化

  • 目標

構造決策樹,判斷當出現一種天氣的情況下,打不打球。

2、決策樹構造

劃分方式:4種

問題:誰當根節點呢?

依據:信息增益

例子:基于天氣劃分

  • 在歷史數據中(14天)有9天打球,5天不打球,所以此時的熵應為:

  • 4個特征逐一分析,先從outlook特征開始:

Outlook = sunny時,熵值為0.971

Outlook = overcast時,熵值為0

Outlook = rainy時,熵值為0.971

  • 加權計算

根據數據統計,outlook取值分別為sunny,overcast,rainy的概率分別為:5/14, 4/14, 5/14

熵值計算:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693

(gain(temperature)=0.029 gain(humidity)=0.152 gain(windy)=0.048)

  • 計算信息增益

信息增益:系統的熵值從原始的0.940下降到了0.693,增益為0.247。

同樣的方式可以計算出其他特征的信息增益,那么我們選擇最大的那個,相當于是遍歷了一遍特征,找出來了大當家,然后再其余中繼續通過信息增益找二當家!

(找:信息增益大,熵值小)

五、信息增益率與gini系數

決策樹算法

  • ID3

信息增益(有什么問題呢?)

問題:ID當做特征,熵值為0,不適合解決稀疏特征,種類非常多的。

  • C4.5

信息增益(解決ID3問題,考慮自身熵)

  • CART

使用GINI系數來當做衡量標準

  • GINI系數

(和熵的衡量標準類似,計算方式不相同)

連續值

進行離散化。?

六、預剪枝方法

決策樹剪枝策略

  • 為什么要剪枝

決策樹過擬合風險很大,理論上可以完全分得開數據 (想象一下,如果樹足夠龐大,每個葉子節點不就一個數據了嘛)

  • 剪枝策略

(預剪枝,后減枝)

預剪枝

邊建立決策樹過程中進行剪枝的操作(更實用)。

限制深度,葉子節點個數。葉子節點樣本數,信息增益量等。

七、后剪枝方法

后剪枝:當建立完決策樹后來進行剪枝操作。

通過一定的衡量標準

?:損失

:gini系數

:葉子節點個數

(葉子節點越多,損失越大)

八、回歸問題解決

回歸問題將方差作為衡量(評估)標準。看標簽的平均方差。

分類問題將熵值作為衡量標準。

總結

以上是生活随笔為你收集整理的唐宇迪学习笔记11:决策树算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。