當前位置:
首頁 >
二叉树剪枝_决策树,生成剪枝,CART算法
發布時間:2025/3/21
39
豆豆
生活随笔
收集整理的這篇文章主要介紹了
二叉树剪枝_决策树,生成剪枝,CART算法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
決策樹
1.
原理
1.1
模型簡介
決策樹是一種基本的回歸和分類算法。在分類問題中,可以認為是一系列
if-then
規則的幾何。決策樹學通常包括三個步驟:特征選擇,決策樹的生成,
決策樹的修剪。
定義:決策樹由結點和有向邊組成,內部節點表示一個特征和屬性,葉子
結點表示一個類。
性質:決策樹路徑(或者對應的
if-then
規則)具有互斥且完備性:每一個
實例都被一條路徑或規則所覆蓋,而且只被這條路徑或規則所覆蓋。
決策樹學習:能夠正確對數據集進行分類的決策樹可能有多個,也可能一
個也沒有,我們的目的是找到一個與訓練數據集矛盾較小的,同時具有很好泛
化能力的決策樹。
特征選擇:一種是在決策樹學習開始的時候,對特征進行選擇,只留下對
訓練數據有足夠分類能力的特征,一種是在學習過程中對訓練數據分割成自己
的時候,選擇最優的特征進行分割。
決策樹生成:一般這是一個遞歸的規程。
決策樹的剪枝:提高決策樹的泛化能力。
1.2
特征選擇
特征選擇的準則一般是:信息增益和信息增益比
1.2.1
信息增益
a.
信息增益:
信息增益大的特征具有更強的分類能力,
即選擇信息增益值大的特
征作為最優特征。
b.
信息熵:表示變量的不確定性(在得知特征
X
的信息時,使得
Y
的信息不確
定性減少的程度)
,熵越大,變量的不確定性越大。設
X
是一個取有限值的離散型
隨機變量,其概率分布為:
(
)
i
i
p
X
x
p
?
?
則隨機變量
X
的熵定義為:
總結
以上是生活随笔為你收集整理的二叉树剪枝_决策树,生成剪枝,CART算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sequelize 连接2个数据库_数据
- 下一篇: 关于不过洋节的通知_迁安各商家从今往后不