日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

决策树和随机森林

發布時間:2025/4/5 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 决策树和随机森林 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

決策樹:

建立決策樹的關鍵,是在當前狀態下選擇那個屬性作為分類依據。根據不同的目標函數,建立決策樹主要有三個算法

ID3(Iterative Dichotomiser)

C4.5

CART(Classification And Regression Tree)

信息增益:當熵和條件熵中的概率由數據統計得到時,所對應的熵和條件熵分別稱為經驗熵和經驗條件熵

信息增益表示得知特征A 的信息而使類X的信息的不確定性減少的程度

定義:特征A對訓練數據集D的信息增益 g(D,A),定義為集合D的經驗熵H(D)與特征A給定條件下D的經驗條件熵H(D|A)之差,即:

g(D,A)=H(D)-H(D|A), 顯然,這即為訓練數據集D和特征A的互信息

樹模型特征選擇除了信息增益、信息增益率、基尼系數(分類)? ? ?mse(回歸)

先算根節點,算出每個特征的

例如:一個數據有4個屬性( f1/f2/f3/f4)

以 f1為例(f1樣本共有14條數據)

f1:? ? ? ? H(Y|f1) = ?

gain(Y,f1) = H(Y)-H(Y|f1)

? ? ? ? ? ? ?f1 = sunny(5)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Y? ? ? ? ?Yes? ? ? ? No

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? N? ? ? ? ? ? 2? ? ? ? ? 3

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?p? ? ? ? ? ?0.4? ? ? ?0.6

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 5/14 * H(Y|f1=sunny)=?

? ? ? ? ? ? ? f1 = overcast(4):

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?4/14*H(Y|f1=overcast)=?

? ? ? ? ? ? ? ?f1 = rainy(5)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?5/14*H(Y|f1=rainy)=?

f2:? ? ? ?H(Y|f2)=?

gain(Y,f2) = H(Y)-H(Y|f2)

f3:? ? ? ?H(Y|f3) = ?

gain(Y,f3) = H(Y)-H(Y|f3)

選擇信息增益最大的最為分類結點屬性 信息增益(ID3)

信息增息率

? ? ? ? ? ? ? ? ? ? ? Y|f1? ? ? ? Sunny? ? ? Overcast? ? Rainy

? ? ? ? ? ? ? ? ? ? ? ? N? ? ? ? ? ? ? 5? ? ? ? ? ? ? ? ? 4? ? ? ? ? ? ? ?4

? ? ? ? ? ? ? ? ? ? ? ? P? ? ? ? ? ? ? 5/14? ? ? ? ? ? ? 4/14? ? ? ? 4/14

f1信息熵?H(f1) =? 5/14 * log5 +....

信息增益率:gain(Y|f1)/H(f1)? ?(C4.5)

Gini系數:(CART)

? ? ? X? ? 1? ? ?2? ? ? ...........? ? k

? ? ? P? ? ?p1? ?p2? ? ........? ? ? pk

gini(p) = p1(1-p1) + p2(1-p2) +........pk(1-pk)

gini(Y)? ? ?根的基尼系數

gini(Y) - gini(Y|f1)? ?f1基尼系數

gini(Y) - gini(Y|f2)

gini(Y) - gini(Y|f3)

gini(Y) - gini(Y|f4)? ?...

選最大的作為分裂結點特征

防止過擬合

Set:? (x1,y1),(x2,y2).......(xn,yn)

Buffer(選擇有放回的抽樣 緩沖區):隨機選擇樣本(x5,y5),(x3,y3),(x10,y10)....

重復n次,得到決策樹DT1

再次重復這個過程得到DT2,DT3,DT4......得到隨機森林(分類結果:決策樹少數服從多數)

Isolation Forest 計算異常點數據

?

總結

以上是生活随笔為你收集整理的决策树和随机森林的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。