日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

分类算法——决策树(1)

發布時間:2023/12/15 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 分类算法——决策树(1) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

決策樹歸納是從類標記的訓練元組學習決策樹。決策樹是一種類似于流程圖的結構,其中,每個內部節點(非樹葉節點)表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節點(或終節點)存放一個類標號。樹的最頂層節點是根節點,一顆典型的決策樹如下圖所示:

1 決策樹歸納

典型的算法有ID3 (迭代的二分器)、C4.5、 CART(分類與回歸樹),三種算法均采用貪心(即非回溯的)方法,其中決策樹以自頂向下遞歸的分支方式構造。

基本決策樹算法如下圖所示:

?

給定訓練集D,算法的計算復雜度為O(n×|D|×log(|D|)),其中n是描述D中元祖的屬性個數,|D|是D中訓練元組樹。

2??? 屬性選擇度量

決策樹算法之間的差別包括在創建樹時如何選擇屬性和用于剪枝的機制。屬性選擇度量是一種選擇分裂準則,將給定類標記的訓練元組的數據劃分D“最好”地分成個體類的啟發式方法。具有最好度量得分的屬性被選作給定元組的分類屬性。

設數據劃分D為類標記的元組的訓練集。假定類標號屬性具有m個不同值,定義m個不同的類Ci(i=1,2,…,m)。設Ci,D是D中Ci類的元組集合,|D|和|Ci,D|分別是D和CiD中元組個數。

1)信息增益

ID3使用信息增益作為屬性選擇度量。設節點N代表或存放劃分D的元組,選擇具有最高信息增益的屬性作為節點N的分裂屬性。

?

假設現在按屬性A劃分D中的元組,其中屬性A根據訓練數據的觀測具有V個不同的值{a1,a2,…,av}。如果A是離散值的,則這些值直接對應于A上測試的v個輸出。可以用屬性A將D劃分為v個子集{D1,D2,…,Dv},其中Dj包含D中的元組,它們在A上具有值aj,此時為了得到準確的分類,還需要的信息量為:

?

假定屬性A是連續值時,分裂點是A上的閾值。先將A的值按遞增排序,每對相鄰值的中點都看作是可能的分裂點。這樣,給定A的v個值,則需要計算v-1個可能的分裂。

(2)增益率

ID3的后繼C4.5使用信息增益率作為屬性選擇度量。分裂信息類似于Info(D),定義如下:

?

(3)Gini指標

Gini指標在CART中使用,Gini指標度量數據劃分或訓練元組集D的不純度,定義為:

?

基尼指數考慮每個屬性的二元劃分。如果A的二元劃分將D劃分為D1和D2,則給定該劃分,D的基尼指數為

?

對于每個屬性,考慮每種可能的二元劃分。對于離散值屬性,選擇該屬性產生最小基尼指數的子集作為它的分裂子集。對于離散屬性,其策略類似于信息增益。

對離散或連續屬性A的二元劃分導致的不純度降低為

?

最大化不純度降低(等價地,具有最小基尼指數)的屬性為分裂屬性。

3??? 樹剪枝

在決策樹創建時,由于數據中的噪聲和離群點,許多分枝反映的是訓練數據中的異常。剪枝方法處理這種過分擬合問題。常用的剪枝方法:先剪枝和后剪枝

?

總結

以上是生活随笔為你收集整理的分类算法——决策树(1)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。