日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

决策树Decision Tree 和随机森林RandomForest基本概念(一)

發(fā)布時(shí)間:2024/3/24 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 决策树Decision Tree 和随机森林RandomForest基本概念(一) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • 一、決策樹介紹
    • 1.1 什么是決策樹
    • 1.2 決策樹種類
    • 1.3 決策樹學(xué)習(xí)過程
    • 1.4 Entropy(熵)
    • 1.5 information gain(信息增益)
    • 1.6 信息論
    • 1.8 Gini系數(shù)
    • 1.9 bagging method 和 random forests
    • 1.10 剪枝算法
    • 1.11 每個(gè)節(jié)點(diǎn)的位置如何確定?
    • 1.12 每個(gè)節(jié)點(diǎn)在哪個(gè)值上做劃分,確定分支結(jié)構(gòu)呢?
    • 1.13 信息增益 vs 信息增益比
    • 1.13 Gini 指數(shù) vs 熵
  • 二、決策樹算法
    • 2.0 決策樹算法Hunt
    • 2.1 ID3
    • 2.2 C4.5
    • 2.2 C5.0
    • 2.3 CART
    • 2.4 CART與ID3和C4.5的區(qū)別
    • 2.5 決策樹與這些算法框架進(jìn)行結(jié)合所得到的新的算法:
    • 2.6 ID3,C4.5決策樹的生成
  • 三、決策樹優(yōu)缺點(diǎn)
    • 3.1 優(yōu)點(diǎn)
    • 3.2 缺點(diǎn)
  • 四 隨機(jī)森林基礎(chǔ)概念
    • 4.1 隨機(jī)森林介紹
    • 4.2 隨機(jī)森林的生成過程
    • 4.3 隨機(jī)森林的評(píng)價(jià)指標(biāo)--袋外誤差(oob error)
    • 4.4 隨機(jī)森林的特點(diǎn)
  • 五、Bagging和Boosting的概念與區(qū)別
    • 5.1 Bagging算法(套袋法):
    • 5.2 Boosting(提升法)
    • 5.3 Bagging,Boosting的主要區(qū)別
  • 有趣的事,Python永遠(yuǎn)不會(huì)缺席
  • 證書說明

一、決策樹介紹

1.1 什么是決策樹

??類決策樹模型是一種描述對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu). 決策樹由結(jié)點(diǎn)和有向邊組成. 結(jié)點(diǎn)有兩種類型: 內(nèi)部結(jié)點(diǎn)和葉節(jié)點(diǎn). 內(nèi)部節(jié)點(diǎn)表示一個(gè)特征或?qū)傩? 葉節(jié)點(diǎn)表示一個(gè)類.
??決策樹(Decision Tree),又稱為判定樹, 是一種以樹結(jié)構(gòu)(包括二叉樹和多叉樹)形式表達(dá)的預(yù)測(cè)分析模型.

  • 通過把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例
  • 葉子節(jié)點(diǎn)為實(shí)例所屬的分類
  • 樹上每個(gè)節(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試, 節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值

1.2 決策樹種類

  • 分類樹–對(duì)離散變量做決策樹
  • 回歸樹–對(duì)連續(xù)變量做決策樹

1.3 決策樹學(xué)習(xí)過程

  • 特征選擇
  • 決策樹生成: 遞歸結(jié)構(gòu), 對(duì)應(yīng)于模型的局部最優(yōu)
  • 決策樹剪枝: 縮小樹結(jié)構(gòu)規(guī)模, 緩解過擬合, 對(duì)應(yīng)于模型的全局選擇

1.4 Entropy(熵)

??給定包含關(guān)于某個(gè)目標(biāo)概念的正反樣例的樣例集S, 那么S相對(duì)這個(gè)布爾型分類的熵為:

??在信息論里面,信息熵衡量信息量的大小,也就是對(duì)隨機(jī)變量不確定度的一個(gè)衡量。熵越大,不確定性越大;

1.5 information gain(信息增益)

??假設(shè)隨機(jī)變量(X,Y), 其聯(lián)合分布概率為P(X=xi,Y=yi)=Pij, i=1,2,…,n;j=1,2,…,m
??則條件熵H(Y|X)表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性, 其定義為X在給定條件下Y的條件概率分布的熵對(duì)X的數(shù)學(xué)期望

1.6 信息論

??若一事假有k種結(jié)果, 對(duì)應(yīng)概率為P_i, 則此事件發(fā)生后所得到的信息量I為:

1.8 Gini系數(shù)

??Gini系數(shù):

1.9 bagging method 和 random forests

??bagging method 和random forests 一般都是應(yīng)用在決策樹中。

  • bagging method 的思想: 假設(shè)一個(gè)數(shù)據(jù)集L,通過Boostrap(自助抽樣)有放回的抽樣n次,那么產(chǎn)生了n個(gè)樣本數(shù)據(jù)集,記為n個(gè)train集。
    1) 第一步:我們將這n個(gè)train集進(jìn)行訓(xùn)練,因此產(chǎn)生了n個(gè)基分類器,也可以說是n個(gè)決策樹
    2) 第二步:利用這n個(gè)基分類器對(duì)測(cè)試集進(jìn)行預(yù)測(cè),因此會(huì)得到n個(gè)結(jié)果。
    3) 第三步:采取多數(shù)投票(majorty vote):將n個(gè)預(yù)測(cè)的結(jié)果出現(xiàn)頻率最高的類作為總體預(yù)測(cè)。
  • random forests 我們稱為隨機(jī)森林,其實(shí)隨機(jī)森林是對(duì)裝袋法的一種改進(jìn),隨機(jī)森林也需要對(duì)自助抽樣訓(xùn)練集建立一系列的決策樹,這和決策樹類似。
    ??隨機(jī)森林在建立樹的時(shí)候,不和裝袋法一樣,裝袋法建樹的時(shí)候是將所有預(yù)測(cè)變量都考慮進(jìn)去,而隨機(jī)森林則是考慮每一個(gè)分裂點(diǎn)時(shí),都是從所有的預(yù)測(cè)變量p中隨機(jī)選取m個(gè)預(yù)測(cè)變量,分裂點(diǎn)所用的預(yù)測(cè)變量只能從這m個(gè)變量中選擇。在每個(gè)分裂點(diǎn)處都重新進(jìn)行抽樣,選出m個(gè)預(yù)測(cè)變量,通常m≈√p,對(duì)每一個(gè)分裂點(diǎn)來說,這個(gè)算法將大部分可用預(yù)測(cè)變量排除在外,雖然聽起來crazy,但是這個(gè)原理是很巧妙的。
    ??其實(shí)當(dāng)隨機(jī)森林中的m=p時(shí),隨機(jī)森林和裝袋法是一樣的。隨機(jī)森林考慮每個(gè)分裂點(diǎn)的子集相對(duì)來說比裝袋法少很多。這樣得到的樹的平均值有更小的方差,因而樹的可信度相對(duì)來說比較高。

1.10 剪枝算法

??決策樹算法很容易過擬合(overfitting),剪枝算法就是用來防止決策樹過擬合,提高泛華性能的方法。

??剪枝分為預(yù)剪枝與后剪枝

  • 預(yù)剪枝是指在決策樹的生成過程中,對(duì)每個(gè)節(jié)點(diǎn)在劃分前先進(jìn)行評(píng)估,若當(dāng)前的劃分不能帶來泛化性能的提升,則停止劃分,并將當(dāng)前節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)。
  • 后剪枝是指先從訓(xùn)練集生成一顆完整的決策樹,然后自底向上對(duì)非葉節(jié)點(diǎn)進(jìn)行考察,若將該節(jié)點(diǎn)對(duì)應(yīng)的子樹替換為葉節(jié)點(diǎn),能帶來泛化性能的提升,則將該子樹替換為葉節(jié)點(diǎn)。

??那么怎么來判斷是否帶來泛化性能的提升那?

  • 最簡單的就是留出法,即預(yù)留一部分?jǐn)?shù)據(jù)作為驗(yàn)證集來進(jìn)行性能評(píng)估。

1.11 每個(gè)節(jié)點(diǎn)的位置如何確定?

??特征的選擇:每次選入的特征作為分裂的標(biāo)準(zhǔn),都是使得決策樹在這個(gè)節(jié)點(diǎn)的根據(jù)你自己選擇的標(biāo)準(zhǔn)(信息熵最小、信息增益最大、gini系數(shù)最小).

1.12 每個(gè)節(jié)點(diǎn)在哪個(gè)值上做劃分,確定分支結(jié)構(gòu)呢?

??遍歷劃分的節(jié)點(diǎn)的分界值操作來解決這個(gè)問題

1.13 信息增益 vs 信息增益比

??之所以引入了信息增益比,是由于信息增益的一個(gè)缺點(diǎn)。那就是:信息增益總是偏向于選擇取值較多的屬性。信息增益比在此基礎(chǔ)上增加了一個(gè)罰項(xiàng),解決了這個(gè)問題。

1.13 Gini 指數(shù) vs 熵

??既然這兩個(gè)都可以表示數(shù)據(jù)的不確定性,不純度。那么這兩個(gè)有什么區(qū)別那?

  • Gini 指數(shù)的計(jì)算不需要對(duì)數(shù)運(yùn)算,更加高效;
  • Gini 指數(shù)更偏向于連續(xù)屬性熵更偏向于離散屬性

二、決策樹算法

??決策樹學(xué)習(xí)的算法通常是一個(gè)遞歸地選擇最優(yōu)特征, 并根據(jù)該特征對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分割, 使得各個(gè)子數(shù)據(jù)集有一個(gè)最好的分類的過程。

??在決策樹算法中,ID3基于信息增益作為屬性選擇的度量, C4.5基于信息增益作為屬性選擇的度量, C5.0 是決策樹C4.5的商用算法,在內(nèi)存管理等方面,給出了改進(jìn)。比如在商用軟件SPSS中,就有該算法,CART基于基尼指數(shù)作為屬性選擇的度量。

2.0 決策樹算法Hunt

??在Hunt算法中, 通過遞歸的方式建立決策樹.

  • 如果數(shù)據(jù)集D種所有的數(shù)據(jù)都屬于一個(gè)類, 那么將該節(jié)點(diǎn)標(biāo)記為節(jié)點(diǎn)
  • 如果數(shù)據(jù)集D中包含屬于多個(gè)類的訓(xùn)練數(shù)據(jù), 那么選擇一個(gè)屬性將訓(xùn)練數(shù)據(jù)劃分為較小的子集, 對(duì)于測(cè)試條件的每個(gè)輸出, 創(chuàng)建一個(gè)子節(jié)點(diǎn), 并根據(jù)測(cè)試結(jié)果將D種的記錄分布到子節(jié)點(diǎn)中, 然后對(duì)每一個(gè)子節(jié)點(diǎn)重復(fù)1,2過程, 對(duì)子節(jié)點(diǎn)的子節(jié)點(diǎn)依然是遞歸地調(diào)用該算法, 直至最后停止.

2.1 ID3

??ID3基于信息增益作為屬性選擇的度量,屬性只能是枚舉型的(離散的),當(dāng)然屬性值可以是連續(xù)的數(shù)值型,但是需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,變?yōu)殡x散型的。

??表示的是數(shù)據(jù)中包含的信息量大小。熵越小,數(shù)據(jù)的純度越高,也就是說數(shù)據(jù)越趨于一致,這是我們希望的劃分之后每個(gè)子節(jié)點(diǎn)的樣子。

??信息增益 = 劃分前熵 - 劃分后熵。信息增益越大,則意味著使用屬性 a 來進(jìn)行劃分所獲得的 “純度提升” 越大 。也就是說,用屬性 a 來劃分訓(xùn)練集,得到的結(jié)果中純度比較高。

??ID3 僅僅適用于二分類問題。ID3 僅僅能夠處理離散屬性。

ID3算法不足

  • 使用ID3算法構(gòu)建決策樹時(shí), 若出現(xiàn)各屬性值取值數(shù)分布偏差大的情況, 分類精度會(huì)大打折扣
  • ID3算法本身并未給出處理連續(xù)數(shù)據(jù)的方法
  • ID3算法不能處理帶有缺失值的數(shù)據(jù)集, 故在算法挖掘之前需要對(duì)數(shù)據(jù)集中的缺失值進(jìn)行預(yù)處理
  • ID3算法只有樹的生成, 所以該算法生成的樹容易產(chǎn)生過擬合

2.2 C4.5

??C4.5基于信息增益作為屬性選擇的度量,能夠處理屬性是連續(xù)型的。而且,在C4.5算法中,又提出了兩個(gè)新的概念:

  • 分離信息(Split Information)
  • 信息增益率(Information gain ratio)

??C4.5 克服了 ID3 僅僅能夠處理離散屬性的問題,以及信息增益偏向選擇取值較多特征的問題,使用信息增益比來選擇特征。信息增益比 = 信息增益 / 劃分前熵 ,選擇信息增益比最大的作為最優(yōu)特征。

??C4.5 處理連續(xù)特征是先將特征取值排序,以連續(xù)兩個(gè)值中間值作為劃分標(biāo)準(zhǔn)。嘗試每一種劃分,并計(jì)算修正后的信息增益,選擇信息增益最大的分裂點(diǎn)作為該屬性的分裂點(diǎn)。

2.2 C5.0

??C5.0 是決策樹C4.5的商用算法,在內(nèi)存管理等方面,給出了改進(jìn)。比如在商用軟件SPSS中,就有該算法。

2.3 CART

??注意: 上述三個(gè)算法只能做分類,不能做回歸,下一篇博文CART類似于C4.5,但可以做回歸。

??CART 的全稱是分類與回歸樹。從這個(gè)名字中就應(yīng)該知道,CART 既可以用于分類問題,也可以用于回歸問題。

??CART基于基尼指數(shù)作為屬性選擇的度量.
??CART 與 ID3,C4.5 不同之處在于 CART 生成的樹必須是二叉樹。也就是說,無論是回歸還是分類問題,無論特征是離散的還是連續(xù)的,無論屬性取值有多個(gè)還是兩個(gè),內(nèi)部節(jié)點(diǎn)只能根據(jù)屬性值進(jìn)行二分。

2.4 CART與ID3和C4.5的區(qū)別

  • CART樹是二叉樹,而ID3和C4.5可以是多叉樹
  • CART在生成子樹時(shí),選擇一個(gè)特征一個(gè)取值作為切分點(diǎn),生成兩個(gè)子樹
  • 選擇特征和切分點(diǎn)的依據(jù)是Gini指數(shù),選擇Gini指數(shù)最小的特征及切分點(diǎn)生成子樹

2.5 決策樹與這些算法框架進(jìn)行結(jié)合所得到的新的算法:

??Bagging + 決策樹=隨機(jī)森林
??Boosting + 決策樹=提升樹
??Gradient Boosting+決策樹=GBDT總結(jié)

2.6 ID3,C4.5決策樹的生成

??輸入:訓(xùn)練集D,特征集A,閾值eps 輸出:決策樹

??若D中所有樣本屬于同一類Ck,則T為單節(jié)點(diǎn)樹,將類Ck作為該節(jié)點(diǎn)的類標(biāo)記,返回T

??若A為空集,即沒有特征作為劃分依據(jù),則T為單節(jié)點(diǎn)樹,并將D中實(shí)例數(shù)最大的類Ck作為該節(jié)點(diǎn)的類標(biāo)記,返回T

??否則,計(jì)算A中各特征對(duì)D的信息增益(ID3)/信息增益比(C4.5),選擇信息增益最大的特征Ag

??若Ag的信息增益(比)小于閾值eps,則置T為單節(jié)點(diǎn)樹,并將D中實(shí)例數(shù)最大的類Ck作為該節(jié)點(diǎn)的類標(biāo)記,返回T

??否則,依照特征Ag將D劃分為若干非空子集Di,將Di中實(shí)例數(shù)最大的類作為標(biāo)記,構(gòu)建子節(jié)點(diǎn),由節(jié)點(diǎn)及其子節(jié)點(diǎn)構(gòu)成樹T,返回T

??對(duì)第i個(gè)子節(jié)點(diǎn),以Di為訓(xùn)練集,以A-{Ag}為特征集,遞歸地調(diào)用1~5,得到子樹Ti,返回Ti

三、決策樹優(yōu)缺點(diǎn)

3.1 優(yōu)點(diǎn)

(1) 速度快: 計(jì)算量相對(duì)較小, 且容易轉(zhuǎn)化成分類規(guī)則. 只要沿著樹根向下一直走到葉, 沿途的分裂條件就能夠唯一確定一條分類的謂詞.
(2) 準(zhǔn)確性高: 挖掘出來的分類規(guī)則準(zhǔn)確性高, 便于理解, 決策樹可以清晰的顯示哪些字段比較重要, 即可以生成可以理解的規(guī)則.
(3) 可以處理連續(xù)和種類字段
(4) 不需要任何領(lǐng)域知識(shí)和參數(shù)假設(shè)
(5) 適合高維數(shù)據(jù)

3.2 缺點(diǎn)

(1) 對(duì)于各類別樣本數(shù)量不一致的數(shù)據(jù), 信息增益偏向于那些更多數(shù)值的特征
(2) 容易過擬合
(3) 忽略屬性之間的相關(guān)性

四 隨機(jī)森林基礎(chǔ)概念

??

4.1 隨機(jī)森林介紹

??隨機(jī)森林就是通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法,它的基本單元是決策樹,而它的本質(zhì)屬于機(jī)器學(xué)習(xí)的一大分支–集成學(xué)習(xí)(Ensemble Learning)方法。

??從直觀角度來解釋,每棵樹都是一個(gè)分類器(假設(shè)現(xiàn)在為分類問題),那么對(duì)于一個(gè)輸入樣本,N棵樹會(huì)有N個(gè)分類結(jié)果。而隨機(jī)森林集成了所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出,這就是一種最簡單的Bagging思想。

4.2 隨機(jī)森林的生成過程

  • 從原始訓(xùn)練集中使用Bootstraping方法隨機(jī)有放回采用選出m個(gè)樣本,共進(jìn)行n_tree次采樣,生成n_tree個(gè)訓(xùn)練集
  • 對(duì)于n_tree個(gè)訓(xùn)練集,分別訓(xùn)練n_tree個(gè)決策樹模型
  • 對(duì)于單個(gè)決策樹模型,假設(shè)訓(xùn)練樣本特征的個(gè)數(shù)為n,那么每次分裂時(shí)根據(jù)信息增益/信息增益比/Gini指數(shù)選擇最好的特征進(jìn)行分裂
  • 每棵樹都一直這樣分裂下去,直到該節(jié)點(diǎn)的所有訓(xùn)練樣例都屬于同一類。在決策樹的分裂過程中不需要剪枝
  • 將生成的多棵決策樹組成隨機(jī)森林。對(duì)于分類問題,按多棵樹分類器投票決定最終分類結(jié)果;對(duì)于回歸問題,由多棵樹預(yù)測(cè)的均值決定最終預(yù)測(cè)結(jié)果。

4.3 隨機(jī)森林的評(píng)價(jià)指標(biāo)–袋外誤差(oob error)

??隨機(jī)森林的關(guān)鍵問題是如何選擇最優(yōu)的m(特征個(gè)數(shù)),要解決這個(gè)問題主要依據(jù)袋外誤差率oob error(out-of-bag error)

??隨機(jī)森林一個(gè)重要的優(yōu)點(diǎn)是,沒有必要進(jìn)行交叉驗(yàn)證或者用一個(gè)獨(dú)立的測(cè)試集來獲得誤差的一個(gè)無偏估計(jì)。它可以在內(nèi)部進(jìn)行評(píng)估,也就是說在生成的過程中就可以對(duì)誤差建立一個(gè)無偏估計(jì)

??在構(gòu)建每棵樹時(shí),對(duì)訓(xùn)練集使用了不同的bootstrap sample(隨機(jī)有放回的抽取)。所以對(duì)每棵樹而言(假設(shè)對(duì)第K棵樹),大約有1/3的訓(xùn)練實(shí)例沒有參與第K棵樹的生成,它們成為第K棵樹的oob樣本。

oob估計(jì)的計(jì)算方法如下

  • 對(duì)每個(gè)樣本,計(jì)算它作為oob樣本的樹對(duì)它的分類情況(約1/3的樹)
  • 然后以簡單多數(shù)投票作為該樣本的分類結(jié)果
  • 最后用誤分個(gè)數(shù)占樣本總數(shù)的比率作為隨機(jī)森林的oob誤分率。

注意:oob誤分率是隨機(jī)森林泛化誤差的一個(gè)無偏估計(jì),它的結(jié)構(gòu)近似于需要大量計(jì)算的k折交叉驗(yàn)證。

4.4 隨機(jī)森林的特點(diǎn)

優(yōu)點(diǎn)

  • 在當(dāng)前所有算法中,具有極高的準(zhǔn)確率
  • 隨機(jī)性的引入,使得隨機(jī)森林不容易過擬合
  • 隨機(jī)性的引入,使得隨機(jī)森林有很好的抗噪聲能力
  • 能夠有效的運(yùn)行在大數(shù)據(jù)集上
    -能夠評(píng)估各個(gè)特征在分類問題上的重要性
  • 能夠處理具有高維特征的輸入樣本,而不需要降維,并且不用做特征選擇
  • 既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無需規(guī)范化
  • 訓(xùn)練速度快,可以得到變量重要性排序
  • 容易實(shí)現(xiàn)并行化
  • 在生成過程中,能夠獲取到內(nèi)部生成誤差的一種無偏估計(jì)
  • 對(duì)于缺省值問題也能夠獲得很好的結(jié)果

缺點(diǎn)

  • 當(dāng)隨機(jī)森林中的決策樹個(gè)數(shù)很多時(shí),訓(xùn)練需要的空間和時(shí)間會(huì)較大
  • 隨機(jī)森林模型有許多不好解釋的地方,算個(gè)黑盒模型

五、Bagging和Boosting的概念與區(qū)別

??隨機(jī)森林屬于集成學(xué)習(xí)(Ensemble Learning)中的bagging算法。在集成學(xué)習(xí)中,主要分為bagging算法和boosting算法。

5.1 Bagging算法(套袋法):

Bagging的算法過程如下

??從原始樣本集中使用Bootstrap方法隨機(jī)抽取n個(gè)訓(xùn)練樣本,共進(jìn)行k輪抽取,得到k個(gè)訓(xùn)練集。(k個(gè)訓(xùn)練集之間相互獨(dú)立,元素可以有重復(fù))
??對(duì)于k個(gè)訓(xùn)練集,我們訓(xùn)練k個(gè)模型(這個(gè)k個(gè)模型可以選擇決策樹,knn等)
??對(duì)于分類問題:由投票表決產(chǎn)生分類結(jié)構(gòu);對(duì)于回歸問題:有k個(gè)模型預(yù)測(cè)結(jié)果的均值作為最后預(yù)測(cè)結(jié)構(gòu)(所有模型的重要性相同)

5.2 Boosting(提升法)

boosting的算法過程如下

??對(duì)于訓(xùn)練集的每個(gè)樣本建立權(quán)值wi,增大被誤分類的樣本的權(quán)值
??進(jìn)行迭代的過程中,每一步迭代都是一個(gè)弱分類器,需要用某種策略將其組合,作為最終模型。(例如AdaBoost給每個(gè)弱分類器一個(gè)權(quán)值,將其線性組合為最終分類器。誤差越小的弱分類器,權(quán)值越大)

5.3 Bagging,Boosting的主要區(qū)別

  • 樣本選擇上:Bagging采用的是Bootstrap隨機(jī)有放回抽樣;而Boosting每一輪的訓(xùn)練集是不變的,改變的只是每一個(gè)樣本的權(quán)重。
  • 樣本權(quán)重:Bagging使用的是均勻取樣,每個(gè)樣本權(quán)重相等;Boosting根據(jù)錯(cuò)誤率調(diào)整樣本權(quán)重,錯(cuò)誤率越大的樣本權(quán)重越大。
  • 預(yù)測(cè)函數(shù):Bagging所有的預(yù)測(cè)函數(shù)的權(quán)重相等;Boosting中誤差越小的預(yù)測(cè)函數(shù)(分類器)權(quán)重越大
  • 并行計(jì)算:Bagging各個(gè)預(yù)測(cè)函數(shù)可以并行生成;Boosting各個(gè)預(yù)測(cè)函數(shù)(分類器)必須按照順序迭代生成,就是不能并行計(jì)算
''' 【干貨來了|小麥苗IT資料分享】 ★小麥苗DB職場干貨:https://mp.weixin.qq.com/s/Vm5PqNcDcITkOr9cQg6T7w ★小麥苗數(shù)據(jù)庫健康檢查:https://share.weiyun.com/5lb2U2M ★小麥苗微店:https://weidian.com/s/793741433?wfr=c&ifr=shopdetail ★各種操作系統(tǒng)下的數(shù)據(jù)庫安裝文件(Linux、Windows、AIX等):鏈接:https://pan.baidu.com/s/19yJdUQhGz2hTgozb9ATdAw 提取碼:4xpv ★小麥苗分享的資料:https://share.weiyun.com/57HUxNi ★小麥苗課堂資料:https://share.weiyun.com/5fAdN5m ★小麥苗課堂試聽資料:https://share.weiyun.com/5HnQEuL ★小麥苗出版的相關(guān)書籍:https://share.weiyun.com/5sQBQpY ★小麥苗博客文章:https://share.weiyun.com/5ufi4Dx ★數(shù)據(jù)庫系列(Oracle、MySQL、NoSQL):https://share.weiyun.com/5n1u8gv ★公開課錄像文件:https://share.weiyun.com/5yd7ukG ★其它常用軟件分享:https://share.weiyun.com/53BlaHX ★其它IT資料(OS、網(wǎng)絡(luò)、存儲(chǔ)等):https://share.weiyun.com/5Mn6ESi ★Python資料:https://share.weiyun.com/5iuQ2Fn ★已安裝配置好的虛擬機(jī):https://share.weiyun.com/5E8pxvT ★小麥苗騰訊課堂:https://lhr.ke.qq.com/ ★小麥苗博客:http://blog.itpub.net/26736162/ ''' ''' 有趣的事,Python永遠(yuǎn)不會(huì)缺席 歡迎關(guān)注小婷兒的博客文章內(nèi)容來源于小婷兒的學(xué)習(xí)筆記,部分整理自網(wǎng)絡(luò),若有侵權(quán)或不當(dāng)之處還請(qǐng)諒解如需轉(zhuǎn)發(fā),請(qǐng)注明出處:小婷兒的博客python https://blog.csdn.net/u010986753博客園 https://www.cnblogs.com/xxtalhr/CSDN https://blog.csdn.net/u010986753有問題請(qǐng)?jiān)诓┛拖铝粞曰蚣幼髡?#xff1a;微信:tinghai87605025 聯(lián)系我加微信群QQ :87605025python QQ交流群:py_data 483766429培訓(xùn)說明 OCP培訓(xùn)說明連接 https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuAOCM培訓(xùn)說明連接 https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA小婷兒的python正在成長中,其中還有很多不足之處,隨著學(xué)習(xí)和工作的深入,會(huì)對(duì)以往的博客內(nèi)容逐步改進(jìn)和完善噠。重要的事多說幾遍。。。。。。 '''

有趣的事,Python永遠(yuǎn)不會(huì)缺席

歡迎關(guān)注小婷兒的博客

??文章內(nèi)容來源于小婷兒的學(xué)習(xí)筆記,部分整理自網(wǎng)絡(luò),若有侵權(quán)或不當(dāng)之處還請(qǐng)諒解!!!

??如需轉(zhuǎn)發(fā),請(qǐng)注明出處:小婷兒的博客python????https://blog.csdn.net/u010986753

??CSDN https://blog.csdn.net/u010986753

??博客園 https://www.cnblogs.com/xxtalhr/

有問題請(qǐng)?jiān)诓┛拖铝粞曰蚣幼髡?#xff1a;
??微信:tinghai87605025 聯(lián)系我加微信群
??QQ :87605025
??QQ交流群:py_data 483766429
??公眾號(hào):DB寶

證書說明

??OCP證書說明連接 https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

??OCM證書說明連接 https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

?? 小婷兒的python正在成長中,其中還有很多不足之處,隨著學(xué)習(xí)和工作的深入,會(huì)對(duì)以往的博客內(nèi)容逐步改進(jìn)和完善噠。重要的事多說幾遍。。。。。。

總結(jié)

以上是生活随笔為你收集整理的决策树Decision Tree 和随机森林RandomForest基本概念(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。