當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

决策树Decision Tree 和随机森林RandomForest基本概念（一）

發(fā)布時(shí)間：2024/3/24 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了决策树Decision Tree 和随机森林RandomForest基本概念（一）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

一、決策樹介紹
- 1.1 什么是決策樹
- 1.2 決策樹種類
- 1.3 決策樹學(xué)習(xí)過程
- 1.4 Entropy(熵)
- 1.5 information gain（信息增益）
- 1.6 信息論
- 1.8 Gini系數(shù)
- 1.9 bagging method 和 random forests
- 1.10 剪枝算法
- 1.11 每個(gè)節(jié)點(diǎn)的位置如何確定？
- 1.12 每個(gè)節(jié)點(diǎn)在哪個(gè)值上做劃分，確定分支結(jié)構(gòu)呢？
- 1.13 信息增益 vs 信息增益比
- 1.13 Gini 指數(shù) vs 熵
二、決策樹算法
- 2.0 決策樹算法Hunt
- 2.1 ID3
- 2.2 C4.5
- 2.2 C5.0
- 2.3 CART
- 2.4 CART與ID3和C4.5的區(qū)別
- 2.5 決策樹與這些算法框架進(jìn)行結(jié)合所得到的新的算法：
- 2.6 ID3,C4.5決策樹的生成
三、決策樹優(yōu)缺點(diǎn)
- 3.1 優(yōu)點(diǎn)
- 3.2 缺點(diǎn)
四隨機(jī)森林基礎(chǔ)概念
- 4.1 隨機(jī)森林介紹
- 4.2 隨機(jī)森林的生成過程
- 4.3 隨機(jī)森林的評(píng)價(jià)指標(biāo)--袋外誤差（oob error）
- 4.4 隨機(jī)森林的特點(diǎn)
五、Bagging和Boosting的概念與區(qū)別
- 5.1 Bagging算法（套袋法）：
- 5.2 Boosting（提升法）
- 5.3 Bagging，Boosting的主要區(qū)別
有趣的事，Python永遠(yuǎn)不會(huì)缺席
證書說明

一、決策樹介紹

1.1 什么是決策樹

??類決策樹模型是一種描述對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu). 決策樹由結(jié)點(diǎn)和有向邊組成. 結(jié)點(diǎn)有兩種類型: 內(nèi)部結(jié)點(diǎn)和葉節(jié)點(diǎn). 內(nèi)部節(jié)點(diǎn)表示一個(gè)特征或?qū)傩? 葉節(jié)點(diǎn)表示一個(gè)類.
??決策樹(Decision Tree),又稱為判定樹, 是一種以樹結(jié)構(gòu)(包括二叉樹和多叉樹)形式表達(dá)的預(yù)測(cè)分析模型.

通過把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例
葉子節(jié)點(diǎn)為實(shí)例所屬的分類
樹上每個(gè)節(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試, 節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值

1.2 決策樹種類

分類樹–對(duì)離散變量做決策樹
回歸樹–對(duì)連續(xù)變量做決策樹

1.3 決策樹學(xué)習(xí)過程

特征選擇
決策樹生成: 遞歸結(jié)構(gòu), 對(duì)應(yīng)于模型的局部最優(yōu)
決策樹剪枝: 縮小樹結(jié)構(gòu)規(guī)模, 緩解過擬合, 對(duì)應(yīng)于模型的全局選擇

1.4 Entropy(熵)

??給定包含關(guān)于某個(gè)目標(biāo)概念的正反樣例的樣例集S, 那么S相對(duì)這個(gè)布爾型分類的熵為:

??在信息論里面，信息熵衡量信息量的大小，也就是對(duì)隨機(jī)變量不確定度的一個(gè)衡量。熵越大，不確定性越大；

1.5 information gain（信息增益）

??假設(shè)隨機(jī)變量(X,Y), 其聯(lián)合分布概率為P(X=xi,Y=yi)=Pij, i=1,2,…,n;j=1,2,…,m
??則條件熵H(Y|X)表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性, 其定義為X在給定條件下Y的條件概率分布的熵對(duì)X的數(shù)學(xué)期望

1.6 信息論

??若一事假有k種結(jié)果, 對(duì)應(yīng)概率為P_i, 則此事件發(fā)生后所得到的信息量I為:

1.8 Gini系數(shù)

??Gini系數(shù)：

1.9 bagging method 和 random forests

??bagging method 和random forests 一般都是應(yīng)用在決策樹中。

bagging method 的思想：假設(shè)一個(gè)數(shù)據(jù)集L，通過Boostrap(自助抽樣)有放回的抽樣n次，那么產(chǎn)生了n個(gè)樣本數(shù)據(jù)集，記為n個(gè)train集。
1）第一步：我們將這n個(gè)train集進(jìn)行訓(xùn)練，因此產(chǎn)生了n個(gè)基分類器，也可以說是n個(gè)決策樹
2）第二步：利用這n個(gè)基分類器對(duì)測(cè)試集進(jìn)行預(yù)測(cè)，因此會(huì)得到n個(gè)結(jié)果。
3）第三步：采取多數(shù)投票（majorty vote）:將n個(gè)預(yù)測(cè)的結(jié)果出現(xiàn)頻率最高的類作為總體預(yù)測(cè)。
random forests 我們稱為隨機(jī)森林，其實(shí)隨機(jī)森林是對(duì)裝袋法的一種改進(jìn)，隨機(jī)森林也需要對(duì)自助抽樣訓(xùn)練集建立一系列的決策樹，這和決策樹類似。
??隨機(jī)森林在建立樹的時(shí)候，不和裝袋法一樣，裝袋法建樹的時(shí)候是將所有預(yù)測(cè)變量都考慮進(jìn)去，而隨機(jī)森林則是考慮每一個(gè)分裂點(diǎn)時(shí)，都是從所有的預(yù)測(cè)變量p中隨機(jī)選取m個(gè)預(yù)測(cè)變量，分裂點(diǎn)所用的預(yù)測(cè)變量只能從這m個(gè)變量中選擇。在每個(gè)分裂點(diǎn)處都重新進(jìn)行抽樣，選出m個(gè)預(yù)測(cè)變量，通常m≈√p，對(duì)每一個(gè)分裂點(diǎn)來說，這個(gè)算法將大部分可用預(yù)測(cè)變量排除在外，雖然聽起來crazy,但是這個(gè)原理是很巧妙的。
??其實(shí)當(dāng)隨機(jī)森林中的m=p時(shí)，隨機(jī)森林和裝袋法是一樣的。隨機(jī)森林考慮每個(gè)分裂點(diǎn)的子集相對(duì)來說比裝袋法少很多。這樣得到的樹的平均值有更小的方差，因而樹的可信度相對(duì)來說比較高。

1.10 剪枝算法

??決策樹算法很容易過擬合（overfitting），剪枝算法就是用來防止決策樹過擬合，提高泛華性能的方法。

??剪枝分為預(yù)剪枝與后剪枝

預(yù)剪枝是指在決策樹的生成過程中，對(duì)每個(gè)節(jié)點(diǎn)在劃分前先進(jìn)行評(píng)估，若當(dāng)前的劃分不能帶來泛化性能的提升，則停止劃分，并將當(dāng)前節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)。
后剪枝是指先從訓(xùn)練集生成一顆完整的決策樹，然后自底向上對(duì)非葉節(jié)點(diǎn)進(jìn)行考察，若將該節(jié)點(diǎn)對(duì)應(yīng)的子樹替換為葉節(jié)點(diǎn)，能帶來泛化性能的提升，則將該子樹替換為葉節(jié)點(diǎn)。

??那么怎么來判斷是否帶來泛化性能的提升那？

最簡單的就是留出法，即預(yù)留一部分?jǐn)?shù)據(jù)作為驗(yàn)證集來進(jìn)行性能評(píng)估。

1.11 每個(gè)節(jié)點(diǎn)的位置如何確定？

??特征的選擇：每次選入的特征作為分裂的標(biāo)準(zhǔn)，都是使得決策樹在這個(gè)節(jié)點(diǎn)的根據(jù)你自己選擇的標(biāo)準(zhǔn)（信息熵最小、信息增益最大、gini系數(shù)最小）.

1.12 每個(gè)節(jié)點(diǎn)在哪個(gè)值上做劃分，確定分支結(jié)構(gòu)呢？

??遍歷劃分的節(jié)點(diǎn)的分界值操作來解決這個(gè)問題

1.13 信息增益 vs 信息增益比

??之所以引入了信息增益比，是由于信息增益的一個(gè)缺點(diǎn)。那就是：信息增益總是偏向于選擇取值較多的屬性。信息增益比在此基礎(chǔ)上增加了一個(gè)罰項(xiàng)，解決了這個(gè)問題。

1.13 Gini 指數(shù) vs 熵

??既然這兩個(gè)都可以表示數(shù)據(jù)的不確定性，不純度。那么這兩個(gè)有什么區(qū)別那？

Gini 指數(shù)的計(jì)算不需要對(duì)數(shù)運(yùn)算，更加高效；
Gini 指數(shù)更偏向于連續(xù)屬性，熵更偏向于離散屬性。

二、決策樹算法

??決策樹學(xué)習(xí)的算法通常是一個(gè)遞歸地選擇最優(yōu)特征, 并根據(jù)該特征對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分割, 使得各個(gè)子數(shù)據(jù)集有一個(gè)最好的分類的過程。

??在決策樹算法中,ID3基于信息增益作為屬性選擇的度量, C4.5基于信息增益作為屬性選擇的度量, C5.0 是決策樹C4.5的商用算法，在內(nèi)存管理等方面，給出了改進(jìn)。比如在商用軟件SPSS中，就有該算法，CART基于基尼指數(shù)作為屬性選擇的度量。

2.0 決策樹算法Hunt

??在Hunt算法中, 通過遞歸的方式建立決策樹.

如果數(shù)據(jù)集D種所有的數(shù)據(jù)都屬于一個(gè)類, 那么將該節(jié)點(diǎn)標(biāo)記為節(jié)點(diǎn)。
如果數(shù)據(jù)集D中包含屬于多個(gè)類的訓(xùn)練數(shù)據(jù), 那么選擇一個(gè)屬性將訓(xùn)練數(shù)據(jù)劃分為較小的子集, 對(duì)于測(cè)試條件的每個(gè)輸出, 創(chuàng)建一個(gè)子節(jié)點(diǎn), 并根據(jù)測(cè)試結(jié)果將D種的記錄分布到子節(jié)點(diǎn)中, 然后對(duì)每一個(gè)子節(jié)點(diǎn)重復(fù)1,2過程, 對(duì)子節(jié)點(diǎn)的子節(jié)點(diǎn)依然是遞歸地調(diào)用該算法, 直至最后停止.

2.1 ID3

??ID3基于信息增益作為屬性選擇的度量，屬性只能是枚舉型的（離散的）,當(dāng)然屬性值可以是連續(xù)的數(shù)值型，但是需要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理，變?yōu)殡x散型的。

??熵表示的是數(shù)據(jù)中包含的信息量大小。熵越小，數(shù)據(jù)的純度越高，也就是說數(shù)據(jù)越趨于一致，這是我們希望的劃分之后每個(gè)子節(jié)點(diǎn)的樣子。

??信息增益 = 劃分前熵 - 劃分后熵。信息增益越大，則意味著使用屬性 a 來進(jìn)行劃分所獲得的 “純度提升” 越大。也就是說，用屬性 a 來劃分訓(xùn)練集，得到的結(jié)果中純度比較高。

??ID3 僅僅適用于二分類問題。ID3 僅僅能夠處理離散屬性。

ID3算法不足

使用ID3算法構(gòu)建決策樹時(shí), 若出現(xiàn)各屬性值取值數(shù)分布偏差大的情況, 分類精度會(huì)大打折扣
ID3算法本身并未給出處理連續(xù)數(shù)據(jù)的方法
ID3算法不能處理帶有缺失值的數(shù)據(jù)集, 故在算法挖掘之前需要對(duì)數(shù)據(jù)集中的缺失值進(jìn)行預(yù)處理
ID3算法只有樹的生成, 所以該算法生成的樹容易產(chǎn)生過擬合

2.2 C4.5

??C4.5基于信息增益作為屬性選擇的度量，能夠處理屬性是連續(xù)型的。而且，在C4.5算法中，又提出了兩個(gè)新的概念：

分離信息（Split Information）
信息增益率（Information gain ratio）

??C4.5 克服了 ID3 僅僅能夠處理離散屬性的問題，以及信息增益偏向選擇取值較多特征的問題，使用信息增益比來選擇特征。信息增益比 = 信息增益 / 劃分前熵 ,選擇信息增益比最大的作為最優(yōu)特征。

??C4.5 處理連續(xù)特征是先將特征取值排序，以連續(xù)兩個(gè)值中間值作為劃分標(biāo)準(zhǔn)。嘗試每一種劃分，并計(jì)算修正后的信息增益，選擇信息增益最大的分裂點(diǎn)作為該屬性的分裂點(diǎn)。

2.2 C5.0

??C5.0 是決策樹C4.5的商用算法，在內(nèi)存管理等方面，給出了改進(jìn)。比如在商用軟件SPSS中，就有該算法。

2.3 CART

??注意: 上述三個(gè)算法只能做分類，不能做回歸，下一篇博文CART類似于C4.5，但可以做回歸。

??CART 的全稱是分類與回歸樹。從這個(gè)名字中就應(yīng)該知道，CART 既可以用于分類問題，也可以用于回歸問題。

??CART基于基尼指數(shù)作為屬性選擇的度量.
??CART 與 ID3，C4.5 不同之處在于 CART 生成的樹必須是二叉樹。也就是說，無論是回歸還是分類問題，無論特征是離散的還是連續(xù)的，無論屬性取值有多個(gè)還是兩個(gè)，內(nèi)部節(jié)點(diǎn)只能根據(jù)屬性值進(jìn)行二分。

2.4 CART與ID3和C4.5的區(qū)別

CART樹是二叉樹，而ID3和C4.5可以是多叉樹
CART在生成子樹時(shí)，選擇一個(gè)特征一個(gè)取值作為切分點(diǎn)，生成兩個(gè)子樹
選擇特征和切分點(diǎn)的依據(jù)是Gini指數(shù)，選擇Gini指數(shù)最小的特征及切分點(diǎn)生成子樹

2.5 決策樹與這些算法框架進(jìn)行結(jié)合所得到的新的算法：

??Bagging + 決策樹=隨機(jī)森林
??Boosting + 決策樹=提升樹
??Gradient Boosting+決策樹=GBDT總結(jié)

2.6 ID3,C4.5決策樹的生成

??輸入：訓(xùn)練集D，特征集A，閾值eps 輸出：決策樹

??若D中所有樣本屬于同一類Ck，則T為單節(jié)點(diǎn)樹，將類Ck作為該節(jié)點(diǎn)的類標(biāo)記，返回T

??若A為空集，即沒有特征作為劃分依據(jù)，則T為單節(jié)點(diǎn)樹，并將D中實(shí)例數(shù)最大的類Ck作為該節(jié)點(diǎn)的類標(biāo)記，返回T

??否則，計(jì)算A中各特征對(duì)D的信息增益（ID3）/信息增益比（C4.5）,選擇信息增益最大的特征Ag

??若Ag的信息增益（比）小于閾值eps，則置T為單節(jié)點(diǎn)樹，并將D中實(shí)例數(shù)最大的類Ck作為該節(jié)點(diǎn)的類標(biāo)記，返回T

??否則，依照特征Ag將D劃分為若干非空子集Di，將Di中實(shí)例數(shù)最大的類作為標(biāo)記，構(gòu)建子節(jié)點(diǎn)，由節(jié)點(diǎn)及其子節(jié)點(diǎn)構(gòu)成樹T，返回T

??對(duì)第i個(gè)子節(jié)點(diǎn)，以Di為訓(xùn)練集，以A-{Ag}為特征集，遞歸地調(diào)用1~5，得到子樹Ti，返回Ti

三、決策樹優(yōu)缺點(diǎn)

3.1 優(yōu)點(diǎn)

(1) 速度快: 計(jì)算量相對(duì)較小, 且容易轉(zhuǎn)化成分類規(guī)則. 只要沿著樹根向下一直走到葉, 沿途的分裂條件就能夠唯一確定一條分類的謂詞.
(2) 準(zhǔn)確性高: 挖掘出來的分類規(guī)則準(zhǔn)確性高, 便于理解, 決策樹可以清晰的顯示哪些字段比較重要, 即可以生成可以理解的規(guī)則.
(3) 可以處理連續(xù)和種類字段
(4) 不需要任何領(lǐng)域知識(shí)和參數(shù)假設(shè)
(5) 適合高維數(shù)據(jù)

3.2 缺點(diǎn)

(1) 對(duì)于各類別樣本數(shù)量不一致的數(shù)據(jù), 信息增益偏向于那些更多數(shù)值的特征
(2) 容易過擬合
(3) 忽略屬性之間的相關(guān)性

四隨機(jī)森林基礎(chǔ)概念

4.1 隨機(jī)森林介紹

??隨機(jī)森林就是通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法，它的基本單元是決策樹，而它的本質(zhì)屬于機(jī)器學(xué)習(xí)的一大分支–集成學(xué)習(xí)（Ensemble Learning）方法。

??從直觀角度來解釋，每棵樹都是一個(gè)分類器（假設(shè)現(xiàn)在為分類問題），那么對(duì)于一個(gè)輸入樣本，N棵樹會(huì)有N個(gè)分類結(jié)果。而隨機(jī)森林集成了所有的分類投票結(jié)果，將投票次數(shù)最多的類別指定為最終的輸出，這就是一種最簡單的Bagging思想。

4.2 隨機(jī)森林的生成過程

從原始訓(xùn)練集中使用Bootstraping方法隨機(jī)有放回采用選出m個(gè)樣本，共進(jìn)行n_tree次采樣，生成n_tree個(gè)訓(xùn)練集
對(duì)于n_tree個(gè)訓(xùn)練集，分別訓(xùn)練n_tree個(gè)決策樹模型
對(duì)于單個(gè)決策樹模型，假設(shè)訓(xùn)練樣本特征的個(gè)數(shù)為n，那么每次分裂時(shí)根據(jù)信息增益/信息增益比/Gini指數(shù)選擇最好的特征進(jìn)行分裂
每棵樹都一直這樣分裂下去，直到該節(jié)點(diǎn)的所有訓(xùn)練樣例都屬于同一類。在決策樹的分裂過程中不需要剪枝
將生成的多棵決策樹組成隨機(jī)森林。對(duì)于分類問題，按多棵樹分類器投票決定最終分類結(jié)果；對(duì)于回歸問題，由多棵樹預(yù)測(cè)的均值決定最終預(yù)測(cè)結(jié)果。

4.3 隨機(jī)森林的評(píng)價(jià)指標(biāo)–袋外誤差（oob error）

??隨機(jī)森林的關(guān)鍵問題是如何選擇最優(yōu)的m（特征個(gè)數(shù)），要解決這個(gè)問題主要依據(jù)袋外誤差率oob error（out-of-bag error）

??隨機(jī)森林一個(gè)重要的優(yōu)點(diǎn)是，沒有必要進(jìn)行交叉驗(yàn)證或者用一個(gè)獨(dú)立的測(cè)試集來獲得誤差的一個(gè)無偏估計(jì)。它可以在內(nèi)部進(jìn)行評(píng)估，也就是說在生成的過程中就可以對(duì)誤差建立一個(gè)無偏估計(jì)。

??在構(gòu)建每棵樹時(shí)，對(duì)訓(xùn)練集使用了不同的bootstrap sample（隨機(jī)有放回的抽取）。所以對(duì)每棵樹而言（假設(shè)對(duì)第K棵樹），大約有1/3的訓(xùn)練實(shí)例沒有參與第K棵樹的生成，它們成為第K棵樹的oob樣本。

oob估計(jì)的計(jì)算方法如下：

對(duì)每個(gè)樣本，計(jì)算它作為oob樣本的樹對(duì)它的分類情況（約1/3的樹）
然后以簡單多數(shù)投票作為該樣本的分類結(jié)果
最后用誤分個(gè)數(shù)占樣本總數(shù)的比率作為隨機(jī)森林的oob誤分率。

注意：oob誤分率是隨機(jī)森林泛化誤差的一個(gè)無偏估計(jì)，它的結(jié)構(gòu)近似于需要大量計(jì)算的k折交叉驗(yàn)證。

4.4 隨機(jī)森林的特點(diǎn)

優(yōu)點(diǎn)

在當(dāng)前所有算法中，具有極高的準(zhǔn)確率
隨機(jī)性的引入，使得隨機(jī)森林不容易過擬合
隨機(jī)性的引入，使得隨機(jī)森林有很好的抗噪聲能力
能夠有效的運(yùn)行在大數(shù)據(jù)集上
-能夠評(píng)估各個(gè)特征在分類問題上的重要性
能夠處理具有高維特征的輸入樣本，而不需要降維，并且不用做特征選擇
既能處理離散型數(shù)據(jù)，也能處理連續(xù)型數(shù)據(jù)，數(shù)據(jù)集無需規(guī)范化
訓(xùn)練速度快，可以得到變量重要性排序
容易實(shí)現(xiàn)并行化
在生成過程中，能夠獲取到內(nèi)部生成誤差的一種無偏估計(jì)
對(duì)于缺省值問題也能夠獲得很好的結(jié)果

缺點(diǎn)

當(dāng)隨機(jī)森林中的決策樹個(gè)數(shù)很多時(shí)，訓(xùn)練需要的空間和時(shí)間會(huì)較大
隨機(jī)森林模型有許多不好解釋的地方，算個(gè)黑盒模型

五、Bagging和Boosting的概念與區(qū)別

??隨機(jī)森林屬于集成學(xué)習(xí)（Ensemble Learning）中的bagging算法。在集成學(xué)習(xí)中，主要分為bagging算法和boosting算法。

5.1 Bagging算法（套袋法）：

Bagging的算法過程如下：

??從原始樣本集中使用Bootstrap方法隨機(jī)抽取n個(gè)訓(xùn)練樣本，共進(jìn)行k輪抽取，得到k個(gè)訓(xùn)練集。（k個(gè)訓(xùn)練集之間相互獨(dú)立，元素可以有重復(fù)）
??對(duì)于k個(gè)訓(xùn)練集，我們訓(xùn)練k個(gè)模型（這個(gè)k個(gè)模型可以選擇決策樹，knn等）
??對(duì)于分類問題：由投票表決產(chǎn)生分類結(jié)構(gòu)；對(duì)于回歸問題：有k個(gè)模型預(yù)測(cè)結(jié)果的均值作為最后預(yù)測(cè)結(jié)構(gòu)（所有模型的重要性相同）

5.2 Boosting（提升法）

boosting的算法過程如下：

??對(duì)于訓(xùn)練集的每個(gè)樣本建立權(quán)值wi，增大被誤分類的樣本的權(quán)值
??進(jìn)行迭代的過程中，每一步迭代都是一個(gè)弱分類器，需要用某種策略將其組合，作為最終模型。（例如AdaBoost給每個(gè)弱分類器一個(gè)權(quán)值，將其線性組合為最終分類器。誤差越小的弱分類器，權(quán)值越大）

5.3 Bagging，Boosting的主要區(qū)別

樣本選擇上：Bagging采用的是Bootstrap隨機(jī)有放回抽樣；而Boosting每一輪的訓(xùn)練集是不變的，改變的只是每一個(gè)樣本的權(quán)重。
樣本權(quán)重：Bagging使用的是均勻取樣，每個(gè)樣本權(quán)重相等；Boosting根據(jù)錯(cuò)誤率調(diào)整樣本權(quán)重，錯(cuò)誤率越大的樣本權(quán)重越大。
預(yù)測(cè)函數(shù)：Bagging所有的預(yù)測(cè)函數(shù)的權(quán)重相等；Boosting中誤差越小的預(yù)測(cè)函數(shù)（分類器）權(quán)重越大
并行計(jì)算：Bagging各個(gè)預(yù)測(cè)函數(shù)可以并行生成；Boosting各個(gè)預(yù)測(cè)函數(shù)（分類器）必須按照順序迭代生成，就是不能并行計(jì)算

''' 【干貨來了|小麥苗IT資料分享】 ★小麥苗DB職場干貨：https://mp.weixin.qq.com/s/Vm5PqNcDcITkOr9cQg6T7w ★小麥苗數(shù)據(jù)庫健康檢查：https://share.weiyun.com/5lb2U2M ★小麥苗微店：https://weidian.com/s/793741433?wfr=c&ifr=shopdetail ★各種操作系統(tǒng)下的數(shù)據(jù)庫安裝文件（Linux、Windows、AIX等）：鏈接：https://pan.baidu.com/s/19yJdUQhGz2hTgozb9ATdAw 提取碼：4xpv ★小麥苗分享的資料：https://share.weiyun.com/57HUxNi ★小麥苗課堂資料：https://share.weiyun.com/5fAdN5m ★小麥苗課堂試聽資料：https://share.weiyun.com/5HnQEuL ★小麥苗出版的相關(guān)書籍：https://share.weiyun.com/5sQBQpY ★小麥苗博客文章：https://share.weiyun.com/5ufi4Dx ★數(shù)據(jù)庫系列（Oracle、MySQL、NoSQL）：https://share.weiyun.com/5n1u8gv ★公開課錄像文件：https://share.weiyun.com/5yd7ukG ★其它常用軟件分享：https://share.weiyun.com/53BlaHX ★其它IT資料（OS、網(wǎng)絡(luò)、存儲(chǔ)等）：https://share.weiyun.com/5Mn6ESi ★Python資料：https://share.weiyun.com/5iuQ2Fn ★已安裝配置好的虛擬機(jī)：https://share.weiyun.com/5E8pxvT ★小麥苗騰訊課堂：https://lhr.ke.qq.com/ ★小麥苗博客：http://blog.itpub.net/26736162/ ''' ''' 有趣的事，Python永遠(yuǎn)不會(huì)缺席歡迎關(guān)注小婷兒的博客文章內(nèi)容來源于小婷兒的學(xué)習(xí)筆記，部分整理自網(wǎng)絡(luò)，若有侵權(quán)或不當(dāng)之處還請(qǐng)諒解如需轉(zhuǎn)發(fā)，請(qǐng)注明出處：小婷兒的博客python https://blog.csdn.net/u010986753博客園 https://www.cnblogs.com/xxtalhr/CSDN https://blog.csdn.net/u010986753有問題請(qǐng)?jiān)诓┛拖铝粞曰蚣幼髡?#xff1a;微信：tinghai87605025 聯(lián)系我加微信群QQ ：87605025python QQ交流群：py_data 483766429培訓(xùn)說明 OCP培訓(xùn)說明連接 https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuAOCM培訓(xùn)說明連接 https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA小婷兒的python正在成長中，其中還有很多不足之處，隨著學(xué)習(xí)和工作的深入，會(huì)對(duì)以往的博客內(nèi)容逐步改進(jìn)和完善噠。重要的事多說幾遍。。。。。。 '''

有趣的事，Python永遠(yuǎn)不會(huì)缺席

歡迎關(guān)注小婷兒的博客

??文章內(nèi)容來源于小婷兒的學(xué)習(xí)筆記，部分整理自網(wǎng)絡(luò)，若有侵權(quán)或不當(dāng)之處還請(qǐng)諒解!!!

??如需轉(zhuǎn)發(fā)，請(qǐng)注明出處：小婷兒的博客python????https://blog.csdn.net/u010986753

??CSDN https://blog.csdn.net/u010986753

??博客園 https://www.cnblogs.com/xxtalhr/

有問題請(qǐng)?jiān)诓┛拖铝粞曰蚣幼髡?#xff1a;
??微信：tinghai87605025 聯(lián)系我加微信群
??QQ ：87605025
??QQ交流群：py_data 483766429
??公眾號(hào)：DB寶

證書說明

??OCP證書說明連接 https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

??OCM證書說明連接 https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

?? 小婷兒的python正在成長中，其中還有很多不足之處，隨著學(xué)習(xí)和工作的深入，會(huì)對(duì)以往的博客內(nèi)容逐步改進(jìn)和完善噠。重要的事多說幾遍。。。。。。

總結(jié)

以上是生活随笔為你收集整理的决策树Decision Tree 和随机森林RandomForest基本概念（一）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：计算机软件大赛作品,2015年大赛软件服
下一篇：能够作图的软件都有哪些