日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

集成算法原理简介

發(fā)布時間:2023/11/27 生活经验 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 集成算法原理简介 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1,集成算法
集成學(xué)習(xí)(ensemble learning)從概念上講,它并不是一個單獨(dú)的機(jī)器學(xué)習(xí)算法,而是通過構(gòu)建并結(jié)合多個機(jī)器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。也就是我們常說的“博采眾長”。集成學(xué)習(xí)可以用于分類問題集成,回歸問題集成,特征選取集成,異常點(diǎn)檢測集成等等,讓機(jī)器學(xué)習(xí)效果更好。
2,Bagging模型
Bagging模型全稱:bootstrap aggregation(并行訓(xùn)練一堆分類器),訓(xùn)練多個分類器取平均,最典型的代表就是隨機(jī)森林(很多個決策樹并行放在一起,數(shù)據(jù)采樣隨機(jī),特征選擇隨機(jī),都是有放回的隨機(jī)選取)。


由于二重隨機(jī)性(數(shù)據(jù)采樣隨機(jī),特征選擇隨機(jī)),使得每個樹基本上都不會一樣,保證泛化能力,最終的結(jié)果也會不一樣。理論上越多的樹效果會越好,但實(shí)際上基本超過一定數(shù)量就差不多上下浮動了。

隨機(jī)森林優(yōu)勢:
(1)能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇。
(2)在訓(xùn)練完后,它能夠給出哪些feature比較重要
(3)容易做成并行化方法,速度比較快
(4)可以進(jìn)行可視化展示,便于分析

然后求平均:

3,Boosting模型

從弱學(xué)習(xí)器開始加強(qiáng),通過加權(quán)來進(jìn)行訓(xùn)練,典型代表有AdaBoost, Xgboost。


加入一棵樹使預(yù)測結(jié)果解決前面的殘差值(串行),通過累加逐步使整體效果優(yōu)化。

3.1 AdaBoost

初始時數(shù)據(jù)的權(quán)重相同,Adaboost會根據(jù)前一次的分類效果調(diào)整數(shù)據(jù)權(quán)重(如果某個數(shù)據(jù)在這次分錯了,那么在下一次就會給它更大的權(quán)重),最終的結(jié)果是每個分類器根據(jù)自身的準(zhǔn)確性來確定各自的權(quán)重(分類器效果好的權(quán)重大),然后再合體。

Adaboost工作流程:

相當(dāng)于每一次切一刀,最終合在一起,這樣弱分類器就升級了。

3.2 Xgboost
事實(shí)上對于樹模型為基學(xué)習(xí)器的集成方法在建模過程中可以分為兩個步驟:一是確定樹模型的結(jié)構(gòu),二是確定樹模型的葉子節(jié)點(diǎn)中的輸出值。

3.2.1 定義樹的復(fù)雜度:

首先把樹拆分成結(jié)構(gòu)部分q和葉子節(jié)點(diǎn)輸出值w,在這里w是一個向量,表示各葉子節(jié)點(diǎn)中的輸出值。在這里就囊括了上面提到的兩點(diǎn),確定樹結(jié)構(gòu)q和葉子結(jié)點(diǎn)的輸出值w。從下圖中可以看出,q(x)實(shí)際上是確定輸入值最終會落到哪個葉子節(jié)點(diǎn)上,而w將會給出相應(yīng)的輸出值。

具體表現(xiàn)示例如下,引入正則化懲罰項(xiàng) Ω(ft)來控制樹的復(fù)雜度,從而實(shí)現(xiàn)有效的控制模型的過擬合,這是xgboost中的第一個重要點(diǎn)。式子中的T為葉子節(jié)點(diǎn)數(shù)。

3.2.2 XGBoost中的Boosting Tree模型


3.2.3 目標(biāo)函數(shù)

預(yù)測值:

目標(biāo)函數(shù)(以平方差為例):

最優(yōu)函數(shù)解(損失值的期望值最小):

集成算法的表示:

Xgboost算法也是一種提升算法(每加一顆樹,使整體效果提升)。

這里的函數(shù)相當(dāng)于樹結(jié)構(gòu),現(xiàn)在還剩下一個問題,如何選擇每一輪加入什么f來使得目標(biāo)函數(shù)盡量最大地降低。

考慮正則化懲罰項(xiàng),則目標(biāo)函數(shù)的表達(dá)式為:


在計算過程中產(chǎn)生的常數(shù)項(xiàng)都?xì)w入constant中,引入平方差化簡上式:


構(gòu)造的每一個樹,都將前面所有的樹看成一個整體,通過殘差優(yōu)化使得新構(gòu)造的樹滿足殘差最小。

3.2.4 目標(biāo)函數(shù)的求解


不考慮常數(shù)項(xiàng)(對優(yōu)化過程沒影響)可得:


n代表樣本數(shù),T代表葉子節(jié)點(diǎn),上式將樣本上的遍歷轉(zhuǎn)化為葉子節(jié)點(diǎn)上的遍歷,i代表節(jié)點(diǎn)中的樣本數(shù),I代表節(jié)點(diǎn)。

整理上式如下:


對上式求偏導(dǎo):


G和H有具體的損失函數(shù)求得。

利用上述評價標(biāo)準(zhǔn)計算增益進(jìn)行分割:

4,Stacking模型
可以堆疊各種各樣的分類器(KNN,SVM,RF等等),分階段操作:第一階段輸入數(shù)據(jù)特征得出各自結(jié)果,第二階段再用前一階段結(jié)果訓(xùn)練得到分類結(jié)果。


堆疊在一起確實(shí)能使得準(zhǔn)確率提升,在一定程度上可以防止過擬合,但是速度是個問題,集成算法是競賽與論文神器,當(dāng)更關(guān)注于結(jié)果時不妨來試試集成算法。

總結(jié)

以上是生活随笔為你收集整理的集成算法原理简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。