日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

有监督分类:集成分类(Bagging Boosting RandomForest)

發(fā)布時(shí)間:2025/3/15 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 有监督分类:集成分类(Bagging Boosting RandomForest) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.前言

集成學(xué)習(xí)(Ensemble),是指把性能較低的多種弱學(xué)習(xí)器,通過(guò)適當(dāng)組合形成高性能的強(qiáng)學(xué)習(xí)器的方法。“三個(gè)臭皮匠頂個(gè)諸葛亮”這句諺語(yǔ)用來(lái)形容集成分類器最合適不過(guò)了。這幾年,關(guān)于集成分類的研究一直是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題。在這里,只分析了兩個(gè)我比較熟悉的集成分類方法。
  • 對(duì)多個(gè)弱學(xué)習(xí)器獨(dú)立進(jìn)行學(xué)習(xí)的Bagging學(xué)習(xí)法
  • 對(duì)多個(gè)弱學(xué)習(xí)器依次進(jìn)行學(xué)習(xí)的Boosting學(xué)習(xí)法

? ?
雖然目前集成學(xué)習(xí)的思維方式適用于回歸、分類等各種類型的機(jī)器學(xué)習(xí)任務(wù),但這里之談分類問(wèn)題。

2.剪枝分類方法

剪枝分類是屬于弱分類器的一種單純分類器。剪枝分類是指,對(duì)于d次維的輸入變量:
任意選定其中的一維,通過(guò)將其值與給定的與之相比較來(lái)進(jìn)行分類的線性分類器。即以輸入空間內(nèi)的坐標(biāo)軸于朝平面進(jìn)行正交的方式對(duì)模式進(jìn)行分類,原理如下所示:
剪枝分類器中的“枝”是從樹上剪下來(lái)的枝節(jié) 剪枝分類器通過(guò)一層一層的積累形成樹狀結(jié)構(gòu)成為決策樹分類器 剪枝分類器的自由度很低,怎么都稱不上是優(yōu)秀的分類器,但是他確實(shí)具有計(jì)算成本低的優(yōu)點(diǎn)。具體而言,對(duì)于n各訓(xùn)練樣本,首先根據(jù)所選取的維度的數(shù)值進(jìn)行分類。然后,對(duì)于i=1,...,n-1,計(jì)算順序?yàn)閕何i+1的訓(xùn)練樣本在分類時(shí)的誤差,使分類誤差最小,從而決定分類邊界。也就是說(shuō),剪枝分類器候補(bǔ)解最多只有n-1個(gè),所以通過(guò)對(duì)所有可能的解進(jìn)行分類誤差的計(jì)算并確定最小值,由此就可以得到最終的解。

3.Bagging學(xué)習(xí)法

Bagging = Bootstrap Aggregation Bootstrap是指從n個(gè)訓(xùn)練樣本中隨機(jī)選取n個(gè),允許重復(fù),生成與原始的訓(xùn)練樣本集有些許差異的樣本集的方法 Aggregation:聚集、集成。 在Bagging學(xué)習(xí)中,首先經(jīng)過(guò)由自助生成虛擬的訓(xùn)練樣本,并對(duì)這些樣本進(jìn)行學(xué)習(xí),然后,反反復(fù)復(fù)這一過(guò)程,對(duì)得到的多個(gè)分類器的輸出求平均值。具體算法流程如下圖所示:
通過(guò)上述方法,就可以從大量略有不同的訓(xùn)練樣本集合,得到多個(gè)稍微不同的弱分類器,然后在對(duì)這些分類器加以統(tǒng)合,就可以得到穩(wěn)定可靠的分類器。 下圖展示的是,利用剪枝分類器進(jìn)行Bagging的實(shí)例:
對(duì)剪枝分類器進(jìn)行Bagging學(xué)習(xí)實(shí)例(5000)
Bagging學(xué)習(xí)中,通過(guò)單一的剪枝分類器的組合,可以獲得復(fù)雜的分類邊界。 一般而言,像剪枝分類器這樣非常單一的弱分類器,對(duì)其進(jìn)行學(xué)習(xí)很少會(huì)發(fā)生過(guò)擬合現(xiàn)象,因此Bagging學(xué)習(xí)的重復(fù)次數(shù)設(shè)置為較大值是比較好的選擇。在這種情況下,因?yàn)槎鄠€(gè)分類器的學(xué)習(xí)是個(gè)并列的過(guò)程,因此可以使用多臺(tái)計(jì)算機(jī)并行處理,會(huì)使計(jì)算效率得到巨大的提升。 剪枝分類器不斷地生長(zhǎng)、積累,形成多層級(jí)的模型,該模型就稱為“決策器分類器”(如山所述)。對(duì)決策樹分類器進(jìn)行Bagging學(xué)習(xí)的時(shí)候,通過(guò)隨機(jī)選擇輸入變量中某個(gè)維度進(jìn)行學(xué)習(xí),可以大幅度提高分類器的性能,這種方法有個(gè)更熟悉的名字:隨機(jī)森林學(xué)習(xí)

4.Boosting學(xué)習(xí)法

Boosting學(xué)習(xí),首先使用一個(gè)原始的學(xué)習(xí)算法,對(duì)訓(xùn)練樣本:
進(jìn)行普通分類器學(xué)習(xí)。如果這個(gè)原始的學(xué)習(xí)算法性能不高,就不能對(duì)所有訓(xùn)練樣本進(jìn)行正確的分類。因此,對(duì)于不能正確分類的困難樣本,就加大其權(quán)重(反之,對(duì)于能正確分類的簡(jiǎn)單樣本則減少其權(quán)重),再重新進(jìn)行學(xué)習(xí)。這樣再次得到的分類器,對(duì)原本沒(méi)能正確分類的樣本,應(yīng)該也能在一定程度上進(jìn)行正確的分類了。然后,在循環(huán)多次進(jìn)行加權(quán)學(xué)習(xí),慢慢地就可以對(duì)所有訓(xùn)練樣本都進(jìn)行正確的分類了。 然而另一方面,在進(jìn)行加權(quán)過(guò)程中,最開始就能夠正常分類的樣本的權(quán)重會(huì)慢慢變小,有可能造成建大的樣本反而不能正確分類的情況。因此,Boosting學(xué)習(xí)應(yīng)該邊學(xué)習(xí)邊更新樣本的權(quán)重,并把學(xué)習(xí)過(guò)程中得到的所有分類器放在一起,對(duì)其可信度進(jìn)行平均后訓(xùn)練得到強(qiáng)分類器。 樣本的加權(quán)方法多種多樣,最為標(biāo)準(zhǔn)的就是AdaBoost算法,如下圖所示:
Adaboosting學(xué)習(xí)算法 可以分析一下決定分類器的權(quán)重Θj的式子:
根據(jù)該式,加權(quán)的誤分類率R()越小,其權(quán)重Θ就越大,如下圖所示:
Adaboosting學(xué)習(xí)中,基于加權(quán)誤分類率R來(lái)確定分類器的權(quán)重Θ 下面是對(duì)剪枝分類器進(jìn)行Adaboosting學(xué)習(xí)的一個(gè)例子:
對(duì)剪枝分類器進(jìn)行Adaboosting學(xué)習(xí)(b=50000)

總結(jié)

以上是生活随笔為你收集整理的有监督分类:集成分类(Bagging Boosting RandomForest)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。