日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习第九篇:详解Adaboost算法

發(fā)布時間:2023/12/19 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习第九篇:详解Adaboost算法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

01|基本概念:

提升方法的基本思想:對于任何一個復(fù)雜任務(wù)來說,將多個專家的判斷進(jìn)行適當(dāng)?shù)木C合所得出的判斷,要比任何一個專家單獨的判斷好。

先來看兩個概念:強(qiáng)可學(xué)習(xí)和弱可學(xué)習(xí)。

在概率近似正確學(xué)習(xí)的框架中(簡稱PAC),一個概念(類),如果存在一個多項式的學(xué)習(xí)算法能夠?qū)W習(xí)它,并且正確率很高,那么就稱這個概念是強(qiáng)可學(xué)習(xí)的;一個概念,如果存在一個多項式的學(xué)習(xí)算法能夠?qū)W習(xí)它,學(xué)習(xí)的正確率僅比隨機(jī)猜測略好,那么就稱這個概念是弱可學(xué)習(xí)的。

弱可學(xué)習(xí)與強(qiáng)可學(xué)習(xí)之間是有一定的差距,如果已經(jīng)發(fā)現(xiàn)弱可學(xué)習(xí)算法,那么能否將它提到強(qiáng)可學(xué)習(xí)算法,這里的如何提升就是提升方法需要解決的問題。最具代表性的就是AdaBoost算法。

對于分類問題而言,給定一個訓(xùn)練樣本集,求比較粗糙的分類規(guī)則(弱分類器)要比求精確地分類規(guī)則(強(qiáng)分類器)容易的多。提升方法就是從弱學(xué)習(xí)算法,反復(fù)學(xué)習(xí),得到一系列分類器(又稱為基本分類器),然后組合這些弱分類器,構(gòu)成一個強(qiáng)分類器。大多數(shù)的提升方法都是改變訓(xùn)練數(shù)據(jù)的概率分布(訓(xùn)練數(shù)據(jù)的權(quán)值分布),針對不同的訓(xùn)練數(shù)據(jù)分布調(diào)用弱學(xué)習(xí)算法學(xué)習(xí)一系列弱分類器。

這樣,對于提升方法來說,有兩個問題需要解決:一是在每一輪如何改變訓(xùn)練數(shù)據(jù)的權(quán)值或概率分布;二是如何將弱分類器組成一個強(qiáng)分類器

對于第一個問題,AdaBoost的做法是,提高那些被前一輪弱分類器錯分類樣本的權(quán)值,而降低那些被正確分類樣本的權(quán)值。這樣一來,那些沒有得到正確分類的數(shù)據(jù),由于其權(quán)值加大而受到后一輪的弱分類器的更大關(guān)注。于是,分類問題被一系列的弱分類器“分而治之”。至于第二個問題,即弱分類器的組合,AdaBoost采取加權(quán)多數(shù)表決的方法。具體地,加大分類誤差率小的弱分類器的權(quán)值,使其在表決中起較大的作用,減小分類誤差率大的弱分類器的權(quán)值,使其在表決中起較小的作用。

02|AdaBoost算法:

假設(shè)給定一個二分類的訓(xùn)練數(shù)據(jù)集

其中,每個樣本點由實例和標(biāo)記組成。x是實例空間,y是標(biāo)記集合。AdaBoost利用以下算法,從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)一系列弱分類器或基本分類器,并將這些弱分類器線性組合成一個強(qiáng)分類器。

算法步驟:

1.初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布,讓訓(xùn)練數(shù)據(jù)集中的每一個樣本均等于1/N。? ??

? ? ? ? ? ? ? ??

2.對m=1,2,...,M(m表示反復(fù)訓(xùn)練的次數(shù))

(a)使用具有權(quán)值分布的 Dm的訓(xùn)練數(shù)據(jù)集學(xué)習(xí),得到基本分類器

? ? ? ? ? ? ? ?

(b)計算Gm(x)在訓(xùn)練數(shù)據(jù)集上的分類誤差率(誤分類樣本權(quán)值之和)

? ? ? ? ? ? ? ??

上式中表示第m輪中第i個實例的權(quán)值。

(c)計算Gm(x)的系數(shù)

? ? ? ? ? ? ? ? ??

上式中的對數(shù)為自然對數(shù),上式的結(jié)果是該分類器在最終分類器的所占的權(quán)重,即多項式的系數(shù)。

由上式可得,當(dāng)時,,且隨著的減小而增大,意味著分類誤差越小的基本分類器在最終分類器中的作用越大。

(d)更新訓(xùn)練數(shù)據(jù)集的權(quán)值分布

? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ??

這里,是規(guī)范化因子

? ? ? ? ? ? ? ? ? ?

3.構(gòu)建基本分類器線性組合

? ? ? ? ? ? ? ? ??

得到的最終分類器

? ? ? ? ? ? ? ? ?

系數(shù)表示了基本分類器的重要性,這里,所有的之和并不為1。f(x)的符號決定實例x的分類,f(x)的絕對值表示分類的確信度。

03|前向分布算法:

考慮加法模型(每一輪迭代的分類函數(shù)的加和)

其中,為基函數(shù),為基函數(shù)的參數(shù),為基函數(shù)的系數(shù)。

在給定訓(xùn)練數(shù)據(jù)及損失函數(shù)L(y,f(x))的條件下,學(xué)習(xí)加法模型f(x)成為經(jīng)驗風(fēng)險極小化即損失函數(shù)最小化問題:

通常這是一個復(fù)雜的優(yōu)化問題。前向分步算法求解這一優(yōu)化問題的想法是:因?qū)W習(xí)的是加法模型,如果能夠從前向后,每一步只學(xué)習(xí)一個基函數(shù)及其系數(shù),逐步逼近優(yōu)化目標(biāo)函數(shù),那么就可以簡化優(yōu)化的復(fù)雜度。具體地,每步只需要優(yōu)化如下目標(biāo)函數(shù):

前向分步算法步驟:

輸入:訓(xùn)練數(shù)據(jù)集;損失函數(shù)L(y,f(x));基礎(chǔ)函數(shù)集;

輸出:加法模型f(x)

1.初始化

2.對m=1,2,...,M

(a)極小化損失函數(shù)

得到參數(shù),

(b)更新

3.得到加法模型

這樣,前向分布算法將同時求解從m=1到M所有參數(shù),的優(yōu)化問題簡化為逐個求解各個,的優(yōu)化問題。

04|前向分步算法與AdaBoost關(guān)系:

AdaBoost 算法可以認(rèn)為是模型為加法模型、損失函數(shù)為指數(shù)函數(shù)、學(xué)習(xí)算法為前向分步算法的二類分類學(xué)習(xí)方法。

總結(jié)

以上是生活随笔為你收集整理的机器学习第九篇:详解Adaboost算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。