日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

随机森林和GBDT

發(fā)布時(shí)間:2024/3/13 编程问答 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 随机森林和GBDT 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一,隨機(jī)森林

隨機(jī)森林是一個(gè)用隨機(jī)方式建立的,包含多個(gè)決策樹的集成分類器。其輸出的類別由各個(gè)樹投票而定(如果是回歸樹則取平均)。假設(shè)樣本總數(shù)為n,每個(gè)樣本的特征數(shù)為a,則隨機(jī)森林的生成過(guò)程如下:

  • 從原始樣本中采用有放回抽樣的方法選取n個(gè)樣本;
  • 對(duì)n個(gè)樣本選取a個(gè)特征中的隨機(jī)k個(gè),用建立決策樹的方法獲得最佳分割點(diǎn);
  • 重復(fù)m次,獲得m個(gè)決策樹;
  • 對(duì)輸入樣例進(jìn)行預(yù)測(cè)時(shí),每個(gè)子樹都產(chǎn)生一個(gè)結(jié)果,采用多數(shù)投票機(jī)制輸出。
  • 隨機(jī)森林的隨機(jī)性主要體現(xiàn)在兩個(gè)方面:

  • 數(shù)據(jù)集的隨機(jī)選取:從原始的數(shù)據(jù)集中采取有放回的抽樣(bagging),構(gòu)造子數(shù)據(jù)集,子數(shù)據(jù)集的數(shù)據(jù)量是和原始數(shù)據(jù)集相同的。不同子數(shù)據(jù)集的元素可以重復(fù),同一個(gè)子數(shù)據(jù)集中的元素也可以重復(fù)。
  • 待選特征的隨機(jī)選取:與數(shù)據(jù)集的隨機(jī)選取類似,隨機(jī)森林中的子樹的每一個(gè)分裂過(guò)程并未用到所有的待選特征,而是從所有的待選特征中隨機(jī)選取一定的特征,之后再在隨機(jī)選取的特征中選取最優(yōu)的特征。
  • 以上兩個(gè)隨機(jī)性能夠使得隨機(jī)森林中的決策樹都能夠彼此不同,提升系統(tǒng)的多樣性,從而提升分類性能。

    隨機(jī)森林的優(yōu)點(diǎn)

  • 實(shí)現(xiàn)簡(jiǎn)單,訓(xùn)練速度快,泛化能力強(qiáng),可以并行實(shí)現(xiàn),因?yàn)橛?xùn)練時(shí)樹與樹之間是相互獨(dú)立的;
  • 相比單一決策樹,能學(xué)習(xí)到特征之間的相互影響,且不容易過(guò)擬合;
  • 能處理高維數(shù)據(jù)(即特征很多),并且不用做特征選擇,因?yàn)樘卣髯蛹请S機(jī)選取的;
  • 對(duì)于不平衡的數(shù)據(jù)集,可以平衡誤差;
  • 相比SVM,不是很怕特征缺失,因?yàn)榇x特征也是隨機(jī)選取;
  • 訓(xùn)練完成后可以給出哪些特征比較重要。
  • 隨機(jī)森林的缺點(diǎn)

  • 在噪聲過(guò)大的分類和回歸問(wèn)題還是容易過(guò)擬合;
  • 相比于單一決策樹,它的隨機(jī)性讓我們難以對(duì)模型進(jìn)行解釋。
  • 二,GBDT (Gradient Boost Decision Tree 梯度提升決策樹)

    GBDT是以決策樹為基學(xué)習(xí)器的迭代算法,注意GBDT里的決策樹都是回歸樹而不是分類樹。Boost是”提升”的意思,一般Boosting算法都是一個(gè)迭代的過(guò)程,每一次新的訓(xùn)練都是為了改進(jìn)上一次的結(jié)果。
    GBDT的核心就在于:每一棵樹學(xué)的是之前所有樹結(jié)論和的殘差,這個(gè)殘差就是一個(gè)加預(yù)測(cè)值后能得真實(shí)值的累加量。比如A的真實(shí)年齡是18歲,但第一棵樹的預(yù)測(cè)年齡是12歲,差了6歲,即殘差為6歲。那么在第二棵樹里我們把A的年齡設(shè)為6歲去學(xué)習(xí),如果第二棵樹真的能把A分到6歲的葉子節(jié)點(diǎn),那累加兩棵樹的結(jié)論就是A的真實(shí)年齡;如果第二棵樹的結(jié)論是5歲,則A仍然存在1歲的殘差,第三棵樹里A的年齡就變成1歲,繼續(xù)學(xué)習(xí)。
    GBDT優(yōu)點(diǎn)是適用面廣,離散或連續(xù)的數(shù)據(jù)都可以處理,幾乎可用于所有回歸問(wèn)題(線性/非線性),亦可用于二分類問(wèn)題(設(shè)定閾值,大于閾值為正例,反之為負(fù)例)。缺點(diǎn)是由于弱分類器的串行依賴,導(dǎo)致難以并行訓(xùn)練數(shù)據(jù)。

    三,隨機(jī)森林和GBDT的區(qū)別:

  • 隨機(jī)森林采用的bagging思想,而GBDT采用的boosting思想。這兩種方法都是Bootstrap思想的應(yīng)用,Bootstrap是一種有放回的抽樣方法思想。雖然都是有放回的抽樣,但二者的區(qū)別在于:Bagging采用有放回的均勻取樣,而Boosting根據(jù)錯(cuò)誤率來(lái)取樣(Boosting初始化時(shí)對(duì)每一個(gè)訓(xùn)練樣例賦相等的權(quán)重1/n,然后用該算法對(duì)訓(xùn)練集訓(xùn)練t輪,每次訓(xùn)練后,對(duì)訓(xùn)練失敗的樣例賦以較大的權(quán)重),因此Boosting的分類精度要優(yōu)于Bagging。Bagging的訓(xùn)練集的選擇是隨機(jī)的,各訓(xùn)練集之間相互獨(dú)立,弱分類器可并行,而Boosting的訓(xùn)練集的選擇與前一輪的學(xué)習(xí)結(jié)果有關(guān),是串行的。
  • 組成隨機(jī)森林的樹可以是分類樹,也可以是回歸樹;而GBDT只能由回歸樹組成。
  • 組成隨機(jī)森林的樹可以并行生成;而GBDT只能是串行生成。
  • 對(duì)于最終的輸出結(jié)果而言,隨機(jī)森林采用多數(shù)投票等;而GBDT則是將所有結(jié)果累加起來(lái),或者加權(quán)累加起來(lái)。
  • 隨機(jī)森林對(duì)異常值不敏感;GBDT對(duì)異常值非常敏感。
  • 隨機(jī)森林對(duì)訓(xùn)練集一視同仁;GBDT是基于權(quán)值的弱分類器的集成。
  • 隨機(jī)森林是通過(guò)減少模型方差提高性能;GBDT是通過(guò)減少模型偏差提高性能。
  • 總結(jié)

    以上是生活随笔為你收集整理的随机森林和GBDT的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。