日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ML之GB:GB算法相关论文、相关思路、关键步骤、代码实现、配图集合、案例应用之详细攻略

發(fā)布時(shí)間:2025/3/21 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ML之GB:GB算法相关论文、相关思路、关键步骤、代码实现、配图集合、案例应用之详细攻略 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

ML之GB:GB算法相關(guān)論文、相關(guān)思路、關(guān)鍵步驟、代碼實(shí)現(xiàn)、配圖集合、案例應(yīng)用之詳細(xì)攻略

?

?

目錄

GB算法相關(guān)文獻(xiàn)、論文

GB算法關(guān)鍵步驟

GB算法代碼實(shí)現(xiàn)

GB案例應(yīng)用

1、GB用于回歸

2、GB用于分類


?

?

GB算法相關(guān)文獻(xiàn)、論文

后期更新……

?

?

GB算法關(guān)鍵步驟

后期更新……

1、算法流程

?

?

?

GB算法代碼實(shí)現(xiàn)

1、Scikit-learn中的 GBM

sklearn.ensemble.GradientBoostingClassifier(loss='deviance', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3, min_impurity_split=1e-07, init=None, random_state=None, max_features=None, verbose=0, max_leaf_nodes=None, warm_start=False, presort='auto')
參數(shù)說明
loss待優(yōu)化的目標(biāo)函數(shù),‘deviance’表示采用logistic損失,輸出概率值;‘exponential’?表示采用指數(shù)損失。缺省‘deviance’
learning_rate學(xué)習(xí)率或收縮因子。學(xué)習(xí)率和迭代次數(shù)/弱分類器數(shù)目n_estimators相關(guān)。?缺省:0.1
n_estimators當(dāng)數(shù)/弱分類器數(shù)目.?缺省:100
subsample學(xué)習(xí)單個(gè)弱學(xué)習(xí)器的樣本比例。缺省為:1.0

(1)、由于弱學(xué)習(xí)器為CART,所以很多參數(shù)與樹模型的參數(shù)相同。
(2)、其中(loss='deviance', learning_rate=0.1, n_estimators=100, subsample=1.0, 這些參數(shù)主要關(guān)于弱學(xué)習(xí)器組合。

?

?

GB案例應(yīng)用

1、GB用于回歸

sklearn.ensemble.GradientBoostingRegressor 類的構(gòu)造函數(shù)
函數(shù)API官方解釋:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html#sklearn.ensemble.GradientBoostingRegressor

(1)、重點(diǎn)參數(shù)解釋

Loss:字符串,可選(缺省值為“l(fā)s”)。梯度提升法用決策樹來(lái)逼近整體損失函數(shù)的梯度。最常使用的整體損失項(xiàng)就是誤差平方的和(sum squared error),這個(gè)就是通常的最小二乘回歸方法的懲罰項(xiàng)。最小誤差平方和(Least sum squared error)是一個(gè)很方便的選項(xiàng),因?yàn)檎`差平方(squared error)在數(shù)學(xué)上處理比較簡(jiǎn)潔。但是對(duì)應(yīng)實(shí)際的問題,其他的損失函數(shù)可能更合適。例如,筆者在研究自動(dòng)交易問題時(shí),注意到誤差平方懲罰項(xiàng)會(huì)導(dǎo)致算法回避重大的損失,但是會(huì)接受較小的損失,但是較小的損失累積起來(lái)也是相當(dāng)可觀的。采用誤差絕對(duì)值的和(Sum of absolute value of error)可以取得更好的性能,對(duì)自動(dòng)交易問題更匹配。最小平均絕對(duì)值(Least mean absolute value)通常對(duì)異常點(diǎn)不敏感。梯度提升法是少數(shù)幾個(gè)可以自由選擇懲罰函數(shù)的算法。
可以取的字符串值如下。
● ls :最小均方誤差(Least mean squared error)。
● lad :最小平均絕對(duì)誤差(Least mean absolute value of error)。
● huber :胡貝爾誤差是兩種誤差的混合:當(dāng)誤差數(shù)值較小時(shí),取誤差的平方,當(dāng)
誤差數(shù)值較大時(shí),取誤差的絕對(duì)值。
● quantile :分位數(shù)回歸。預(yù)測(cè)分位數(shù)(由 alpha 參數(shù)指定)。
● Learning_rate。
? ? ? ? 浮點(diǎn)數(shù),可選(缺省值為0.1)。
? ? ? ? ?正如前面提到的,梯度提升法基于梯度下降法。Learning_rate 指明沿梯度方向的步長(zhǎng)。如果步長(zhǎng)太大,會(huì)看到誤差迅速下降,然后迅速上升(是集成方法中決策樹數(shù)目的函數(shù))。如果步長(zhǎng)太小,則誤差下降得十分緩慢,需要訓(xùn)練更多的決策樹。Learning_rate 的最佳值是依賴于問題的,也依賴于所選擇的決策樹的深度。缺省值0.1 是相對(duì)比較大的值,但是是一個(gè)很好的起點(diǎn)。首先選用這個(gè)值,觀察是否導(dǎo)致了不穩(wěn)定或者過擬合,然后再按需調(diào)整。

N_estimators:整型,可選(缺省值為100)。此參數(shù)指定集成方法中的決策樹數(shù)目。如第6 章所述,也可以把它看作朝向梯度下降的方向,達(dá)到誤差最小值所需的步數(shù)。也可以看作是增量式逼近所用的步數(shù)(即訓(xùn)練模型的數(shù)目)。因?yàn)槊恳粋€(gè)后續(xù)的逼近(每一個(gè)后續(xù)的決策樹)都與learning rate( 學(xué)習(xí)速度)相乘,學(xué)習(xí)速度越大,朝向誤差最小值取得同樣的進(jìn)步所需的決策樹就越少。然而(正如在學(xué)習(xí)速度小節(jié)所討論的那樣),學(xué)習(xí)速度太高會(huì)導(dǎo)致過擬合。對(duì)于一個(gè)新問題,往往需要嘗試幾
次才能習(xí)得參數(shù)的最佳取值范圍。缺省值100 可以作為一個(gè)很好的起點(diǎn)(特別是與學(xué)習(xí)速度的缺省值一起聯(lián)合使用時(shí))。

Subsample:浮點(diǎn)型,可選(缺省值為1.0)。如果與隨機(jī)森林相似,用數(shù)據(jù)的抽樣對(duì)決策樹進(jìn)行訓(xùn)練,則梯度提升法變成了隨機(jī)梯度提升法。Friedman(算法發(fā)明人)建議subsample 取0.5。這是一個(gè)很好的起點(diǎn)。

Max_depth:整型,可選(缺省值為3)。就像隨機(jī)森林,max_depth 是集成方法中單個(gè)決策樹的深度,隨機(jī)森林需要決策樹達(dá)到一定深度才能產(chǎn)生高精確度的模型,然而梯度提升通過持續(xù)關(guān)注殘差,使用深度為1 的決策樹(叫作樹樁stumps)就可以獲得高精確度。梯度提升法對(duì)決策樹深度的需求是由屬性之間相關(guān)程度決定的。如果屬性之間相互獨(dú)立,則深度為1的決策樹可以獲得與深度為2 的決策樹相同的性能。通常,可先將決策樹的深度設(shè)為1,然后調(diào)整好其他參數(shù)。再將決策樹的深度調(diào)整為2,看看是否會(huì)帶來(lái)性能上的提升。筆者還從來(lái)沒遇到過需要決策樹深度為10 的問題。

Max_features:整型、浮點(diǎn)型、字符串,或者None, 可選(缺省值為None)。當(dāng)查找最佳分割點(diǎn)時(shí),需要考慮的屬性的數(shù)目是由max_features 值和問題數(shù)據(jù)中屬性的總數(shù)共同決定的。定義屬性的總數(shù)為nFeatures,那么:如果 max_features 是整數(shù),則在每次分割時(shí)考慮 max_features 個(gè)屬性。如果 max_features 是浮點(diǎn)數(shù),則 max_features 是需要考慮的屬性占全體屬性的百分比:int(max_features*nFeatures)。
? ? ? ? ? 可能的字符串值包括:
auto max_features=nFeatures
sqrt max_features=sqrt(nFeatures)
log2 max_features=log2(nFeatures)
? ? ? ? ?如果 max_features 是 None,那么 max_features 等于 nFeatures。
? ? ? ? ?在梯度提升法Python 實(shí)現(xiàn)中,max_features 起的作用與隨機(jī)森林中的作用相同。它決定了在決策樹的每個(gè)節(jié)點(diǎn)進(jìn)行分割時(shí)需要考慮多少個(gè)屬性。這使梯度提升法的Python 實(shí)現(xiàn)具有一個(gè)獨(dú)特的能力:它可以用隨機(jī)森林作為基學(xué)習(xí)器來(lái)代替原來(lái)需要考慮全部屬性空間的決策樹。

Warm_start:布爾型,可選(缺省值為False)。如果warm_start 設(shè)為True,fit() 函數(shù)將從上次訓(xùn)練停止的地方開始。

(2)、重點(diǎn)屬性解釋

Feature_importances:一個(gè)數(shù)組,其長(zhǎng)度等于數(shù)據(jù)集中屬性的數(shù)目。數(shù)組中的值是正的浮點(diǎn)數(shù),表明了相應(yīng)屬性對(duì)預(yù)測(cè)結(jié)果的重要性。數(shù)值越大,表明此屬性越重要。
Train_score:一個(gè)數(shù)組,其長(zhǎng)度等于集成方法中決策樹的數(shù)目。此數(shù)組存放在訓(xùn)練階段對(duì)決策樹依次訓(xùn)練時(shí)的誤差。

(3)、重點(diǎn)方法解釋

Fit(XTrain, yTrain, monitor=None):XTrain 和yTrain 的形式與隨機(jī)森林中的一樣。XTrain 是一個(gè)(nInstances*nAttributes)numpy 數(shù)組,這里nInstances 是訓(xùn)練數(shù)據(jù)集的行數(shù),nAttributes 是屬性的數(shù)目。yTrain 是
一個(gè)存放訓(xùn)練數(shù)據(jù)集目標(biāo)的(nInstances *1)numpy 數(shù)組。對(duì)象monitor 是回調(diào)函數(shù),用來(lái)提早停止訓(xùn)練。

Predict(X):Predict(x) 由一組屬性X 產(chǎn)生預(yù)測(cè),X 的列數(shù)(屬性數(shù))與訓(xùn)練數(shù)據(jù)集屬性數(shù)一致,X 可以有任意行的數(shù)據(jù)。

Staged_predict(x):此函數(shù)的行為與predict() 函數(shù)的行為類似,除了它是可迭代的,根據(jù)梯度提升法生成一系列模型,然后根據(jù)模型產(chǎn)生一系列的預(yù)測(cè)值。每次調(diào)用都會(huì)利用梯度提升法在已產(chǎn)生的一系列模型中增加一個(gè)決策樹,然后產(chǎn)生一個(gè)預(yù)測(cè)值。

?

2、GB用于分類

函數(shù)API官方解釋:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#sklearn.ensemble.GradientBoostingClassifier

(1)、重點(diǎn)參數(shù)解釋

loss:deviance 對(duì)于分類問題,deviance 是缺省的,也是唯一的選項(xiàng)。

(2)、重點(diǎn)方法解釋

fit(X,y , monitor=None):對(duì)于分類問題,其不同點(diǎn)只在于標(biāo)簽y 的不同。對(duì)應(yīng)分類問題,標(biāo)簽是0 到類別總數(shù)減1 的一個(gè)整數(shù)。對(duì)于二分類問題,標(biāo)簽值為0或者1。對(duì)于多類別分類問題,如果共有nClass 個(gè)不同的類別,則標(biāo)簽取值為0 ~ nClass-1。
decision_function(X):梯度提升分類器實(shí)際上是回歸決策樹的集合,會(huì)產(chǎn)生與所屬類別的概率相關(guān)的實(shí)數(shù)估計(jì)值。這些估計(jì)值還需要經(jīng)過反logistic 函數(shù)將其轉(zhuǎn)換為概率。轉(zhuǎn)換前的實(shí)數(shù)估計(jì)值可通過此函數(shù)獲得,對(duì)這些估計(jì)值的使用就像ROC 曲線計(jì)算中使用概率那樣簡(jiǎn)單。
predict(X):此函數(shù)預(yù)測(cè)所屬類別。
predict_proba(X):此函數(shù)預(yù)測(cè)所屬類別的概率。它對(duì)于每個(gè)類別有一列概率值。對(duì)于二分類問題有兩列。
? ? ? 對(duì)于多類別分類問題,共有nClass 列。上述函數(shù)的階段性(staged)版本是可迭代的,產(chǎn)生與決策樹數(shù)目相同的結(jié)果(也與
訓(xùn)練過程中執(zhí)行的步數(shù)一致)。

?

?

?

?

總結(jié)

以上是生活随笔為你收集整理的ML之GB:GB算法相关论文、相关思路、关键步骤、代码实现、配图集合、案例应用之详细攻略的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 精品人妻少妇嫩草av无码 | 国产免费一区视频观看免费 | 成人二区三区 | 久久精品国产亚洲AV无码男同 | 日本人视频69式jzzij | 午夜香蕉网 | av影音先锋 | 夜夜天天干| 伊人久久久久久久久久久久 | 亚洲天堂久久新 | 日本www网站 | 欧美视频在线观看 | a级片中文字幕 | www.色悠悠 | 女久久| 色成人综合网 | 日本黄色录相 | 免费日韩成人 | 丁香花电影免费播放电影 | 大陆极品少妇内射aaaaa | 伊人久久久久久久久久 | 琪琪在线视频 | 久99精品| 黄色三级大片 | 97超视频| 人人爱人人射 | 好看的国产精品 | www.色香蕉 | 亚洲h在线观看 | 天天操bb| 青娱乐99| 国产伦理一区 | 亚洲天天av | 国产黄色免费大片 | 亚洲欧美综合视频 | 亚洲女人天堂网 | 超碰h| 天天看黄色 | 成人午夜精品无码区 | 亚洲国产乱 | av制服丝袜| 北条麻妃青青久久 | 欧美在线一区二区视频 | 黑人精品欧美一区二区蜜桃 | 天天做天天爽 | 69av在线 | 污网站免费在线观看 | 欧美乱码精品一区二区 | 国产精品一区二 | 激情小说亚洲图片 | 亚洲毛片网 | 97影院在线午夜 | 日日躁夜夜躁白天躁晚上躁91 | 麻豆网站免费观看 | 最新视频 - 88av | 四虎永久免费影院 | 亚洲色图 在线视频 | 伊人首页| 天天操天天干天天摸 | 国产日韩在线观看一区 | 亚洲无吗在线观看 | 无码h黄肉3d动漫在线观看 | 黄色一级大片在线免费看国产一 | 高清一区二区 | 精品无码人妻一区二区三 | 欧美特级aaa | 亚洲欧洲自拍偷拍 | 亚洲国产丝袜 | 天堂视频免费 | 国产精品国产三级国产Av车上的 | 国产婷婷综合 | 8x国产一区二区三区精品推荐 | 久久综合激情 | 美女被草网站 | 天天狠狠 | 国产又粗又黄视频 | 日韩成人在线视频观看 | 日韩美女少妇 | 亚洲国产精品毛片av不卡在线 | 亚洲精品乱码久久久久久蜜桃欧美 | 国产片高清在线观看 | 欧美在线免费观看 | 97天天干 | 日韩麻豆视频 | 三级在线网站 | 二级毛片 | www色中色| 哺乳期给上司喂奶hd | 秋霞影院午夜丰满少妇在线视频 | 亚洲性自拍 | 少妇喷潮明星 | 欧洲女女同videos | 国产黑丝av| 色涩色 | 亚洲美免无码中文字幕在线 | 免费色网站 | 国内外免费激情视频 | 亚洲天堂三区 | 精品国产乱码久久久久久蜜臀网站 |