當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Sklearn参数详解—GBDT

發(fā)布時(shí)間：2023/12/19 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 Sklearn参数详解—GBDT 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

總第113篇

前言

這篇介紹Boosting的第二個(gè)模型GBDT，GBDT和Adaboost都是Boosting模型的一種，但是略有不同，主要有以下兩點(diǎn)不同：

GBDT使用的基模型是CART決策樹(shù)，且只能是CART決策樹(shù)，而Adaboost的默認(rèn)基模型是CART決策樹(shù)，可以是其他模型。
GBDT通過(guò)計(jì)算每次模型的負(fù)梯度來(lái)進(jìn)行模型迭代，而Adaboost模型則根據(jù)錯(cuò)分率來(lái)進(jìn)行模型迭代。

參數(shù)

class?sklearn.ensemble.GradientBoostingClassifier(loss='deviance',?learning_rate=0.1,?n_estimators=100,?subsample=1.0,?criterion='friedman_mse',?min_samples_split=2,?min_samples_leaf=1,?min_weight_fraction_leaf=0.0,?max_depth=3,?min_impurity_decrease=0.0,?min_impurity_split=None,?init=None,?random_state=None,?max_features=None,?verbose=0,?max_leaf_nodes=None,?warm_start=False,?presort='auto')

因基分類器是決策樹(shù)，所以很多參數(shù)都是用來(lái)控制決策樹(shù)生成的，這些參數(shù)與前面決策樹(shù)參數(shù)基本一致，對(duì)于一致的就不進(jìn)行贅述。關(guān)于決策樹(shù)參數(shù)看這里：Sklearn參數(shù)詳解--決策樹(shù)

loss:損失函數(shù)度量，有對(duì)數(shù)似然損失deviance和指數(shù)損失函數(shù)exponential兩種，默認(rèn)是deviance，即對(duì)數(shù)似然損失，如果使用指數(shù)損失函數(shù)，則相當(dāng)于Adaboost模型。

criterion: 樣本集的切分策略，決策樹(shù)中也有這個(gè)參數(shù)，但是兩個(gè)參數(shù)值不一樣，這里的參數(shù)值主要有friedman_mse、mse和mae3個(gè)，分別對(duì)應(yīng)friedman最小平方誤差、最小平方誤差和平均絕對(duì)值誤差，friedman最小平方誤差是最小平方誤差的近似。

subsample:采樣比例，這里的采樣和bagging的采樣不是一個(gè)概念，這里的采樣是指選取多少比例的數(shù)據(jù)集利用決策樹(shù)基模型去boosting，默認(rèn)是1.0，即在全量數(shù)據(jù)集上利用決策樹(shù)去boosting。

warm_start:“暖啟動(dòng)”，默認(rèn)值是False，即關(guān)閉狀態(tài)，如果打開(kāi)則表示，使用先前調(diào)試好的模型，在該模型的基礎(chǔ)上繼續(xù)boosting，如果關(guān)閉，則表示在樣本集上從新訓(xùn)練一個(gè)新的基模型，且在該模型的基礎(chǔ)上進(jìn)行boosting。

屬性/對(duì)象

feature_importance_:特征重要性。
oob_improvement_:每一次迭代對(duì)應(yīng)的loss提升量。oob_improvement_[0]表示第一次提升對(duì)應(yīng)的loss提升量。
train_score_:表示在樣本集上每次迭代以后的對(duì)應(yīng)的損失函數(shù)值。
loss_:損失函數(shù)。
estimators_：基分類器個(gè)數(shù)。

方法

apply(X)：將訓(xùn)練好的模型應(yīng)用在數(shù)據(jù)集X上，并返回?cái)?shù)據(jù)集X對(duì)應(yīng)的葉指數(shù)。
decision_function(X):返回決策函數(shù)值（比如svm中的決策距離）
fit(X,Y):在數(shù)據(jù)集（X,Y）上訓(xùn)練模型。
get_parms():獲取模型參數(shù)
predict(X):預(yù)測(cè)數(shù)據(jù)集X的結(jié)果。
predict_log_proba(X):預(yù)測(cè)數(shù)據(jù)集X的對(duì)數(shù)概率。
predict_proba(X):預(yù)測(cè)數(shù)據(jù)集X的概率值。
score(X,Y):輸出數(shù)據(jù)集（X,Y）在模型上的準(zhǔn)確率。
staged_decision_function(X):返回每個(gè)基分類器的決策函數(shù)值
staged_predict(X):返回每個(gè)基分類器的預(yù)測(cè)數(shù)據(jù)集X的結(jié)果。
staged_predict_proba(X):返回每個(gè)基分類器的預(yù)測(cè)數(shù)據(jù)集X的概率結(jié)果。

你還可以看：

Sklearn參數(shù)詳解—Adaboost

Sklearn參數(shù)詳解—貝葉斯

Sklearn參數(shù)詳解—SVM

總結(jié)

以上是生活随笔為你收集整理的Sklearn参数详解—GBDT的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Sklearn参数详解—Adaboost
下一篇： SKlearn参数详解—随机森林