Sklearn参数详解—GBDT
總第113篇
前言
這篇介紹Boosting的第二個(gè)模型GBDT,GBDT和Adaboost都是Boosting模型的一種,但是略有不同,主要有以下兩點(diǎn)不同:
GBDT使用的基模型是CART決策樹(shù),且只能是CART決策樹(shù),而Adaboost的默認(rèn)基模型是CART決策樹(shù),可以是其他模型。
GBDT通過(guò)計(jì)算每次模型的負(fù)梯度來(lái)進(jìn)行模型迭代,而Adaboost模型則根據(jù)錯(cuò)分率來(lái)進(jìn)行模型迭代。
參數(shù)
class?sklearn.ensemble.GradientBoostingClassifier(loss='deviance',?learning_rate=0.1,?n_estimators=100,?subsample=1.0,?criterion='friedman_mse',?min_samples_split=2,?min_samples_leaf=1,?min_weight_fraction_leaf=0.0,?max_depth=3,?min_impurity_decrease=0.0,?min_impurity_split=None,?init=None,?random_state=None,?max_features=None,?verbose=0,?max_leaf_nodes=None,?warm_start=False,?presort='auto')因基分類器是決策樹(shù),所以很多參數(shù)都是用來(lái)控制決策樹(shù)生成的,這些參數(shù)與前面決策樹(shù)參數(shù)基本一致,對(duì)于一致的就不進(jìn)行贅述。關(guān)于決策樹(shù)參數(shù)看這里:Sklearn參數(shù)詳解--決策樹(shù)
loss:損失函數(shù)度量,有對(duì)數(shù)似然損失deviance和指數(shù)損失函數(shù)exponential兩種,默認(rèn)是deviance,即對(duì)數(shù)似然損失,如果使用指數(shù)損失函數(shù),則相當(dāng)于Adaboost模型。
criterion: 樣本集的切分策略,決策樹(shù)中也有這個(gè)參數(shù),但是兩個(gè)參數(shù)值不一樣,這里的參數(shù)值主要有friedman_mse、mse和mae3個(gè),分別對(duì)應(yīng)friedman最小平方誤差、最小平方誤差和平均絕對(duì)值誤差,friedman最小平方誤差是最小平方誤差的近似。
subsample:采樣比例,這里的采樣和bagging的采樣不是一個(gè)概念,這里的采樣是指選取多少比例的數(shù)據(jù)集利用決策樹(shù)基模型去boosting,默認(rèn)是1.0,即在全量數(shù)據(jù)集上利用決策樹(shù)去boosting。
warm_start:“暖啟動(dòng)”,默認(rèn)值是False,即關(guān)閉狀態(tài),如果打開(kāi)則表示,使用先前調(diào)試好的模型,在該模型的基礎(chǔ)上繼續(xù)boosting,如果關(guān)閉,則表示在樣本集上從新訓(xùn)練一個(gè)新的基模型,且在該模型的基礎(chǔ)上進(jìn)行boosting。
屬性/對(duì)象
feature_importance_:特征重要性。
oob_improvement_:每一次迭代對(duì)應(yīng)的loss提升量。oob_improvement_[0]表示第一次提升對(duì)應(yīng)的loss提升量。
train_score_:表示在樣本集上每次迭代以后的對(duì)應(yīng)的損失函數(shù)值。
loss_:損失函數(shù)。
estimators_:基分類器個(gè)數(shù)。
方法
apply(X):將訓(xùn)練好的模型應(yīng)用在數(shù)據(jù)集X上,并返回?cái)?shù)據(jù)集X對(duì)應(yīng)的葉指數(shù)。
decision_function(X):返回決策函數(shù)值(比如svm中的決策距離)
fit(X,Y):在數(shù)據(jù)集(X,Y)上訓(xùn)練模型。
get_parms():獲取模型參數(shù)
predict(X):預(yù)測(cè)數(shù)據(jù)集X的結(jié)果。
predict_log_proba(X):預(yù)測(cè)數(shù)據(jù)集X的對(duì)數(shù)概率。
predict_proba(X):預(yù)測(cè)數(shù)據(jù)集X的概率值。
score(X,Y):輸出數(shù)據(jù)集(X,Y)在模型上的準(zhǔn)確率。
staged_decision_function(X):返回每個(gè)基分類器的決策函數(shù)值
staged_predict(X):返回每個(gè)基分類器的預(yù)測(cè)數(shù)據(jù)集X的結(jié)果。
staged_predict_proba(X):返回每個(gè)基分類器的預(yù)測(cè)數(shù)據(jù)集X的概率結(jié)果。
你還可以看:
Sklearn參數(shù)詳解—Adaboost
Sklearn參數(shù)詳解—貝葉斯
Sklearn參數(shù)詳解—SVM
總結(jié)
以上是生活随笔為你收集整理的Sklearn参数详解—GBDT的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Sklearn参数详解—Adaboost
- 下一篇: SKlearn参数详解—随机森林