日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

LightGBM 重要参数、方法、函数理解及调参思路、网格搜索(附例子)

發布時間:2023/12/19 编程问答 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 LightGBM 重要参数、方法、函数理解及调参思路、网格搜索(附例子) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 一、LightGBM 原生接口
    • 重要參數
    • 訓練參數
    • 預測方法
    • 繪制特征重要性
    • 分類例子
    • 回歸例子
  • 二、LightGBM 的 sklearn 風格接口
    • LGBMClassifier
      • 基本使用
      • 例子
    • LGBMRegressor
      • 基本使用
      • 例子
  • 三、LightGBM 調參思路
  • 四、參數網格搜索

與 xgboost 類似,LightGBM包含原生接口和 sklearn 風格接口兩種,并且二者都實現了分類和回歸的功能。如果想了解一些理論性的內容,可以看看之前的文章:LightGBM 相關知識理解

一、LightGBM 原生接口

重要參數

boosting / boost / boosting_type

用于指定弱學習器的類型,默認值為 ‘gbdt’,表示使用基于樹的模型進行計算。還可以選擇為 ‘gblinear’ 表示使用線性模型作為弱學習器。

可選的參數值有:

  • ‘gbdt’,使用梯度提升樹
  • ‘rf’,使用隨機森林
  • ‘dart’,不太了解,官方解釋為 Dropouts meet Multiple Additive Regression Trees
  • ‘goss’,使用單邊梯度抽樣算法,速度很快,但是可能欠擬合。

推薦設置為 'gbdt’

objective / application

用于指定學習任務及相應的學習目標,常用的可選參數值如下:

  • “regression”,使用L2正則項的回歸模型(默認值)。
  • “regression_l1”,使用L1正則項的回歸模型。
  • “mape”,平均絕對百分比誤差。
  • “binary”,二分類。
  • “multiclass”,多分類。

num_class

用于設置多分類問題的類別個數。

min_child_samples

葉節點樣本的最少數量,默認值20,用于防止過擬合。

learning_rate / eta

LightGBM 不完全信任每個弱學習器學到的殘差值,為此需要給每個弱學習器擬合的殘差值都乘上取值范圍在(0, 1] 的 eta,設置較小的 eta 就可以多學習幾個弱學習器來彌補不足的殘差。

推薦的候選值為:[0.01, 0.015, 0.025, 0.05, 0.1]

max_depth

指定樹的最大深度,默認值為-1,表示不做限制,合理的設置可以防止過擬合。

推薦的數值為:[3, 5, 6, 7, 9, 12, 15, 17, 25]

num_leaves

指定葉子的個數,默認值為31,此參數的數值應該小于 2max_depth2^{max\_depth}2max_depth

feature_fraction / colsample_bytree

構建弱學習器時,對特征隨機采樣的比例,默認值為1。

推薦的候選值為:[0.6, 0.7, 0.8, 0.9, 1]

bagging_fraction / subsample

默認值1,指定采樣出 subsample * n_samples 個樣本用于訓練弱學習器。注意這里的子采樣和隨機森林不一樣,隨機森林使用的是放回抽樣,而這里是不放回抽樣。 取值在(0, 1)之間,設置為1表示使用所有數據訓練弱學習器。如果取值小于1,則只有一部分樣本會去做GBDT的決策樹擬合。選擇小于1的比例可以減少方差,即防止過擬合,但是會增加樣本擬合的偏差,因此取值不能太低。

注意: bagging_freq 設置為非0值時才生效。

推薦的候選值為:[0.6, 0.7, 0.8, 0.9, 1]

bagging_freq / subsample_freq

數值型,默認值0,表示禁用樣本采樣。如果設置為整數 z ,則每迭代 k 次執行一次采樣。

lambda_l1

L1正則化權重項,增加此值將使模型更加保守。

推薦的候選值為:[0, 0.01~0.1, 1]

lambda_l2

L2正則化權重項,增加此值將使模型更加保守。

推薦的候選值為:[0, 0.1, 0.5, 1]

min_gain_to_split / min_split_gain

指定葉節點進行分支所需的損失減少的最小值,默認值為0。設置的值越大,模型就越保守。

**推薦的候選值為:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1] **

min_sum_hessian_in_leaf / min_child_weight

指定孩子節點中最小的樣本權重和,如果一個葉子節點的樣本權重和小于min_child_weight則拆分過程結束,默認值為1。

推薦的候選值為:[1, 3, 5, 7]

metric

用于指定評估指標,可以傳遞各種評估方法組成的list。常用的評估指標如下:

  • ‘mae’,用于回歸任務,效果與 ‘mean_absolute_error’, ‘l1’ 相同。
  • ‘mse’,用于回歸任務,效果與 ‘mean_squared_error’, ‘l2’ 相同。
  • ‘rmse’,用于回歸任務,效果與 ‘root_mean_squared_error’, ‘l2_root’ 相同。
  • ‘auc’,用于二分類任務。
  • ‘binary’,用于二分類任務。
  • ‘binary_logloss’,用于二分類任務。
  • ‘binary_error’,用于二分類任務。
  • ‘multiclass’,用于多分類。
  • ‘multi_logloss’, 用于多分類。
  • ‘multi_error’, 用于多分類。

seed / random_state

指定隨機數種子。

訓練參數

以lightgbm.train為主,參數及默認值如下:

lightgbm.train(params, train_set, num_boost_round=100, valid_sets=None, valid_names=None, fobj=None, feval=None, init_model=None, feature_name='auto', categorical_feature='auto', early_stopping_rounds=None, evals_result=None, verbose_eval=True, learning_rates=None, keep_training_booster=False, callbacks=None)

1,params

字典類型,用于指定各種參數,例如:{‘booster’:‘gbtree’,‘eta’:0.1}

2,train_set

用于訓練的數據,通過給下面的方法傳遞數據和標簽來構造:

train_data = lgb.Dataset(train_x, train_y)

3,num_boost_round

指定最大迭代次數,默認值為10

4,valid_sets

列表類型,用于指定訓練過程中用于評估的數據及數據的名稱。例如:[train_data, valid_data]

train_data = lgb.Dataset(train_x, train_y) valid_data = lgb.Dataset(valid_x, valid_y, reference=train)

5,fobj

可以指定二階可導的自定義目標函數。

6,feval

自定義評估函數。

7,categorical_feature

指定哪些是類別特征。

8,early_stopping_rounds

指定迭代多少次沒有得到優化則停止訓練,默認值為None,表示不提前停止訓練。

注意:valid_sets 必須非空才能生效,如果有多個數據集,則以最后一個數據集為準。

9,verbose_eval

可以是bool類型,也可以是整數類型。如果設置為整數,則每間隔verbose_eval次迭代就輸出一次信息。

10,init_model

加載之前訓練好的 lgb 模型,用于增量訓練。

預測方法

predict(data, num_iteration=None)

參數說明:

  • data:string, numpy array, pandas DataFrame
  • num_iteration:選擇第幾次迭代用于預測,如果使用了 early_stopping_rounds,那么最佳的一次迭代將被使用

注意,對于分類問題,predict 方法返回的是屬于各個類別的概率,需要執行下面的語句才能獲取到預測的類別:

y_pred = model.predict(X_test) y_pred = np.argmax(y_pred, axis=1)

繪制特征重要性

代碼如下:

from lightgbm import plot_importance # 顯示重要特征,max_num_features 指定顯示多少個特征 plot_importance(lgb_model, max_num_features) plt.show()

分類例子

from sklearn.datasets import load_iris import lightgbm as lgb from lightgbm import plot_importance import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score# 加載鳶尾花數據集 iris = load_iris() X,y = iris.data,iris.target # 數據集分割 X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123457)# 參數 params = {'booster': 'gbtree','objective': 'multiclass','num_class': 3,'num_leaves': 31,'subsample': 0.8,'bagging_freq': 1,'feature_fraction ': 0.8,'slient': 1,'learning_rate ': 0.01,'seed': 0 }# 構造訓練集 dtrain = lgb.Dataset(X_train,y_train) dtest = lgb.Dataset(X_test,y_test) num_rounds = 500 # xgboost模型訓練 model = lgb.train(params,dtrain, num_rounds, valid_sets=[dtrain, dtest], verbose_eval=100, early_stopping_rounds=100)# 對測試集進行預測 y_pred = model.predict(X_test) # 計算準確率 accuracy = accuracy_score(y_test, np.argmax(y_pred, axis=1)) print('accuarcy:%.2f%%'%(accuracy*100))# 顯示重要特征 plot_importance(model) plt.show()

輸出結果:

Training until validation scores don't improve for 100 rounds. [100] training's multi_logloss: 0.0200407 valid_1's multi_logloss: 0.16259 Early stopping, best iteration is: [58] training's multi_logloss: 0.0522685 valid_1's multi_logloss: 0.113599 accuarcy:96.67%

回歸例子

from sklearn.datasets import load_boston import lightgbm as lgb from lightgbm import plot_importance import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error# 加載波士頓房價預測數據集 boston = load_boston() X,y = boston.data,boston.target# 數據集分割 X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)params = {'booster': 'gbtree','objective': 'regression','num_leaves': 31,'subsample': 0.8,'bagging_freq': 1,'feature_fraction ': 0.8,'slient': 1,'learning_rate ': 0.01,'seed': 0 }# 構造訓練集 dtrain = lgb.Dataset(X_train,y_train) dtest = lgb.Dataset(X_test,y_test) num_rounds = 500 # xgboost模型訓練 model = lgb.train(params,dtrain, num_rounds, valid_sets=[dtrain, dtest], verbose_eval=100, early_stopping_rounds=100)# 對測試集進行預測 y_pred = model.predict(X_test) print('mse:', mean_squared_error(y_test, y_pred))# 顯示重要特征 plot_importance(model) plt.show()

輸出:

Training until validation scores don't improve for 100 rounds. [100] training's l2: 1.98858 valid_1's l2: 22.4685 [200] training's l2: 0.76671 valid_1's l2: 21.9116 Early stopping, best iteration is: [141] training's l2: 1.29078 valid_1's l2: 21.7546 mse: 21.754638427136342

二、LightGBM 的 sklearn 風格接口

LGBMClassifier

基本使用

LGBMClassifier的引入以及重要參數的默認值如下:

from lightgbm import LGBMClassifier # 重要參數: lgb_model = LGBMClassifier(boosting_type='gbdt',num_leaves=31,max_depth=-1,learning_rate=0.1,n_estimators=100,objective='binary', # 默認是二分類min_split_gain=0.0,min_child_samples=20,subsample=1.0,subsample_freq=0,colsample_bytree=1.0,reg_alpha=0.0,reg_lambda=0.0,random_state=None,silent=True )

其中絕大多數的參數在上文已經說明,不再贅述。

與原生的LightGBM相比,LGBMClassifier并不是調用train方法進行訓練,而是使用fit方法:

lgb_model.fit(X, # array, DataFrame 類型y, # array, Series 類型eval_set=None, # 用于評估的數據集,例如:[(X_train, y_train), (X_test, y_test)]eval_metric=None, # 評估函數,字符串類型,例如:'l2', 'logloss'early_stopping_rounds=None, verbose=True # 設置為正整數表示間隔多少次迭代輸出一次信息 )

預測的方法有兩種:

lgb_model.predict(data) # 返回預測值 lgb_model.predict_proba(data) # 返回各個樣本屬于各個類別的概率

例子

from lightgbm import LGBMClassifier from sklearn.datasets import load_iris from lightgbm import plot_importance import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score# 加載樣本數據集 iris = load_iris() X,y = iris.data,iris.target X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)model = LGBMClassifier(max_depth=3,learning_rate=0.1,n_estimators=200, # 使用多少個弱分類器objective='multiclass',num_class=3,booster='gbtree',min_child_weight=2,subsample=0.8,colsample_bytree=0.8,reg_alpha=0,reg_lambda=1,seed=0 # 隨機數種子 ) model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], verbose=100, early_stopping_rounds=50)# 對測試集進行預測 y_pred = model.predict(X_test) model.predict_proba #計算準確率 accuracy = accuracy_score(y_test,y_pred) print('accuracy:%3.f%%'%(accuracy*100))# 顯示重要特征 plot_importance(model) plt.show()

輸出:

Training until validation scores don't improve for 50 rounds. Early stopping, best iteration is: [42] training's multi_logloss: 0.0831629 valid_1's multi_logloss: 0.183711 accuracy: 97%

LGBMRegressor

基本使用

XGBRegressor與XGBClassifier類似,其引入以及重要參數的默認值如下:

from lightgbm import LGBMRegressor # 重要參數: lgb_model = LGBMRegressor(boosting_type='gbdt',num_leaves=31,max_depth=-1,learning_rate=0.1,n_estimators=100,objective='regression', # 默認是二分類min_split_gain=0.0,min_child_samples=20,subsample=1.0,subsample_freq=0,colsample_bytree=1.0,reg_alpha=0.0,reg_lambda=0.0,random_state=None,silent=True )

其 fit 方法、predict方法與 LGBMClassifier幾乎相同,不再重復說明。

例子

from lightgbm import LGBMRegressor from lightgbm import plot_importance import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.datasets import load_boston from sklearn.metrics import mean_squared_error# 導入數據集 boston = load_boston() X ,y = boston.data,boston.target X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)model = LGBMRegressor(boosting_type='gbdt',num_leaves=31,max_depth=-1,learning_rate=0.1,n_estimators=100,objective='regression', # 默認是二分類min_split_gain=0.0,min_child_samples=20,subsample=1.0,subsample_freq=0,colsample_bytree=1.0,reg_alpha=0.0,reg_lambda=0.0,random_state=None,silent=True )model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], verbose=100, early_stopping_rounds=50)# 對測試集進行預測 y_pred = model.predict(X_test) mse = mean_squared_error(y_test,y_pred) print('mse', mse)# 顯示重要特征 plot_importance(model) plt.show()

輸出:

Training until validation scores don't improve for 50 rounds. [100] training's l2: 1.99687 valid_1's l2: 24.4987 Did not meet early stopping. Best iteration is: [100] training's l2: 1.99687 valid_1's l2: 24.4987 mse 24.498696726728348

三、LightGBM 調參思路

(1)選擇較高的學習率,例如0.1,這樣可以減少迭代用時。

(2)然后對 max_depth, num_leaves, min_data_in_leaf, min_split_gain, subsample, colsample_bytree 這些參數進行調整。

其中,num_leaves < 2max_depth2^{max\_depth}2max_depth。而 min_data_in_leaf 是一個很重要的參數, 也叫min_child_samples,它的值取決于訓練數據的樣本個樹和num_leaves. 將其設置的較大可以避免生成一個過深的樹, 但有可能導致欠擬合。

其他參數的合適候選值為:

  • max_depth:[3, 5, 6, 7, 9, 12, 15, 17, 25]
  • min_split_gain:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1]
  • subsample:[0.6, 0.7, 0.8, 0.9, 1]
  • colsample_bytree:[0.6, 0.7, 0.8, 0.9, 1]

(3)調整正則化參數 reg_lambda , reg_alpha,這些參數的合適候選值為:

  • reg_alpha:[0, 0.01~0.1, 1]
  • reg_lambda :[0, 0.1, 0.5, 1]

(4)降低學習率,繼續調整參數,學習率合適候選值為:[0.01, 0.015, 0.025, 0.05, 0.1]

四、參數網格搜索

from sklearn.datasets import load_iris import lightgbm as lgb from sklearn.model_selection import GridSearchCV # Perforing grid search from sklearn.model_selection import train_test_split# 加載樣本數據集 iris = load_iris() X,y = iris.data,iris.target X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343) train_x, valid_x, train_y, valid_y = train_test_split(X, y, test_size=0.333, random_state=0) # 分訓練集和驗證集 train = lgb.Dataset(train_x, train_y) valid = lgb.Dataset(valid_x, valid_y, reference=train)parameters = {'max_depth': [15, 20, 25, 30, 35],'learning_rate': [0.01, 0.02, 0.05, 0.1, 0.15],'feature_fraction': [0.6, 0.7, 0.8, 0.9, 0.95],'bagging_fraction': [0.6, 0.7, 0.8, 0.9, 0.95],'bagging_freq': [2, 4, 5, 6, 8],'lambda_l1': [0, 0.1, 0.4, 0.5, 0.6],'lambda_l2': [0, 10, 15, 35, 40],'cat_smooth': [1, 10, 15, 20, 35] } gbm = LGBMClassifier(max_depth=3,learning_rate=0.1,n_estimators=200, # 使用多少個弱分類器objective='multiclass',num_class=3,booster='gbtree',min_child_weight=2,subsample=0.8,colsample_bytree=0.8,reg_alpha=0,reg_lambda=1,seed=0 # 隨機數種子) # 有了gridsearch我們便不需要fit函數 gsearch = GridSearchCV(gbm, param_grid=parameters, scoring='accuracy', cv=3) gsearch.fit(train_x, train_y)print("Best score: %0.3f" % gsearch.best_score_) print("Best parameters set:") best_parameters = gsearch.best_estimator_.get_params() for param_name in sorted(parameters.keys()):print("\t%s: %r" % (param_name, best_parameters[param_name]))

參考文章:

Parameters

lightgbm.LGBMClassifier

lightgbm.LGBMRegressor

LightGBM核心解析與調參

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的LightGBM 重要参数、方法、函数理解及调参思路、网格搜索(附例子)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。