當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

GBDT、XGBoost、LightGBM比较

發(fā)布時(shí)間：2023/12/14 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 GBDT、XGBoost、LightGBM比较小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.GBDT

GBDT (Gradient Boosting Decision Tree) 梯度提升決策樹。DT－Decision Tree決策樹，GB是Gradient Boosting，是一種學(xué)習(xí)策略，GBDT的含義就是用Gradient Boosting的策略訓(xùn)練出來的DT模型

在前幾年深度學(xué)習(xí)還沒有大行其道之前，GBDT在各種競賽是大放異彩。一是效果確實(shí)挺不錯(cuò)。二是即可以用于分類也可以用于回歸。三是可以篩選特征。

Boosting共有的缺點(diǎn)為訓(xùn)練是按順序的，難以并行，這樣在大規(guī)模數(shù)據(jù)上可能導(dǎo)致速度過慢，所幸近年來XGBoost和LightGBM的出現(xiàn)都極大緩解了這個(gè)問題。XGBoost和LightGBM是GBDT的升級版。

支持以下應(yīng)用:
1）回歸，目標(biāo)函數(shù)為 L2 loss
2）二分類，目標(biāo)函數(shù)為 logloss（對數(shù)損失）
3）多分類
4）ambdarank, 目標(biāo)函數(shù)為基于 NDCG 的 lambdarank

GBDT學(xué)習(xí)總結(jié)（Boosting、決策樹）
https://blog.csdn.net/zephyr_wang/article/details/106409307

XGBoostLightGBM

默認(rèn)基于 pre-sorted 的算法	基于 histogram 的算法
	Leaf-wise (Best-first) 的決策樹生長策略
	連續(xù)的值替換為 discrete bins
	直方圖差加速

2.XGBoost

1）設(shè)計(jì)和建立了一個(gè)可擴(kuò)展的端到端的樹提升系統(tǒng)。特點(diǎn)是可以快速的處理大數(shù)據(jù)。2015-2017年。
2）引入了一個(gè)新穎的稀疏感知算法，可以并行的樹訓(xùn)練；
3）提出了一個(gè)理論上公平的權(quán)重分位數(shù)略圖方法，方便近似學(xué)習(xí)查找最佳分割點(diǎn)。
4）對于硬盤上的大數(shù)據(jù)的樹學(xué)習(xí)，我們提出了一個(gè)有效的緩存感知塊結(jié)構(gòu)，以及數(shù)據(jù)壓縮、分片。

XGBoost論文筆記(https://blog.csdn.net/zephyr_wang/article/details/109211849)

3.LightGBM

2017年。LightGBM在準(zhǔn)確率不影響的情況下，比XGBoost更快。

采用GOSS和EFB的GBDT算法，我們叫做LightGBM。Gradient-based One-Side Sampling (GOSS) and Exclusive Feature Bundling (EFB，排除在外特征的捆綁打包)。

采用GOSS，我們可以排除相當(dāng)比例的小梯度信息的數(shù)據(jù)實(shí)例，僅使用剩下的數(shù)據(jù)實(shí)例評估信息增益。擁有大梯度的數(shù)據(jù)實(shí)例在信息增益計(jì)算中扮演重要的角色。
即GOSS用來減少訓(xùn)練數(shù)據(jù)量。

采用EFB，我們可以把互斥的特征（他們很少同時(shí)擁有非零值）打包在一起，來減少特征的數(shù)量。尋找互斥特征的最優(yōu)打包是NP-hard（NP是指多項(xiàng)式復(fù)雜程度的非確定性問題non-deterministic polynomial，縮寫NP）的，但一個(gè)貪婪的算法可以完成很好的近似比率。
即EFB用來減少特征維度。

《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》論文筆記
https://blog.csdn.net/zephyr_wang/article/details/109244085

總結(jié)

以上是生活随笔為你收集整理的GBDT、XGBoost、LightGBM比较的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【币值最大化问题】
下一篇： p2p 企业信贷 UML 跨行清算