GBDT、XGBoost、LightGBM比较
1.GBDT
GBDT (Gradient Boosting Decision Tree) 梯度提升決策樹。DT-Decision Tree決策樹,GB是Gradient Boosting,是一種學(xué)習(xí)策略,GBDT的含義就是用Gradient Boosting的策略訓(xùn)練出來的DT模型
在前幾年深度學(xué)習(xí)還沒有大行其道之前,GBDT在各種競賽是大放異彩。一是效果確實(shí)挺不錯(cuò)。二是即可以用于分類也可以用于回歸。三是可以篩選特征。
Boosting共有的缺點(diǎn)為訓(xùn)練是按順序的,難以并行,這樣在大規(guī)模數(shù)據(jù)上可能導(dǎo)致速度過慢,所幸近年來XGBoost和LightGBM的出現(xiàn)都極大緩解了這個(gè)問題。XGBoost和LightGBM是GBDT的升級版。
支持以下應(yīng)用:
1)回歸,目標(biāo)函數(shù)為 L2 loss
2)二分類, 目標(biāo)函數(shù)為 logloss(對數(shù)損失)
3)多分類
4)ambdarank, 目標(biāo)函數(shù)為基于 NDCG 的 lambdarank
GBDT學(xué)習(xí)總結(jié)(Boosting、決策樹)
https://blog.csdn.net/zephyr_wang/article/details/106409307
| 默認(rèn)基于 pre-sorted 的算法 | 基于 histogram 的算法 |
| Leaf-wise (Best-first) 的決策樹生長策略 | |
| 連續(xù)的值替換為 discrete bins | |
| 直方圖差加速 |
2.XGBoost
1)設(shè)計(jì)和建立了一個(gè)可擴(kuò)展的端到端的樹提升系統(tǒng)。特點(diǎn)是可以快速的處理大數(shù)據(jù)。2015-2017年。
2)引入了一個(gè)新穎的稀疏感知算法,可以并行的樹訓(xùn)練;
3)提出了一個(gè)理論上公平的權(quán)重分位數(shù)略圖方法,方便近似學(xué)習(xí)查找最佳分割點(diǎn)。
4)對于硬盤上的大數(shù)據(jù)的樹學(xué)習(xí),我們提出了一個(gè)有效的緩存感知塊結(jié)構(gòu),以及數(shù)據(jù)壓縮、分片。
XGBoost論文筆記(https://blog.csdn.net/zephyr_wang/article/details/109211849)
3.LightGBM
2017年。LightGBM在準(zhǔn)確率不影響的情況下,比XGBoost更快。
采用GOSS和EFB的GBDT算法,我們叫做LightGBM。Gradient-based One-Side Sampling (GOSS) and Exclusive Feature Bundling (EFB,排除在外特征的捆綁打包)。
采用GOSS,我們可以排除相當(dāng)比例的小梯度信息的數(shù)據(jù)實(shí)例,僅使用剩下的數(shù)據(jù)實(shí)例評估信息增益。擁有大梯度的數(shù)據(jù)實(shí)例在信息增益計(jì)算中扮演重要的角色。
即GOSS用來減少訓(xùn)練數(shù)據(jù)量。
采用EFB,我們可以把互斥的特征(他們很少同時(shí)擁有非零值)打包在一起,來減少特征的數(shù)量。尋找互斥特征的最優(yōu)打包是NP-hard(NP是指多項(xiàng)式復(fù)雜程度的非確定性問題non-deterministic polynomial,縮寫NP)的,但一個(gè)貪婪的算法可以完成很好的近似比率。
即EFB用來減少特征維度。
《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》論文筆記
https://blog.csdn.net/zephyr_wang/article/details/109244085
總結(jié)
以上是生活随笔為你收集整理的GBDT、XGBoost、LightGBM比较的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【币值最大化问题】
- 下一篇: p2p 企业信贷 UML 跨行清算