當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据分析利器：XGBoost算法最佳解析

發(fā)布時(shí)間：2024/2/28 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了数据分析利器：XGBoost算法最佳解析小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者：symonxiong，騰訊 CDG 應(yīng)用研究員

XGBoost是一種經(jīng)典的集成式提升算法框架，具有訓(xùn)練效率高、預(yù)測(cè)效果好、可控參數(shù)多、使用方便等特性，是大數(shù)據(jù)分析領(lǐng)域的一柄利器。在實(shí)際業(yè)務(wù)中，XGBoost經(jīng)常被運(yùn)用于用戶行為預(yù)判、用戶標(biāo)簽預(yù)測(cè)、用戶信用評(píng)分等項(xiàng)目中。XGBoost算法框架涉及到比較多數(shù)學(xué)公式和優(yōu)化技巧，比較難懂，容易出現(xiàn)一知半解的情況。由于XGBoost在數(shù)據(jù)分析領(lǐng)域?qū)嵲谑翘?jīng)典、太常用，最近帶著敬畏之心，對(duì)陳天奇博士的Paper和XGBoost官網(wǎng)重新學(xué)習(xí)了一下，基于此，本文對(duì)XGBoost算法的來(lái)龍去脈進(jìn)行小結(jié)。

本文重點(diǎn)解析XGBoost算法框架的原理，希望通過(guò)本文能夠洞悉XGBoost核心算法的來(lái)龍去脈。對(duì)于XGBoost算法，最先想到的是Boosting算法。Boosting提升算法是一種有效且被廣泛使用的模型訓(xùn)練算法，XGBoost也是基于Boosting來(lái)實(shí)現(xiàn)。Boosting算法思想是對(duì)弱分類器基礎(chǔ)上不斷改進(jìn)提升，并將這些分類器集成在一起，形成一個(gè)強(qiáng)分類器。簡(jiǎn)而言之，XGBoost算法可以說(shuō)是一種集成式提升算法，是將許多基礎(chǔ)模型集成在一起，形成一個(gè)很強(qiáng)的模型。這里的基礎(chǔ)模型可以是分類與回歸決策樹(shù)CART（Classification and Regression Trees），也可以是線性模型。如果基礎(chǔ)模型是CART樹(shù)（如圖1所示），比如第1顆決策樹(shù)tree1預(yù)測(cè)左下角男孩的值為+2，對(duì)于第1顆決策樹(shù)遺留下來(lái)的剩余部分，使用第2顆決策樹(shù)預(yù)測(cè)值為+0.9，則對(duì)男孩的總預(yù)測(cè)值為2+0.9=2.9。

圖1.基于二叉樹(shù)的XGBoost模型

XGBoost算法框架可以分為四個(gè)階段來(lái)理解（如圖2所示）。第一個(gè)階段，如何構(gòu)造目標(biāo)函數(shù)？ ?在進(jìn)行優(yōu)化求解時(shí)，首先需要構(gòu)造目標(biāo)函數(shù)，有了目標(biāo)函數(shù)才能進(jìn)行優(yōu)化求解。這種思路和LR模型（Logistic Regression）是一致。在LR模型中，首先，對(duì)于回歸問(wèn)題構(gòu)造平方項(xiàng)損失，對(duì)于分類問(wèn)題構(gòu)造最大似然損失作為目標(biāo)函數(shù)，然后基于構(gòu)造好的目標(biāo)函數(shù)，才會(huì)考慮采用梯度下降算法進(jìn)行優(yōu)化求解，比如隨機(jī)梯度下降、Mini-Batch批量梯度下降、梯度下降等。在這個(gè)階段，我們可以得到XGBoost的基本目標(biāo)函數(shù)結(jié)構(gòu)。

第二個(gè)階段，目標(biāo)函數(shù)優(yōu)化求解困難，如何對(duì)目標(biāo)函數(shù)近似轉(zhuǎn)換？ 在第一個(gè)階段得到的基本目標(biāo)函數(shù)較為復(fù)雜，不是凸函數(shù)，沒(méi)法使用連續(xù)性變量對(duì)目標(biāo)函數(shù)直接優(yōu)化求極值。因此，使用泰勒級(jí)數(shù)對(duì)目標(biāo)函數(shù)進(jìn)行展開(kāi)，對(duì)目標(biāo)函數(shù)規(guī)整、重組后，將目標(biāo)函數(shù)轉(zhuǎn)換為關(guān)于預(yù)測(cè)殘差的多項(xiàng)式函數(shù)。

第三個(gè)階段，如何將樹(shù)的結(jié)構(gòu)引入到目標(biāo)函數(shù)中？ 第二個(gè)階段得到的多項(xiàng)式目標(biāo)函數(shù)是一個(gè)復(fù)合函數(shù)。被預(yù)測(cè)的殘差和模型復(fù)雜度還是未知的函數(shù)，需要對(duì)這兩個(gè)函數(shù)進(jìn)行參數(shù)化表示，即將決策樹(shù)的結(jié)構(gòu)信息通過(guò)數(shù)學(xué)符號(hào)表示出來(lái)。在第三個(gè)階段，在樹(shù)的形狀確定情況下，可以優(yōu)化求解出局部最優(yōu)解。

第四個(gè)階段，如何確定樹(shù)的形狀，要不要使用貪心算法？ 如何在模型空間里面尋找最優(yōu)的決策樹(shù)形狀，這是一個(gè)NP-Hard問(wèn)題，我們很難對(duì)可能存在的樹(shù)結(jié)構(gòu)全部羅列出來(lái)，尤其在特征個(gè)數(shù)很多情況下。因此，在這里需要使用貪心算法來(lái)求得局部最優(yōu)解。

圖2.XGBoost算法構(gòu)建邏輯

1.如何構(gòu)造目標(biāo)函數(shù)？

當(dāng)使用多棵樹(shù)來(lái)預(yù)測(cè)時(shí)，假設(shè)已經(jīng)訓(xùn)練了棵樹(shù)，則對(duì)于第個(gè)樣本的（最終）預(yù)測(cè)值為：

在公式1中，表示對(duì) 個(gè)樣本的預(yù)測(cè)值，屬于集合范圍內(nèi)，表示通過(guò)第棵樹(shù)對(duì)第個(gè)樣本進(jìn)行預(yù)測(cè)，比如第1棵樹(shù)預(yù)測(cè)值為，第2棵樹(shù)預(yù)測(cè)值為，依次類推，將這些樹(shù)的預(yù)測(cè)值累加到一起，則得到樣本的最終預(yù)測(cè)值。因此，如果要得到樣本的最終預(yù)測(cè)值，需要訓(xùn)練得到棵樹(shù)。

如果要訓(xùn)練得到棵樹(shù)，首先需要構(gòu)造訓(xùn)練的目標(biāo)函數(shù)(如公式2所示)。在構(gòu)建模型時(shí)，不僅需要考慮到模型的預(yù)測(cè)準(zhǔn)確性，還需要考慮到模型的復(fù)雜程度，既準(zhǔn)確又簡(jiǎn)單的模型在實(shí)際應(yīng)用中的效果才是最好的。因此，目標(biāo)函數(shù)由兩部分構(gòu)成，第一部分表示損失函數(shù)，比如平方損失、交叉熵?fù)p失、折頁(yè)損失函數(shù)等。第一部分表示個(gè)樣本總的損失函數(shù)值。因?yàn)樵谶@里通過(guò)樣本預(yù)測(cè)值和樣本真實(shí)值的比較，可以計(jì)算出針對(duì)樣本的模型預(yù)測(cè)損失值。這里可以暫時(shí)先不用考慮損失函數(shù)的具體形式，因?yàn)檫@里的損失函數(shù)，可以統(tǒng)一表示回歸與分類問(wèn)題的損失函數(shù)形式。

公式2的第二部分表示正則項(xiàng)，是用來(lái)控制模型的復(fù)雜度，模型越復(fù)雜，懲罰力度越大，從而提升模型的泛化能力，因?yàn)樵綇?fù)雜的模型越容易過(guò)擬合。XGBoost的正則化思路跟模型中加/正則化思路一致，不同的地方在于正則化項(xiàng)具體物理含義不同。在這里表示第棵樹(shù)的復(fù)雜度，接下來(lái)的問(wèn)題是如何對(duì)樹(shù)的復(fù)雜度進(jìn)行參數(shù)化表示，這樣后面才能進(jìn)行參數(shù)優(yōu)化。

在損失函數(shù)中，是有很多個(gè)模型（決策樹(shù)）共同參與，通過(guò)疊加式的訓(xùn)練得到。如圖2所示，訓(xùn)練完第一顆樹(shù)后，對(duì)于第一棵樹(shù)沒(méi)有訓(xùn)練好的地方，使用第二顆樹(shù)訓(xùn)練，依次類推，訓(xùn)練第個(gè)棵樹(shù)，最后訓(xùn)練第顆樹(shù)。當(dāng)在訓(xùn)練第棵樹(shù)時(shí)，前面的第1棵樹(shù)到第顆樹(shù)是已知的，未知的是第棵樹(shù)，即基于前面構(gòu)建的決策樹(shù)已知情況下，構(gòu)建第棵樹(shù)。

圖3.XGBoost疊加式訓(xùn)練

對(duì)于樣本，首先初始化假定第0棵樹(shù)為，預(yù)測(cè)值為，然后在第0棵樹(shù)基礎(chǔ)上訓(xùn)練第1棵樹(shù)，得到預(yù)測(cè)值，在第1棵樹(shù)基礎(chǔ)上訓(xùn)練第2顆樹(shù)，又可以得到預(yù)測(cè)值，依次類推，當(dāng)訓(xùn)練第棵樹(shù)的時(shí)候，前面棵樹(shù)的總預(yù)測(cè)值為，遞推訓(xùn)練具體過(guò)程如下所示：

根據(jù)XGBoost的遞推訓(xùn)練過(guò)程，每棵決策樹(shù)訓(xùn)練時(shí)會(huì)得到樣本對(duì)應(yīng)的預(yù)測(cè)值，根據(jù)樣本預(yù)測(cè)值和真實(shí)值比較，可以計(jì)算得到模型預(yù)測(cè)損失值。又因?yàn)橛?xùn)練所得的每棵決策樹(shù)都有對(duì)應(yīng)的結(jié)構(gòu)信息，因此可以得到每棵決策樹(shù)的復(fù)雜度。根據(jù)這些信息，可以對(duì)目標(biāo)函數(shù)公式2進(jìn)行簡(jiǎn)化，得到公式3。

在公式3中，表示訓(xùn)練樣本個(gè)數(shù)，為顆決策樹(shù)累加的預(yù)測(cè)值，為顆決策樹(shù)總的復(fù)雜度，在訓(xùn)練第顆決策樹(shù)時(shí)，這兩個(gè)東西是已知的，即在對(duì)目標(biāo)函數(shù)進(jìn)行求最小值優(yōu)化時(shí)候，和為已知。因此，將常數(shù)項(xiàng)拿掉，得到公式4作為XGBoost的目標(biāo)函數(shù)。

2.目標(biāo)函數(shù)優(yōu)化困難，如何對(duì)函數(shù)近似轉(zhuǎn)換？

在公式4中，已經(jīng)得到了需要優(yōu)化的目標(biāo)函數(shù)，這個(gè)目標(biāo)函數(shù)已經(jīng)是簡(jiǎn)化后的函數(shù)。對(duì)于公式4，沒(méi)法進(jìn)行進(jìn)一步優(yōu)化。為了解決目標(biāo)函數(shù)無(wú)法進(jìn)行進(jìn)一步優(yōu)化，XGBoost原文是使用泰勒級(jí)數(shù)展開(kāi)式技術(shù)對(duì)目標(biāo)函數(shù)進(jìn)行近似轉(zhuǎn)換，即使用函數(shù)的1階、2階、3階...階導(dǎo)數(shù)和對(duì)應(yīng)的函數(shù)值，將目標(biāo)函數(shù)進(jìn)行多項(xiàng)式展開(kāi)，多項(xiàng)式階數(shù)越多，對(duì)目標(biāo)函數(shù)的近似程度越高。這樣做的好處是便于后面優(yōu)化求解。

令，，帶入到目標(biāo)函數(shù)公式4，得到基于二階泰勒展開(kāi)式的函數(shù)(如公式5所示)，其中，。

在訓(xùn)練第顆樹(shù)時(shí)，目標(biāo)函數(shù)（公式5）中，，、是已知的。因此，可以將已知常數(shù)項(xiàng)去掉，得到進(jìn)一步簡(jiǎn)化后的目標(biāo)函數(shù)（公式6）。、分別表示第顆決策樹(shù)的損失函數(shù)的1階、2階導(dǎo)數(shù)。前面顆決策樹(shù)預(yù)測(cè)后，通過(guò)、將前面第顆決策樹(shù)的預(yù)測(cè)損失信息傳遞給第顆決策樹(shù)。在公式6中，第顆樹(shù)的預(yù)測(cè)函數(shù)、樹(shù)復(fù)雜度函數(shù)對(duì)于我們來(lái)說(shuō)，仍然都是未知的，因此需要將其參數(shù)化，通過(guò)參數(shù)形式表示出來(lái)，才能進(jìn)行下一步的優(yōu)化求解。

3.如何將樹(shù)結(jié)構(gòu)引入到目標(biāo)函數(shù)中？

接下來(lái)的問(wèn)題是如何對(duì)函數(shù)、進(jìn)行參數(shù)化表示。首先，對(duì)于葉子權(quán)重函數(shù)，如圖4所示決策樹(shù)，有1號(hào)、2號(hào)、3號(hào)葉子節(jié)點(diǎn)，這三個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的取值分別為15，12，20，在1號(hào)葉子節(jié)點(diǎn)上，有{1,3}兩個(gè)樣本，在2號(hào)葉子節(jié)點(diǎn)上，有{4}一個(gè)樣本，在3號(hào)葉子節(jié)點(diǎn)上，有{2,5}兩個(gè)樣本。在這里，使用來(lái)表示決策樹(shù)的葉子權(quán)重值，三個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的葉子權(quán)重值為、、。對(duì)于樣本落在決策樹(shù)葉子節(jié)點(diǎn)的位置信息，使用表示，表示樣本1落在第1個(gè)葉子節(jié)點(diǎn)上，表示樣本1落在第3個(gè)葉子節(jié)點(diǎn)上，表示樣本4落在第2個(gè)葉子節(jié)點(diǎn)上。

圖4.XGBoost決策樹(shù)結(jié)構(gòu)

對(duì)于第顆樹(shù)的葉子權(quán)重函數(shù)，根據(jù)葉子權(quán)重值和樣本所在葉子的位置信息，即可確定函數(shù)。因此，我們引入決策樹(shù)葉子權(quán)重值和樣本所在葉子的位置信息兩個(gè)變量，將其參數(shù)化表示成。然而，是一個(gè)函數(shù)，作為的下標(biāo)是不利于優(yōu)化求解。因此，這里需要將轉(zhuǎn)化為形式。是根據(jù)樣本落在葉子節(jié)點(diǎn)的位置信息直接遍歷計(jì)算損失函數(shù)。是從葉子節(jié)點(diǎn)的角度，對(duì)每個(gè)葉子節(jié)點(diǎn)中的樣本進(jìn)行遍歷計(jì)算損失函數(shù)，其中，表示樹(shù)的葉子節(jié)點(diǎn)。假設(shè)，即表示有哪些樣本落在第j個(gè)葉子節(jié)點(diǎn)上，比如表示樣本{1,3}落在葉子節(jié)點(diǎn)1上，表示樣本{4}落在葉子節(jié)點(diǎn)2上，表示樣本{2,5}落在葉子節(jié)點(diǎn)3上（如上文圖4所示）。在這里強(qiáng)調(diào)一下，將轉(zhuǎn)換為形式，是可以從數(shù)學(xué)公式推到得到（比如下式）。根據(jù)樣本所在葉子節(jié)點(diǎn)位置，計(jì)算所有樣本的一階損失得到第一行等式，其中，表示樣本的一階損失，表示樣本對(duì)應(yīng)的葉子節(jié)點(diǎn)，表示葉子節(jié)點(diǎn)對(duì)應(yīng)的葉子權(quán)重值。

對(duì)于模型復(fù)雜度，表示第顆樹(shù)的復(fù)雜度。在決策樹(shù)里面，如果要降低樹(shù)的復(fù)雜度，在訓(xùn)練決策樹(shù)時(shí)，可以通過(guò)葉子節(jié)點(diǎn)中樣本個(gè)數(shù)、樹(shù)的深度等控制決策樹(shù)的復(fù)雜度。在XGBoost中，是通過(guò)葉子節(jié)點(diǎn)個(gè)數(shù)、樹(shù)的深度、葉子節(jié)點(diǎn)值來(lái)控制模型復(fù)雜度。XGBoost中的決策樹(shù)是分類與回歸決策樹(shù)CART（Classification and Regression Trees）。由于CART是二叉樹(shù)，控制葉子節(jié)點(diǎn)個(gè)數(shù)等同于控制了樹(shù)的深度。因此，可以使用葉子節(jié)點(diǎn)個(gè)數(shù)來(lái)評(píng)估樹(shù)的復(fù)雜度，即葉子節(jié)點(diǎn)個(gè)數(shù)越多（樹(shù)的深度越深），決策樹(shù)結(jié)構(gòu)越復(fù)雜。對(duì)于葉子節(jié)點(diǎn)值，由于葉子節(jié)點(diǎn)值越大，相當(dāng)于樣本預(yù)測(cè)值分布在較少的幾顆決策樹(shù)的葉子節(jié)點(diǎn)上，這樣容易出現(xiàn)過(guò)擬合。如果葉子節(jié)點(diǎn)值越小，相當(dāng)于預(yù)測(cè)值分布在較多的決策樹(shù)葉子節(jié)點(diǎn)上，每顆決策樹(shù)參與預(yù)測(cè)其中的一小部分，過(guò)擬合的風(fēng)險(xiǎn)被分散。因此，葉子節(jié)點(diǎn)值越大，模型越容易過(guò)擬合，等同于決策樹(shù)的復(fù)雜度越高。綜合起來(lái)，如公式7所示，使用葉子節(jié)點(diǎn)個(gè)數(shù)、葉子節(jié)點(diǎn)值評(píng)估第顆決策樹(shù)的復(fù)雜度，其中、為超參數(shù)。如果希望葉子個(gè)數(shù)盡量少，則將值盡量調(diào)大，如果希望葉子權(quán)重值盡量小，則將盡量調(diào)大。

將和公式7帶入目標(biāo)函數(shù)（公式6）中，可以得到參數(shù)化的目標(biāo)函數(shù)（公式8）。在公式8中，在訓(xùn)練第顆決策樹(shù)時(shí)，和這兩部分是已知，為超參數(shù)。令，，對(duì)公式8進(jìn)行調(diào)整，此時(shí)得到目標(biāo)函數(shù)是關(guān)于的一元二次拋物線，是目標(biāo)函數(shù)最終的參數(shù)化表示形式。拋物線是有極值，對(duì)拋物線求極值可以直接套用拋物線極值公式，求解很方便。

基于公式8，對(duì)目標(biāo)函數(shù)關(guān)于求導(dǎo)，可以求得樹(shù)的葉子節(jié)點(diǎn)最優(yōu)的權(quán)重值，如公式9所示。

將等式9帶入到公式8中，計(jì)算得到樹(shù)的目標(biāo)損失值（如等式10），該等式表示決策樹(shù)損失分?jǐn)?shù)，分?jǐn)?shù)越小，說(shuō)明樹(shù)的預(yù)測(cè)準(zhǔn)確度越高、復(fù)雜度越低。

4.如何確定樹(shù)的形狀？

這里需要注意到一點(diǎn)，樹(shù)的葉子節(jié)點(diǎn)最優(yōu)解和損失函數(shù)極小值是在樹(shù)的形狀給定后的優(yōu)化求解。因此，如果要求得葉子節(jié)點(diǎn)最優(yōu)解和損失函數(shù)極小值，首先需要確定樹(shù)的形狀。如何尋找樹(shù)的形狀？最直接的方式是枚舉所有可能的形狀，然后計(jì)算每種形狀的損失函數(shù)，從中選擇損失函數(shù)最小的形狀作為模型訓(xùn)練使用。這樣在樹(shù)的形狀確定后，就可以對(duì)葉子節(jié)點(diǎn)值和損失函數(shù)值進(jìn)行優(yōu)化求解。這種方式在實(shí)際應(yīng)用中一般不會(huì)采用，因?yàn)楫?dāng)樣本的特征集很大時(shí)，樹(shù)的形狀個(gè)數(shù)是呈指數(shù)級(jí)增加，計(jì)算這些形狀樹(shù)對(duì)應(yīng)損失函數(shù)需要消耗大量的計(jì)算資源。

為了尋找樹(shù)的形狀，我們一般使用貪心算法來(lái)簡(jiǎn)化計(jì)算，降低計(jì)算的復(fù)雜度。貪心算法是在局部尋找最優(yōu)解，在每一步迭代時(shí)，選擇能使當(dāng)前局部最優(yōu)的方向。XGBoost尋找樹(shù)的形狀的思路和傳統(tǒng)決策樹(shù)模型建立樹(shù)的思路一致。比如傳統(tǒng)決策樹(shù)在進(jìn)行節(jié)點(diǎn)分割時(shí)，基于信息熵，選擇信息熵下降最大的特征進(jìn)行分割；對(duì)于XGBoost樹(shù)模型，基于損失函數(shù)，選擇能讓損失函數(shù)下降最多的特征進(jìn)行分割。如圖5所示，虛線框是已經(jīng)構(gòu)造好的樹(shù)形狀，如果需要在藍(lán)色節(jié)點(diǎn)做進(jìn)一步分裂，此時(shí)需要按照某種標(biāo)準(zhǔn)，選擇最好的特征進(jìn)行分割。在這里，XGBoost使用損失函數(shù)下降最大的特征作為節(jié)點(diǎn)分裂。

圖5.XGBoost樹(shù)節(jié)點(diǎn)最佳分割點(diǎn)

根據(jù)公式10，可以計(jì)算到藍(lán)色節(jié)點(diǎn)在分裂前和分裂后的的損失函數(shù)值：。兩式相減，則得到特征如果作為分裂節(jié)點(diǎn)時(shí)，所能帶來(lái)的損失函數(shù)下降值大小。因此，依據(jù)如下等式，選擇能使最大的特征作為分裂節(jié)點(diǎn)。

5.其它常見(jiàn)問(wèn)題

關(guān)于XGBoost的常見(jiàn)經(jīng)典問(wèn)題，這類問(wèn)題對(duì)于深入理解XGBoost模型很重要，因此，本文對(duì)此也進(jìn)行了梳理小結(jié)。

(1) XGBoost為什么需要對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開(kāi)？

根據(jù)XGBoost官網(wǎng)（如圖6所示），目標(biāo)損失函數(shù)之間存在較大的差別，比如平方損失函數(shù)、邏輯損失函數(shù)等。對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開(kāi)，就是為了統(tǒng)一目標(biāo)函數(shù)的形式，針對(duì)回歸和分類問(wèn)題，使得平方損失或邏輯損失函數(shù)優(yōu)化求解，可以共用同一套算法框架及工程代碼。另外，對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開(kāi)，可以使得XGBoost支持自定義損失函數(shù)，只需要新的損失函數(shù)二階可導(dǎo)即可，從而提升算法框架的擴(kuò)展性。

圖6.XGBoost目標(biāo)函數(shù)泰勒展開(kāi)式官方解釋

相對(duì)于GBDT的一階泰勒展開(kāi)，XGBoost采用二階泰勒展開(kāi)，可以更精準(zhǔn)的逼近真實(shí)的損失函數(shù)，提升算法框架的精準(zhǔn)性。另外，一階導(dǎo)數(shù)描述梯度的變化方向，二階導(dǎo)數(shù)可以描述梯度變化方向是如何變化的，利用二階導(dǎo)數(shù)信息更容易找到極值點(diǎn)。因此，基于二階導(dǎo)數(shù)信息能夠讓梯度收斂的更快，類似于牛頓法比SGD收斂更快。

(2) XGBoost如何進(jìn)行采樣？

XGBoost算法框架，參考隨機(jī)森林的Bagging方法，支持樣本采樣和特征采樣。由于XGBoost里沒(méi)有交代是有放回采樣，認(rèn)為這里的樣本采樣和特征采樣都是無(wú)放回采樣。每次訓(xùn)練時(shí)，對(duì)數(shù)據(jù)集采樣，可以增加樹(shù)的多樣性，降低模型過(guò)擬合的風(fēng)險(xiǎn)。另外，對(duì)數(shù)據(jù)集采樣還能減少計(jì)算，加快模型的訓(xùn)練速度。在降低過(guò)擬合風(fēng)險(xiǎn)中，對(duì)特征采樣比對(duì)樣本采樣的效果更顯著。

樣本采樣（如圖7所示），默認(rèn)是不進(jìn)行樣本采樣。樣本的采樣的方式有兩種，一種是認(rèn)為每個(gè)樣本平等水平，對(duì)樣本集進(jìn)行相同概率采樣；另外一種認(rèn)為每個(gè)樣本是不平等，每個(gè)樣本對(duì)應(yīng)的一階、二階導(dǎo)數(shù)信息表示優(yōu)先級(jí)，導(dǎo)數(shù)信息越大的樣本越有可能被采到。

圖7.XGBoost樣本采樣

特征采樣（如圖8所示），默認(rèn)對(duì)特征不進(jìn)行采樣。對(duì)特征的采樣方式有三種，第一種是在建立每棵樹(shù)時(shí)進(jìn)行特征采樣；第二種特征采樣范圍是在第一種的基礎(chǔ)上，對(duì)于樹(shù)的每一層級(jí)（樹(shù)的深度）進(jìn)行特征采樣；第三種特征采樣范圍是在第二種的基礎(chǔ)上，對(duì)于每個(gè)樹(shù)節(jié)點(diǎn)進(jìn)行特征采樣。這三種特征采樣方式有串行效果。比如，當(dāng)?shù)谝弧⒍⑷N的特征采樣比例均是0.5時(shí)，如果特征總量為64個(gè)，經(jīng)過(guò)這三種采樣的綜合效果，最終采樣得到的特征個(gè)數(shù)為8個(gè)。

圖7.XGBoost樣本采樣

（3）XGBoost為什么訓(xùn)練會(huì)比較快？

XGBoost訓(xùn)練速度快，這個(gè)主要是工程實(shí)現(xiàn)優(yōu)化的結(jié)果，具體的優(yōu)化措施如下幾點(diǎn)：第一、支持并行化訓(xùn)練。XGBoost的并行，并不是說(shuō)每棵樹(shù)可以并行訓(xùn)練，XGBoost本質(zhì)上仍然采用Boosting思想，每棵樹(shù)訓(xùn)練前需要等前面的樹(shù)訓(xùn)練完成后才能開(kāi)始訓(xùn)練。XGBoost的并行，指的是特征維度的并行。在訓(xùn)練之前，每個(gè)特征按特征值大小對(duì)樣本進(jìn)行預(yù)排序，并存儲(chǔ)為Block結(jié)構(gòu)（如圖8所示），在后面查找特征分割點(diǎn)時(shí)可以重復(fù)使用，而且特征已經(jīng)被存儲(chǔ)為一個(gè)個(gè)Block結(jié)構(gòu)，那么在尋找每個(gè)特征的最佳分割點(diǎn)時(shí)，可以利用多線程對(duì)每個(gè)Block并行計(jì)算。

圖8.樣本排序

第二、采用近似算法技術(shù)，得到候選分位點(diǎn)。在構(gòu)造決策樹(shù)分裂節(jié)點(diǎn)時(shí)，當(dāng)采用精確貪心算法窮舉計(jì)算每個(gè)特征下的所有特征值增益，如果特征個(gè)數(shù)多、特征取值大，會(huì)造成較大的計(jì)算量。當(dāng)樣本數(shù)據(jù)量大時(shí)，特征值無(wú)法完全加載到內(nèi)存中，計(jì)算效率低。對(duì)于分布式數(shù)據(jù)集，同樣會(huì)面臨無(wú)法將特征值全部加載到本地內(nèi)存的問(wèn)題。因此，基于這兩個(gè)現(xiàn)實(shí)問(wèn)題，采用近似直方圖算法，將每個(gè)特征取值劃分為常數(shù)個(gè)分位點(diǎn)，作為候選分割點(diǎn)，從中選擇相對(duì)最優(yōu)的分割點(diǎn)作為決策樹(shù)分裂節(jié)點(diǎn)。

第三、緩存感知訪問(wèn)技術(shù)。對(duì)于有大量數(shù)據(jù)或者說(shuō)分布式系統(tǒng)來(lái)說(shuō)，不可能將所有的數(shù)據(jù)都放進(jìn)內(nèi)存里面。因此，需要將其放在外存上或者將數(shù)據(jù)分布式存儲(chǔ)。但是會(huì)有一個(gè)問(wèn)題，這樣做每次都要從外存上讀取數(shù)據(jù)到內(nèi)存，這將會(huì)是十分耗時(shí)的操作。在XGBoost中，采用預(yù)讀取的方式，將下一塊將要讀取的數(shù)據(jù)預(yù)先放進(jìn)內(nèi)存里面。這個(gè)過(guò)程是多開(kāi)了一個(gè)線程，該線程與訓(xùn)練的線程獨(dú)立并負(fù)責(zé)數(shù)據(jù)讀取。此外，還要考慮Block的大小問(wèn)題。如果設(shè)置最大的Block來(lái)存儲(chǔ)所有樣本在特征上的值和梯度，Cache未必能一次性處理如此多的梯度做統(tǒng)計(jì)。如果設(shè)置過(guò)小的Block-size，這樣不能充分利用多線程的優(yōu)勢(shì)。這樣會(huì)出現(xiàn)訓(xùn)練線程已經(jīng)訓(xùn)練完數(shù)據(jù)，但是預(yù)讀取線程還沒(méi)把數(shù)據(jù)放入內(nèi)存或者cache中。經(jīng)過(guò)測(cè)試，Block-size設(shè)置為2^16個(gè)特征值是效果最好。

第四、Blocks核外計(jì)算優(yōu)化技術(shù)。為了高效使用系統(tǒng)資源，對(duì)于機(jī)器資源，除了CPU和內(nèi)存外，磁盤空間也可以利用起來(lái)處理數(shù)據(jù)。為了實(shí)現(xiàn)這個(gè)功能，XGBoost在模型訓(xùn)練時(shí)，會(huì)將數(shù)據(jù)分成多個(gè)塊并將每個(gè)塊存儲(chǔ)在磁盤上。在計(jì)算過(guò)程中，使用獨(dú)立的線程將Block預(yù)提取到主內(nèi)存緩沖區(qū)，這樣數(shù)據(jù)計(jì)算和磁盤讀取可以同步進(jìn)行，但由于IO非常耗時(shí)，所以還采用了兩種技術(shù)來(lái)改進(jìn)這種核外計(jì)算。

Block Compression：塊壓縮，并且加載到主內(nèi)存時(shí)由獨(dú)立的線程進(jìn)行解壓縮。
Block Sharding：塊分片，即將數(shù)據(jù)分片到多個(gè)磁盤，為每個(gè)磁盤分配一個(gè)線程，將數(shù)據(jù)提取到內(nèi)存緩沖區(qū)，然后每次訓(xùn)練線程的時(shí)候交替地從每個(gè)緩沖區(qū)讀取數(shù)據(jù)，有助于在多個(gè)磁盤可用時(shí)，增加讀取的吞吐量。

除了這些技術(shù)，XGBoost的特征采樣技術(shù)也可以提升計(jì)算效率。如果設(shè)定特征采樣比例colsample_by* < 1.0，則在選擇最佳特征分割點(diǎn)作為分裂節(jié)點(diǎn)時(shí)，特征候選集變小，挑選最佳特征分割點(diǎn)時(shí)計(jì)算量降低。

（4）XGBoost如何處理缺失值問(wèn)題？

XGBoost的一個(gè)優(yōu)點(diǎn)是允許特征存在缺失值。對(duì)缺失值的處理方式如圖9所示：在特征上尋找最佳分割點(diǎn)時(shí)，不會(huì)對(duì)該列特征missing的樣本進(jìn)行遍歷，而只對(duì)該特征值為non-missing的樣本上對(duì)應(yīng)的特征值進(jìn)行遍歷。對(duì)于稀疏離散特征，通過(guò)這個(gè)技巧可以大大減少尋找特征最佳分割點(diǎn)的時(shí)間開(kāi)銷。

在邏輯實(shí)現(xiàn)上，為了保證完備性，會(huì)將該特征值missing的樣本分別分配到左葉子節(jié)點(diǎn)和右葉子節(jié)點(diǎn)，兩種情形都計(jì)算一遍后，選擇分裂后增益最大的那個(gè)方向（左分支或是右分支），作為預(yù)測(cè)時(shí)特征值缺失樣本的默認(rèn)分支方向。如果在訓(xùn)練中沒(méi)有缺失值而在預(yù)測(cè)中出現(xiàn)缺失，那么會(huì)自動(dòng)將缺失值的劃分方向放到右子節(jié)點(diǎn)。

圖9.XGBoost缺失值處

（5）XGBoost和GBDT的區(qū)別是什么？

XGBoost和GBDT都是基于Boosting思想實(shí)現(xiàn)。XGBoost可以認(rèn)為是在GBDT基礎(chǔ)上的擴(kuò)展。兩者的主要不同如下：基分類器：GBDT是以分類與回歸決策樹(shù)CART作為基分類器，XGBoost的基分類器不僅支持CART決策樹(shù)，還支持線性分類器，此時(shí)XGBoost相當(dāng)于帶L1和L2正則化項(xiàng)的Logistic回歸（分類問(wèn)題）或者線性回歸（回歸問(wèn)題）。導(dǎo)數(shù)信息：GBDT在優(yōu)化求解時(shí)，只是用到一階導(dǎo)數(shù)信息，XGBoost對(duì)代價(jià)函數(shù)做了二階泰勒展開(kāi)，同時(shí)用到一階和二階導(dǎo)數(shù)信息。另外，XGBoost工具支持自定義代價(jià)函數(shù)，只要函數(shù)可以一階和二階求導(dǎo)即可。正則項(xiàng)：XGBoost在代價(jià)函數(shù)里加入正則項(xiàng)，用于控制模型的復(fù)雜度。正則項(xiàng)里包含了樹(shù)的葉子節(jié)點(diǎn)個(gè)數(shù)、每個(gè)葉子節(jié)點(diǎn)上輸出的預(yù)測(cè)值的模的平方和。正則項(xiàng)有利于降低模型的方差variance，使學(xué)習(xí)出來(lái)的模型更加簡(jiǎn)單，防止過(guò)擬合。GBDT的代價(jià)函數(shù)中是沒(méi)有正則項(xiàng)。缺失值處理：對(duì)于特征的取值有缺失的樣本，XGBoost可以自動(dòng)學(xué)習(xí)出它的分裂方向。另外，XGBoost還做了其它工程優(yōu)化，包括特征值Block化、并行化計(jì)算特征增益、近似直方圖算法、特征采樣技術(shù)等

（6）如何使用XGBoost進(jìn)行模型訓(xùn)練？

在使用XGBoost前，可以根據(jù)官網(wǎng)說(shuō)明文檔進(jìn)行安裝（下面有鏈接，這里不贅述）。本文采用的數(shù)據(jù)集是Kaggle平臺(tái)房?jī)r(jià)預(yù)測(cè)開(kāi)源數(shù)據(jù)集（地址如參考文章8所示）。值得說(shuō)明的一點(diǎn)，在進(jìn)行模型訓(xùn)練前，一般需要做數(shù)據(jù)清洗、特征工程、樣本劃分、模型參數(shù)調(diào)優(yōu)這些過(guò)程。針對(duì)這些過(guò)程，本文在這里不展開(kāi)細(xì)講。在進(jìn)行模型訓(xùn)練前，本文已經(jīng)完成數(shù)據(jù)清洗、特征工程、模型參數(shù)調(diào)優(yōu)過(guò)程，并得到最終用于模型訓(xùn)練的樣本集和最優(yōu)模型參數(shù)。如下代碼，是使用XGBoost進(jìn)行模型訓(xùn)練過(guò)程。

####?導(dǎo)入數(shù)據(jù)分析基礎(chǔ)包?##### import?pandas?as?pd? import?matplotlib? import?numpy?as?np? import?scipy?as?sp? import?IPython from?IPython?import?display? import?sklearn? import?random import?time####?導(dǎo)入訓(xùn)練樣本?##### #?樣本集特征 X_train=pd.read_csv('./final_train.csv',sep='\t',index=None) #?樣本集標(biāo)簽 y_train=pd.read_csv('./final_y_train.csv',sep='\t',index=None)###?導(dǎo)入算法模型和評(píng)分標(biāo)準(zhǔn)?#### from?sklearn?import?svm,?tree,?linear_model,?neighbors,?naive_bayes,?ensemble,?discriminant_analysis,?gaussian_process from?xgboost?import?XGBClassifier #Common?Model?Helpers from?sklearn.preprocessing?import?OneHotEncoder,?LabelEncoder from?sklearn?import?feature_selection from?sklearn?import?model_selection from?sklearn?import?metrics #Visualization import?matplotlib?as?mpl import?matplotlib.pyplot?as?plt import?matplotlib.pylab?as?pylab import?seaborn?as?sns from?pandas.plotting?import?scatter_matrix #Configure?Visualization?Defaults #%matplotlib?inline?=?show?plots?in?Jupyter?Notebook?browser %matplotlib?inline mpl.style.use('ggplot') sns.set_style('white') pylab.rcParams['figure.figsize']?=?12,8from?sklearn.tree?import?DecisionTreeRegressor from?sklearn.linear_model?import?LinearRegression,?ElasticNet from?sklearn.ensemble?import?RandomForestRegressor from?sklearn.metrics?import?fbeta_score,?make_scorer,?r2_score?,mean_squared_error from?sklearn.linear_model?import?Lasso from?sklearn.svm?import?SVR from?xgboost?import?XGBRegressor from?sklearn.model_selection?import?KFold,?cross_val_score,?train_test_split #?計(jì)算平方誤差 def?rmsle(y,?y_pred):return?np.sqrt(mean_squared_error(y,?y_pred))#?模型：Xgboost from?sklearn.model_selection?import?GridSearchCV best_reg_xgb?=?XGBRegressor(learning_rate=?0.01,?n_estimators?=?5000，??????????????????max_depth=?4,?min_child_weight?=?1.5,?gamma?=?0,?subsample?=?0.7,?colsample_bytree?=?0.6,?seed?=?27) best_reg_xgb.fit(X_train,?y_train) pred_y_XGB?=?best_reg_xgb.predict(X_train)#? print?(rmsle(pred_y_XGB,?y_train))

6.小結(jié)

本文從目標(biāo)函數(shù)構(gòu)建、目標(biāo)函數(shù)優(yōu)化、樹(shù)結(jié)構(gòu)信息表示、樹(shù)形狀確定等四部分，對(duì)XGBoost算法框架進(jìn)行解析。最后，針對(duì)XGBoost的常見(jiàn)問(wèn)題進(jìn)行小結(jié)。通過(guò)本文，洞悉XGBoost框架的底層算法原理。在用戶行為預(yù)判、用戶標(biāo)簽預(yù)測(cè)、用戶信用評(píng)分等數(shù)據(jù)分析業(yè)務(wù)中，經(jīng)常會(huì)使用到XGBoost算法框架。如果對(duì)XGBoost算法原理理解透徹，在實(shí)際業(yè)務(wù)中的模型訓(xùn)練過(guò)程中，有利于較好地理解模型參數(shù)，對(duì)模型調(diào)參過(guò)程幫助較大。

對(duì)于文章中表述不妥的地方，歡迎私信于我。

參考文章

(1).陳天奇XGBoost算法原著：https://dl.acm.org/doi/pdf/10.1145/2939672.2939785

(2).20道XGBoost面試題：https://cloud.tencent.com/developer/article/1500914

(3).XGBoost框架Parameters含義：https://xgboost.readthedocs.io/en/latest/parameter.html

(4).XGBoost提升樹(shù)官方介紹：https://xgboost.readthedocs.io/en/latest/tutorials/model.html

(5).XGBoost官方論壇：https://discuss.xgboost.ai/

(6).GBDT提升樹(shù)官方介紹：https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting

(7).XGBoost安裝官網(wǎng)說(shuō)明：https://xgboost.readthedocs.io/en/latest/build.html

(8).Kaggle開(kāi)源數(shù)據(jù)：https://www.kaggle.com/c/house-prices-advanced-regression-techniques

總結(jié)

以上是生活随笔為你收集整理的数据分析利器：XGBoost算法最佳解析的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：突破领域边界，探索文创文保新趋势
下一篇： Kubernetes 入门进阶实战