日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析利器:XGBoost算法最佳解析

發布時間:2024/2/28 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析利器:XGBoost算法最佳解析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者:symonxiong,騰訊 CDG 應用研究員

XGBoost是一種經典的集成式提升算法框架,具有訓練效率高、預測效果好、可控參數多、使用方便等特性,是大數據分析領域的一柄利器。在實際業務中,XGBoost經常被運用于用戶行為預判、用戶標簽預測、用戶信用評分等項目中。XGBoost算法框架涉及到比較多數學公式和優化技巧,比較難懂,容易出現一知半解的情況。由于XGBoost在數據分析領域實在是太經典、太常用,最近帶著敬畏之心,對陳天奇博士的Paper和XGBoost官網重新學習了一下,基于此,本文對XGBoost算法的來龍去脈進行小結。

本文重點解析XGBoost算法框架的原理,希望通過本文能夠洞悉XGBoost核心算法的來龍去脈。對于XGBoost算法,最先想到的是Boosting算法。Boosting提升算法是一種有效且被廣泛使用的模型訓練算法,XGBoost也是基于Boosting來實現。Boosting算法思想是對弱分類器基礎上不斷改進提升,并將這些分類器集成在一起,形成一個強分類器。簡而言之,XGBoost算法可以說是一種集成式提升算法,是將許多基礎模型集成在一起,形成一個很強的模型。這里的基礎模型可以是分類與回歸決策樹CART(Classification and Regression Trees),也可以是線性模型。如果基礎模型是CART樹(如圖1所示),比如第1顆決策樹tree1預測左下角男孩的值為+2,對于第1顆決策樹遺留下來的剩余部分,使用第2顆決策樹預測值為+0.9,則對男孩的總預測值為2+0.9=2.9。

圖1.基于二叉樹的XGBoost模型

XGBoost算法框架可以分為四個階段來理解(如圖2所示)。第一個階段,如何構造目標函數? ?在進行優化求解時,首先需要構造目標函數,有了目標函數才能進行優化求解。這種思路和LR模型(Logistic Regression)是一致。在LR模型中,首先,對于回歸問題構造平方項損失,對于分類問題構造最大似然損失作為目標函數,然后基于構造好的目標函數,才會考慮采用梯度下降算法進行優化求解,比如隨機梯度下降、Mini-Batch批量梯度下降、梯度下降等。在這個階段,我們可以得到XGBoost的基本目標函數結構。

第二個階段,目標函數優化求解困難,如何對目標函數近似轉換? 在第一個階段得到的基本目標函數較為復雜,不是凸函數,沒法使用連續性變量對目標函數直接優化求極值。因此,使用泰勒級數對目標函數進行展開,對目標函數規整、重組后,將目標函數轉換為關于預測殘差的多項式函數

第三個階段,如何將樹的結構引入到目標函數中? 第二個階段得到的多項式目標函數是一個復合函數。被預測的殘差和模型復雜度還是未知的函數,需要對這兩個函數進行參數化表示,即將決策樹的結構信息通過數學符號表示出來。在第三個階段,在樹的形狀確定情況下,可以優化求解出局部最優解。

第四個階段,如何確定樹的形狀,要不要使用貪心算法? 如何在模型空間里面尋找最優的決策樹形狀,這是一個NP-Hard問題,我們很難對可能存在的樹結構全部羅列出來,尤其在特征個數很多情況下。因此,在這里需要使用貪心算法來求得局部最優解。

圖2.XGBoost算法構建邏輯

1.如何構造目標函數?

當使用多棵樹來預測時,假設已經訓練了棵樹,則對于第個樣本的(最終)預測值為:

在公式1中, 表示對 個樣本的預測值,屬于集合范圍內, 表示通過第棵樹對第個樣本進行預測,比如第1棵樹預測值為,第2棵樹預測值為 ,依次類推,將這些樹的預測值累加到一起,則得到樣本的最終預測值。因此,如果要得到樣本的最終預測值,需要訓練得到棵樹。

如果要訓練得到棵樹,首先需要構造訓練的目標函數(如公式2所示)。在構建模型時,不僅需要考慮到模型的預測準確性,還需要考慮到模型的復雜程度,既準確又簡單的模型在實際應用中的效果才是最好的。因此,目標函數由兩部分構成,第一部分表示損失函數,比如平方損失、交叉熵損失、折頁損失函數等。第一部分表示個樣本總的損失函數值。因為在這里通過樣本預測值和樣本真實值的比較,可以計算出針對樣本的模型預測損失值。這里可以暫時先不用考慮損失函數的具體形式,因為這里的損失函數,可以統一表示回歸與分類問題的損失函數形式。

公式2的第二部分表示正則項,是用來控制模型的復雜度,模型越復雜,懲罰力度越大,從而提升模型的泛化能力,因為越復雜的模型越容易過擬合。XGBoost的正則化思路跟模型中加/正則化思路一致,不同的地方在于正則化項具體物理含義不同。在這里表示第棵樹的復雜度,接下來的問題是如何對樹的復雜度進行參數化表示,這樣后面才能進行參數優化。

在損失函數中,是有很多個模型(決策樹)共同參與,通過疊加式的訓練得到。如圖2所示,訓練完第一顆樹后,對于第一棵樹沒有訓練好的地方,使用第二顆樹訓練,依次類推,訓練第個棵樹,最后訓練第顆樹。當在訓練第棵樹時,前面的第1棵樹到第顆樹是已知的,未知的是第棵樹,即基于前面構建的決策樹已知情況下,構建第棵樹

圖3.XGBoost疊加式訓練

對于樣本,首先初始化假定第0棵樹為,預測值為,然后在第0棵樹基礎上訓練第1棵樹,得到預測值,在第1棵樹基礎上訓練第2顆樹,又可以得到預測值,依次類推,當訓練第棵樹的時候,前面棵樹的總預測值為,遞推訓練具體過程如下所示:

根據XGBoost的遞推訓練過程,每棵決策樹訓練時會得到樣本對應的預測值,根據樣本預測值和真實值比較,可以計算得到模型預測損失值。又因為訓練所得的每棵決策樹都有對應的結構信息,因此可以得到每棵決策樹的復雜度。根據這些信息,可以對目標函數公式2進行簡化,得到公式3。

在公式3中,表示訓練樣本個數,為顆決策樹累加的預測值,為顆決策樹總的復雜度,在訓練第顆決策樹時,這兩個東西是已知的,即在對目標函數進行求最小值優化時候,和為已知。因此,將常數項拿掉,得到公式4作為XGBoost的目標函數。

2.目標函數優化困難,如何對函數近似轉換?

在公式4中,已經得到了需要優化的目標函數,這個目標函數已經是簡化后的函數。對于公式4,沒法進行進一步優化。為了解決目標函數無法進行進一步優化,XGBoost原文是使用泰勒級數展開式技術對目標函數進行近似轉換,即使用函數的1階、2階、3階...階導數和對應的函數值,將目標函數進行多項式展開,多項式階數越多,對目標函數的近似程度越高。這樣做的好處是便于后面優化求解

令,,帶入到目標函數公式4,得到基于二階泰勒展開式的函數(如公式5所示),其中,。

在訓練第顆樹時,目標函數(公式5)中,,、是已知的。因此,可以將已知常數項去掉,得到進一步簡化后的目標函數(公式6)。、分別表示第顆決策樹的損失函數的1階、2階導數。前面顆決策樹預測后,通過、將前面第顆決策樹的預測損失信息傳遞給第顆決策樹。在公式6中,第顆樹的預測函數、樹復雜度函數對于我們來說,仍然都是未知的,因此需要將其參數化,通過參數形式表示出來,才能進行下一步的優化求解。

3.如何將樹結構引入到目標函數中?

接下來的問題是如何對函數、進行參數化表示。首先,對于葉子權重函數,如圖4所示決策樹,有1號、2號、3號葉子節點,這三個葉子節點對應的取值分別為15,12,20,在1號葉子節點上,有{1,3}兩個樣本,在2號葉子節點上,有{4}一個樣本,在3號葉子節點上,有{2,5}兩個樣本。在這里,使用來表示決策樹的葉子權重值,三個葉子節點對應的葉子權重值為、、。對于樣本落在決策樹葉子節點的位置信息,使用表示,表示樣本1落在第1個葉子節點上,表示樣本1落在第3個葉子節點上,表示樣本4落在第2個葉子節點上。

圖4.XGBoost決策樹結構

對于第顆樹的葉子權重函數,根據葉子權重值和樣本所在葉子的位置信息,即可確定函數。因此,我們引入決策樹葉子權重值和樣本所在葉子的位置信息兩個變量,將其參數化表示成。然而,是一個函數,作為的下標是不利于優化求解。因此,這里需要將轉化為形式。是根據樣本落在葉子節點的位置信息直接遍歷計算損失函數。是從葉子節點的角度,對每個葉子節點中的樣本進行遍歷計算損失函數,其中,表示樹的葉子節點。假設,即表示有哪些樣本落在第j個葉子節點上,比如表示樣本{1,3}落在葉子節點1上,表示樣本{4}落在葉子節點2上,表示樣本{2,5}落在葉子節點3上(如上文圖4所示)。在這里強調一下,將轉換為形式,是可以從數學公式推到得到(比如下式)。根據樣本所在葉子節點位置,計算所有樣本的一階損失得到第一行等式,其中,表示樣本的一階損失,表示樣本對應的葉子節點,表示葉子節點對應的葉子權重值。

對于模型復雜度,表示第顆樹的復雜度。在決策樹里面,如果要降低樹的復雜度,在訓練決策樹時,可以通過葉子節點中樣本個數、樹的深度等控制決策樹的復雜度。在XGBoost中,是通過葉子節點個數、樹的深度、葉子節點值來控制模型復雜度。XGBoost中的決策樹是分類與回歸決策樹CART(Classification and Regression Trees)。由于CART是二叉樹,控制葉子節點個數等同于控制了樹的深度。因此,可以使用葉子節點個數來評估樹的復雜度,即葉子節點個數越多(樹的深度越深),決策樹結構越復雜。對于葉子節點值,由于葉子節點值越大,相當于樣本預測值分布在較少的幾顆決策樹的葉子節點上,這樣容易出現過擬合。如果葉子節點值越小,相當于預測值分布在較多的決策樹葉子節點上,每顆決策樹參與預測其中的一小部分,過擬合的風險被分散。因此,葉子節點值越大,模型越容易過擬合,等同于決策樹的復雜度越高。綜合起來,如公式7所示,使用葉子節點個數、葉子節點值評估第顆決策樹的復雜度,其中、為超參數。如果希望葉子個數盡量少,則將值盡量調大,如果希望葉子權重值盡量小,則將盡量調大。

將和公式7帶入目標函數(公式6)中,可以得到參數化的目標函數(公式8)。在公式8中,在訓練第顆決策樹時,和這兩部分是已知,為超參數。令,,對公式8進行調整,此時得到目標函數是關于的一元二次拋物線,是目標函數最終的參數化表示形式。拋物線是有極值,對拋物線求極值可以直接套用拋物線極值公式,求解很方便。

基于公式8,對目標函數關于求導,可以求得樹的葉子節點最優的權重值,如公式9所示。

將等式9帶入到公式8中,計算得到樹的目標損失值(如等式10),該等式表示決策樹損失分數,分數越小,說明樹的預測準確度越高、復雜度越低。

4.如何確定樹的形狀?

這里需要注意到一點,樹的葉子節點最優解和損失函數極小值是在樹的形狀給定后的優化求解。因此,如果要求得葉子節點最優解和損失函數極小值,首先需要確定樹的形狀。如何尋找樹的形狀?最直接的方式是枚舉所有可能的形狀,然后計算每種形狀的損失函數,從中選擇損失函數最小的形狀作為模型訓練使用。這樣在樹的形狀確定后,就可以對葉子節點值和損失函數值進行優化求解。這種方式在實際應用中一般不會采用,因為當樣本的特征集很大時,樹的形狀個數是呈指數級增加,計算這些形狀樹對應損失函數需要消耗大量的計算資源。

為了尋找樹的形狀,我們一般使用貪心算法來簡化計算,降低計算的復雜度。貪心算法是在局部尋找最優解,在每一步迭代時,選擇能使當前局部最優的方向。XGBoost尋找樹的形狀的思路和傳統決策樹模型建立樹的思路一致。比如傳統決策樹在進行節點分割時,基于信息熵,選擇信息熵下降最大的特征進行分割;對于XGBoost樹模型,基于損失函數,選擇能讓損失函數下降最多的特征進行分割。如圖5所示,虛線框是已經構造好的樹形狀,如果需要在藍色節點做進一步分裂,此時需要按照某種標準,選擇最好的特征進行分割。在這里,XGBoost使用損失函數下降最大的特征作為節點分裂。

圖5.XGBoost樹節點最佳分割點

根據公式10,可以計算到藍色節點在分裂前和分裂后的的損失函數值:。兩式相減,則得到特征如果作為分裂節點時,所能帶來的損失函數下降值大小。因此,依據如下等式,選擇能使最大的特征作為分裂節點。

5.其它常見問題

關于XGBoost的常見經典問題,這類問題對于深入理解XGBoost模型很重要,因此,本文對此也進行了梳理小結。

(1) XGBoost為什么需要對目標函數進行泰勒展開?

根據XGBoost官網(如圖6所示),目標損失函數之間存在較大的差別,比如平方損失函數、邏輯損失函數等。對目標函數進行泰勒展開,就是為了統一目標函數的形式,針對回歸和分類問題,使得平方損失或邏輯損失函數優化求解,可以共用同一套算法框架及工程代碼。另外,對目標函數進行泰勒展開,可以使得XGBoost支持自定義損失函數,只需要新的損失函數二階可導即可,從而提升算法框架的擴展性

圖6.XGBoost目標函數泰勒展開式官方解釋

相對于GBDT的一階泰勒展開,XGBoost采用二階泰勒展開,可以更精準的逼近真實的損失函數,提升算法框架的精準性。另外,一階導數描述梯度的變化方向,二階導數可以描述梯度變化方向是如何變化的,利用二階導數信息更容易找到極值點。因此,基于二階導數信息能夠讓梯度收斂的更快,類似于牛頓法比SGD收斂更快。

(2) XGBoost如何進行采樣?

XGBoost算法框架,參考隨機森林的Bagging方法,支持樣本采樣和特征采樣。由于XGBoost里沒有交代是有放回采樣,認為這里的樣本采樣和特征采樣都是無放回采樣。每次訓練時,對數據集采樣,可以增加樹的多樣性,降低模型過擬合的風險。另外,對數據集采樣還能減少計算,加快模型的訓練速度。在降低過擬合風險中,對特征采樣比對樣本采樣的效果更顯著。

樣本采樣(如圖7所示),默認是不進行樣本采樣。樣本的采樣的方式有兩種,一種是認為每個樣本平等水平,對樣本集進行相同概率采樣;另外一種認為每個樣本是不平等,每個樣本對應的一階、二階導數信息表示優先級,導數信息越大的樣本越有可能被采到。

圖7.XGBoost樣本采樣

特征采樣(如圖8所示),默認對特征不進行采樣。對特征的采樣方式有三種,第一種是在建立每棵樹時進行特征采樣;第二種特征采樣范圍是在第一種的基礎上,對于樹的每一層級(樹的深度)進行特征采樣;第三種特征采樣范圍是在第二種的基礎上,對于每個樹節點進行特征采樣。這三種特征采樣方式有串行效果。比如,當第一、二、三種的特征采樣比例均是0.5時,如果特征總量為64個,經過這三種采樣的綜合效果,最終采樣得到的特征個數為8個。

圖7.XGBoost樣本采樣

(3)XGBoost為什么訓練會比較快?

XGBoost訓練速度快,這個主要是工程實現優化的結果,具體的優化措施如下幾點:第一、支持并行化訓練。XGBoost的并行,并不是說每棵樹可以并行訓練,XGBoost本質上仍然采用Boosting思想,每棵樹訓練前需要等前面的樹訓練完成后才能開始訓練。XGBoost的并行,指的是特征維度的并行。在訓練之前,每個特征按特征值大小對樣本進行預排序,并存儲為Block結構(如圖8所示),在后面查找特征分割點時可以重復使用,而且特征已經被存儲為一個個Block結構,那么在尋找每個特征的最佳分割點時,可以利用多線程對每個Block并行計算。

圖8.樣本排序

第二、采用近似算法技術,得到候選分位點。在構造決策樹分裂節點時,當采用精確貪心算法窮舉計算每個特征下的所有特征值增益,如果特征個數多、特征取值大,會造成較大的計算量。當樣本數據量大時,特征值無法完全加載到內存中,計算效率低。對于分布式數據集,同樣會面臨無法將特征值全部加載到本地內存的問題。因此,基于這兩個現實問題,采用近似直方圖算法,將每個特征取值劃分為常數個分位點,作為候選分割點,從中選擇相對最優的分割點作為決策樹分裂節點。

第三、緩存感知訪問技術。對于有大量數據或者說分布式系統來說,不可能將所有的數據都放進內存里面。因此,需要將其放在外存上或者將數據分布式存儲。但是會有一個問題,這樣做每次都要從外存上讀取數據到內存,這將會是十分耗時的操作。在XGBoost中,采用預讀取的方式,將下一塊將要讀取的數據預先放進內存里面。這個過程是多開了一個線程,該線程與訓練的線程獨立并負責數據讀取。此外,還要考慮Block的大小問題。如果設置最大的Block來存儲所有樣本在特征上的值和梯度,Cache未必能一次性處理如此多的梯度做統計。如果設置過小的Block-size,這樣不能充分利用多線程的優勢。這樣會出現訓練線程已經訓練完數據,但是預讀取線程還沒把數據放入內存或者cache中。經過測試,Block-size設置為2^16個特征值是效果最好。

第四、Blocks核外計算優化技術。為了高效使用系統資源,對于機器資源,除了CPU和內存外,磁盤空間也可以利用起來處理數據。為了實現這個功能,XGBoost在模型訓練時,會將數據分成多個塊并將每個塊存儲在磁盤上。在計算過程中,使用獨立的線程將Block預提取到主內存緩沖區,這樣數據計算和磁盤讀取可以同步進行,但由于IO非常耗時,所以還采用了兩種技術來改進這種核外計算。

  • Block Compression:塊壓縮,并且加載到主內存時由獨立的線程進行解壓縮。

  • Block Sharding:塊分片,即將數據分片到多個磁盤,為每個磁盤分配一個線程,將數據提取到內存緩沖區,然后每次訓練線程的時候交替地從每個緩沖區讀取數據,有助于在多個磁盤可用時,增加讀取的吞吐量。

除了這些技術,XGBoost的特征采樣技術也可以提升計算效率。如果設定特征采樣比例colsample_by* < 1.0,則在選擇最佳特征分割點作為分裂節點時,特征候選集變小,挑選最佳特征分割點時計算量降低。

(4)XGBoost如何處理缺失值問題?

XGBoost的一個優點是允許特征存在缺失值。對缺失值的處理方式如圖9所示: 在特征上尋找最佳分割點時,不會對該列特征missing的樣本進行遍歷,而只對該特征值為non-missing的樣本上對應的特征值進行遍歷。對于稀疏離散特征,通過這個技巧可以大大減少尋找特征最佳分割點的時間開銷。

在邏輯實現上,為了保證完備性,會將該特征值missing的樣本分別分配到左葉子節點和右葉子節點,兩種情形都計算一遍后,選擇分裂后增益最大的那個方向(左分支或是右分支),作為預測時特征值缺失樣本的默認分支方向。 如果在訓練中沒有缺失值而在預測中出現缺失,那么會自動將缺失值的劃分方向放到右子節點。

圖9.XGBoost缺失值處

(5)XGBoost和GBDT的區別是什么?

XGBoost和GBDT都是基于Boosting思想實現。XGBoost可以認為是在GBDT基礎上的擴展。兩者的主要不同如下:基分類器:GBDT是以分類與回歸決策樹CART作為基分類器,XGBoost的基分類器不僅支持CART決策樹,還支持線性分類器,此時XGBoost相當于帶L1和L2正則化項的Logistic回歸(分類問題)或者線性回歸(回歸問題)。導數信息:GBDT在優化求解時,只是用到一階導數信息,XGBoost對代價函數做了二階泰勒展開,同時用到一階和二階導數信息。另外,XGBoost工具支持自定義代價函數,只要函數可以一階和二階求導即可。正則項:XGBoost在代價函數里加入正則項,用于控制模型的復雜度。正則項里包含了樹的葉子節點個數、每個葉子節點上輸出的預測值的模的平方和。正則項有利于降低模型的方差variance,使學習出來的模型更加簡單,防止過擬合。GBDT的代價函數中是沒有正則項。缺失值處理:對于特征的取值有缺失的樣本,XGBoost可以自動學習出它的分裂方向。 另外,XGBoost還做了其它工程優化,包括特征值Block化、并行化計算特征增益、近似直方圖算法、特征采樣技術

(6)如何使用XGBoost進行模型訓練?

在使用XGBoost前,可以根據官網說明文檔進行安裝(下面有鏈接,這里不贅述)。本文采用的數據集是Kaggle平臺房價預測開源數據集(地址如參考文章8所示)。值得說明的一點,在進行模型訓練前,一般需要做數據清洗、特征工程、樣本劃分、模型參數調優這些過程。針對這些過程,本文在這里不展開細講。在進行模型訓練前,本文已經完成數據清洗、特征工程、模型參數調優過程,并得到最終用于模型訓練的樣本集和最優模型參數。如下代碼,是使用XGBoost進行模型訓練過程。

####?導入數據分析基礎包?##### import?pandas?as?pd? import?matplotlib? import?numpy?as?np? import?scipy?as?sp? import?IPython from?IPython?import?display? import?sklearn? import?random import?time####?導入訓練樣本?##### #?樣本集特征 X_train=pd.read_csv('./final_train.csv',sep='\t',index=None) #?樣本集標簽 y_train=pd.read_csv('./final_y_train.csv',sep='\t',index=None)###?導入算法模型和評分標準?#### from?sklearn?import?svm,?tree,?linear_model,?neighbors,?naive_bayes,?ensemble,?discriminant_analysis,?gaussian_process from?xgboost?import?XGBClassifier #Common?Model?Helpers from?sklearn.preprocessing?import?OneHotEncoder,?LabelEncoder from?sklearn?import?feature_selection from?sklearn?import?model_selection from?sklearn?import?metrics #Visualization import?matplotlib?as?mpl import?matplotlib.pyplot?as?plt import?matplotlib.pylab?as?pylab import?seaborn?as?sns from?pandas.plotting?import?scatter_matrix #Configure?Visualization?Defaults #%matplotlib?inline?=?show?plots?in?Jupyter?Notebook?browser %matplotlib?inline mpl.style.use('ggplot') sns.set_style('white') pylab.rcParams['figure.figsize']?=?12,8from?sklearn.tree?import?DecisionTreeRegressor from?sklearn.linear_model?import?LinearRegression,?ElasticNet from?sklearn.ensemble?import?RandomForestRegressor from?sklearn.metrics?import?fbeta_score,?make_scorer,?r2_score?,mean_squared_error from?sklearn.linear_model?import?Lasso from?sklearn.svm?import?SVR from?xgboost?import?XGBRegressor from?sklearn.model_selection?import?KFold,?cross_val_score,?train_test_split #?計算平方誤差 def?rmsle(y,?y_pred):return?np.sqrt(mean_squared_error(y,?y_pred))#?模型:Xgboost from?sklearn.model_selection?import?GridSearchCV best_reg_xgb?=?XGBRegressor(learning_rate=?0.01,?n_estimators?=?5000,??????????????????max_depth=?4,?min_child_weight?=?1.5,?gamma?=?0,?subsample?=?0.7,?colsample_bytree?=?0.6,?seed?=?27) best_reg_xgb.fit(X_train,?y_train) pred_y_XGB?=?best_reg_xgb.predict(X_train)#? print?(rmsle(pred_y_XGB,?y_train))

6.小結

本文從目標函數構建、目標函數優化、樹結構信息表示、樹形狀確定等四部分,對XGBoost算法框架進行解析。最后,針對XGBoost的常見問題進行小結。通過本文,洞悉XGBoost框架的底層算法原理。在用戶行為預判、用戶標簽預測、用戶信用評分等數據分析業務中,經常會使用到XGBoost算法框架。如果對XGBoost算法原理理解透徹,在實際業務中的模型訓練過程中,有利于較好地理解模型參數,對模型調參過程幫助較大。

對于文章中表述不妥的地方,歡迎私信于我。

參考文章

(1).陳天奇XGBoost算法原著:https://dl.acm.org/doi/pdf/10.1145/2939672.2939785

(2).20道XGBoost面試題:https://cloud.tencent.com/developer/article/1500914

(3).XGBoost框架Parameters含義:https://xgboost.readthedocs.io/en/latest/parameter.html

(4).XGBoost提升樹官方介紹:https://xgboost.readthedocs.io/en/latest/tutorials/model.html

(5).XGBoost官方論壇:https://discuss.xgboost.ai/

(6).GBDT提升樹官方介紹:https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting

(7).XGBoost安裝官網說明:https://xgboost.readthedocs.io/en/latest/build.html

(8).Kaggle開源數據:https://www.kaggle.com/c/house-prices-advanced-regression-techniques

總結

以上是生活随笔為你收集整理的数据分析利器:XGBoost算法最佳解析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。