日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习基础】GBDT 与 LR 的区别总结

發(fā)布時(shí)間:2025/3/12 编程问答 11 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习基础】GBDT 与 LR 的区别总结 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者:杜博亞,阿里算法工程師,復(fù)旦大學(xué)計(jì)算機(jī)碩士,BDKE 之光。

1.從機(jī)器學(xué)習(xí)三要素的角度

1.1 模型

本質(zhì)上來說,他們都是監(jiān)督學(xué)習(xí),判別模型,直接對(duì)數(shù)據(jù)的分布建模,不嘗試挖據(jù)隱含變量,這些方面是大體相同的。但是又因?yàn)橐粋€(gè)是線性模型,一個(gè)是非線性模型,因此其具體模型的結(jié)構(gòu)導(dǎo)致了VC維的不同:其中,Logistic Regression作為線性分類器,它的VC維是d+1,而 GBDT 作為boosting模型,可以無限分裂,具有無限逼近樣本VC維的特點(diǎn),因此其VC維遠(yuǎn)遠(yuǎn)大于d+1,這都是由于其線性分類器的特征決定的,歸結(jié)起來,是Logistic Regression對(duì)數(shù)據(jù)線性可分的假設(shè)導(dǎo)致的

1.2 策略

從 Loss(經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化) + 正則(結(jié)構(gòu)風(fēng)險(xiǎn)最小化) 的框架開始說起;

「從Loss的角度:」

因?yàn)?Logistic Regression 的輸出是 y = 1 的概率,所以在極大似然下,Logistic Regression的Loss是交叉熵,此時(shí),Logistic Regression的準(zhǔn)則是最大熵原理,也就是“為了追求最小分類誤差,追求最大熵Loss”,「本質(zhì)上是分類器算法,而且對(duì)數(shù)據(jù)的噪聲具有高斯假設(shè)」;而 GBDT 采用 CART 樹作為基分類器,其無論是處理分類還是回歸均是將采用回歸擬合(將分類問題通過 softmax 轉(zhuǎn)換為回歸問題,具體可參考本博客 GBDT 章節(jié)),用當(dāng)前輪 CART 樹擬合前一輪目標(biāo)函數(shù)與實(shí)際值的負(fù)梯度:,「本質(zhì)上是回歸算法」

?

也正是因?yàn)?GBDT 采用的 CART 樹模型作為基分類器進(jìn)行負(fù)梯度擬合,其是一種對(duì)特征樣本空間進(jìn)行劃分的策略,不能使用 SGD 等梯度優(yōu)化算法,而是 CART 樹自身的節(jié)點(diǎn)分裂策略:均方差(回歸) 也帶來了算法上的不同;GBDT 損失函數(shù)值得是前一輪擬合模型與實(shí)際值的差異,而樹節(jié)點(diǎn)內(nèi)部分裂的特征選擇則是固定為 CART 的均方差,目標(biāo)損失函數(shù)可以自定義,當(dāng)前輪 CART 樹旨在擬合負(fù)梯度。

?

「從特征空間的角度:」就是因?yàn)?Logistic Regression 是特征的線性組合求交叉熵的最小化,也就是對(duì)特征的線性組合做 logistic,使得Logistic Regression會(huì)在特征空間中做線性分界面,適用于分類任務(wù);

而 GBDT 采用 CART 樹作為基分類器,其每輪樹的特征擬合都是對(duì)特征空間做平行于坐標(biāo)軸的空間分割,所以自帶特征選擇和可解釋性,GBDT 即可處理分類問題也可解決回歸問題,只是其統(tǒng)一采用回歸思路進(jìn)行求解(試想,如果不將分類轉(zhuǎn)換為回歸問題,GBDT 每輪目標(biāo)函數(shù)旨在擬合上一輪組合模型的負(fù)梯度,分類信息無法求梯度,故而依舊是采用 softmax 轉(zhuǎn)換為回歸問題進(jìn)行求解)。

?

「線性分類器」(處理線性可分)有三大類:「感知器準(zhǔn)則函數(shù)、SVM、Fisher準(zhǔn)則」

「感知準(zhǔn)則函數(shù)」 :準(zhǔn)則函數(shù)以使錯(cuò)分類樣本到分界面距離之和最小為原則。其優(yōu)點(diǎn)是通過錯(cuò)分類樣本提供的信息對(duì)分類器函數(shù)進(jìn)行修正,這種準(zhǔn)則是人工神經(jīng)元網(wǎng)絡(luò)多層感知器的基礎(chǔ)。

「支持向量機(jī)」 :基本思想是在兩類線性可分條件下,所設(shè)計(jì)的分類器界面使兩類之間的間隔為最大,它的基本出發(fā)點(diǎn)是使期望泛化風(fēng)險(xiǎn)盡可能小。(使用核函數(shù)可解決非線性問題)

「Fisher 準(zhǔn)則」 :更廣泛的稱呼是線性判別分析(LDA),將所有樣本投影到一條原點(diǎn)出發(fā)的直線,使得同類樣本距離盡可能小,不同類樣本距離盡可能大,具體為最大化“廣義瑞利商”。根據(jù)兩類樣本一般類內(nèi)密集,類間分離的特點(diǎn),尋找線性分類器最佳的法線向量方向,使兩類樣本在該方向上的投影滿足類內(nèi)盡可能密集,類間盡可能分開。這種度量通過類內(nèi)離散矩陣 Sw 和類間離散矩陣 Sb 實(shí)現(xiàn)。

?

「從正則的角度:」

Logistic Regression 的正則采用一種約束參數(shù)稀疏的方式,其中 L2 正則整體約束權(quán)重系數(shù)的均方和,使得權(quán)重分布更均勻,而 L1 正則則是約束權(quán)重系數(shù)絕對(duì)值和,其自帶特征選擇特性;

GBDT 的正則:

  • 弱算法的個(gè)數(shù)T,就是迭代T輪。T的大小就影響著算法的復(fù)雜度

  • 步長(Shrinkage)在每一輪迭代中,原來采用進(jìn)行更新,可以加入步長v,使得一次不更新那么多:

?

XGBoost的正則是在 GBDT 的基礎(chǔ)上又添加了是一棵樹里面節(jié)點(diǎn)的個(gè)數(shù),以及每個(gè)樹葉子節(jié)點(diǎn)上面輸出分?jǐn)?shù)的 L2 模平方。

?

區(qū)別在于 LR 采用對(duì)特征系數(shù)進(jìn)行整體的限定,GBDT 采用迭代的誤差控制本輪參數(shù)的增長;

1.3 算法

Logistic Regression 若采用 SGB, Momentum, SGD with Nesterov Acceleration 等算法,只用到了一階導(dǎo)數(shù)信息(一階動(dòng)量),若用 AdaGrad, AdaDelta / RMSProp, Adam, Nadam 則用到了一階導(dǎo)數(shù)的平方(二階動(dòng)量), 牛頓法則用到了二階導(dǎo)數(shù)信息,

而 GBDT 直接擬合上一輪組合函數(shù)的特征梯度,只用到了一階倒數(shù)信息,XGBoost 則是用到了二階導(dǎo)數(shù)信息。

?

SAG/SAGA等優(yōu)化器在scikit-learn上可用,但是業(yè)界用得比較多的還是BGFS,L-BGFS等,個(gè)人認(rèn)為是計(jì)算量的原因,Logistic Regression模型很快就可以收斂,在線性可分的空間中也不容易出現(xiàn)鞍點(diǎn),而且一般用Logistic Regression模型的數(shù)據(jù)量都比較大,大到不能上更復(fù)雜的模型,所以優(yōu)化方法一般都是往計(jì)算量小的方向做。

?

2.從特征的角度

2.1 特征組合

如前所說,GBDT 特征選擇方法采用最小化均方損失來尋找分裂特征及對(duì)應(yīng)分裂點(diǎn),所以自動(dòng)會(huì)在當(dāng)前根據(jù)特征 A 分裂的子樹下尋求其他能使負(fù)梯度最小的其他特征 B,這樣就自動(dòng)具備尋求好的特征組合的性能,因此也能給出哪些特征比較重要(根據(jù)該特征被選作分裂特征的次數(shù))

而 LR 只是一次性地尋求最大化熵的過程,對(duì)每一維的特征都假設(shè)獨(dú)立,因此只具備對(duì)已有特征空間進(jìn)行分割的能力,更不會(huì)對(duì)特征空間進(jìn)行升維(特征組合)

2.2 特征的稀疏性

如前所述,Logistic Regression不具有特征組合的能力,并假設(shè)特征各個(gè)維度獨(dú)立,因此只具有線性分界面,實(shí)際應(yīng)用中,多數(shù)特征之間有相關(guān)性,只有維度特別大的稀疏數(shù)據(jù)中特征才會(huì)近似獨(dú)立,所以適合應(yīng)用在特征稀疏的數(shù)據(jù)上。而對(duì)于 GBDT,其更適合處理稠密特征,如 GBDT+LR 的Facebook論文中,對(duì)于連續(xù)型特征導(dǎo)入 GBDT 做特征組合來代替一部分手工特征工程,而對(duì)于 ID 類特征的做法往往是 one-hot 之后直接傳入 LR,或者先 hash,再 one-hot 傳入樹中進(jìn)行特征工程,而目前的主流做法是直接 one-hot + embedding 來將高維稀疏特征壓縮為低緯稠密特征,也進(jìn)一步引入了語意信息,有利于特征的表達(dá)。

3.數(shù)據(jù)假設(shè)不同

邏輯回歸的「第一個(gè)」基本假設(shè)是**假設(shè)數(shù)據(jù)服從伯努利分布。**伯努利分布有一個(gè)簡單的例子是拋硬幣,拋中為正面的概率是 p,拋中為負(fù)面的概率是 1?p。在邏輯回歸這個(gè)模型里面是假設(shè) 為樣本為正的概率, 為樣本為負(fù)的概率。那么整個(gè)模型可以描述為:

邏輯回歸的第二個(gè)假設(shè)是假設(shè)樣本為正的概率是 :

所以邏輯回歸的最終形式 :

總結(jié),Logistic Regression的數(shù)據(jù)分布假設(shè):

  • 噪聲是高斯分布的

  • 數(shù)據(jù)服從伯努利分布

  • 特征獨(dú)立

  • 而 GBDT 并未對(duì)數(shù)據(jù)做出上述假設(shè)。

    往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯 本站知識(shí)星球“黃博的機(jī)器學(xué)習(xí)圈子”(92416895) 本站qq群704220115。 加入微信群請(qǐng)掃碼:

    總結(jié)

    以上是生活随笔為你收集整理的【机器学习基础】GBDT 与 LR 的区别总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。