GBDT+LR
GBDT + LR 模型融合在之前的推薦系統(tǒng)中很常見,甚至現(xiàn)在有的廠子也在用這一套東西,畢竟每個(gè)廠子的業(yè)務(wù)不同數(shù)據(jù)不同,所以不同的算法模型效果也會(huì)參差不齊
13年左右的時(shí)候,業(yè)界訓(xùn)練模型主要有兩條路:
? ? 大規(guī)模特征 + 線性模型(Goole,Baidu)
? ? 中小規(guī)模特征 + 非線性模型(Yahoo,Bing,Taobao)
之前很多人都會(huì)用到LR,是因?yàn)長R是線性模型,可以并行處理大量數(shù)據(jù),但是缺點(diǎn)也是同樣顯著,就是需要大規(guī)模的特征;人工處理大量的特征并不能保證會(huì)帶來效果上的提升,因此如何自動(dòng)組合、挖掘特征是一個(gè)重要的問題。
挖掘特征目前主要有兩條路:
?1、FM系列->通過隱變量的形式,挖掘特征之間的組合關(guān)系
?2、樹系列-> GBDT,Xgboot,lightGBM
今天給大家說一下樹系列的組合特征挖掘
GBDT是樹系列的一個(gè)模型,拆開來看就是 梯度(G)? + 集成(B) + 決策回歸樹(DT)
首先它是由一顆決策回歸樹(DT)為單位組成的,這里要注意是回歸樹不是分類樹,兩者有區(qū)別,例如預(yù)測(cè)的是身高、年齡這種連續(xù)的用回歸樹,如果出現(xiàn)是否點(diǎn)擊,是否聊天這種屬于分類
其次它是一個(gè)集成(B)的樹,它是一個(gè)串行的結(jié)構(gòu)和隨機(jī)森林不同,隨機(jī)森林是并行結(jié)構(gòu),為什么說它是串行結(jié)構(gòu),是因?yàn)樗鼤?huì)先讓第一個(gè)樹先學(xué)習(xí),假如你的目標(biāo)值是10,第一個(gè)樹只學(xué)到9,那么還有殘差為1沒有學(xué)到,第二顆樹的目標(biāo)值是1而不是10,直到最終學(xué)習(xí)到的值小于閾值,停止學(xué)習(xí)
最后說一下梯度(G),說白了它就是往殘差逐漸減小的方向?qū)W習(xí)
LR模型大家應(yīng)該比較清楚啦,它就是一個(gè)線性函數(shù)?w1x1+w2x2+......,之后外面套一個(gè)sigmoid函數(shù),把最終的數(shù)值映射到0-1之間,目的學(xué)的是w1,w2.....wn這些參數(shù)
GBDT + LR:
說白了就是兩步,
第一步把數(shù)據(jù)輸入到gbdt輸出的是每條數(shù)據(jù)對(duì)應(yīng)一個(gè)向量,如下圖所示
第二步把向量輸入到LR分類模型,獲取結(jié)果
代碼實(shí)現(xiàn):
導(dǎo)入相應(yīng)包
加載數(shù)據(jù),預(yù)處理
設(shè)置參數(shù),輸出實(shí)驗(yàn)結(jié)果:
現(xiàn)在大量的數(shù)據(jù)業(yè)務(wù)會(huì)出現(xiàn)很多高維度離散數(shù)據(jù),很多網(wǎng)上的帖子說之所以現(xiàn)在很多樹模型并不適用,是因?yàn)榇髷?shù)據(jù)高維離散特征,樹模型比較容易過擬合,其實(shí)以目前我的觀點(diǎn)來看,我并不完全贊同這種說法:
1、感覺很多樹模型并不適用的主要原因是沒有深度模型效果好
2、很多深度模型會(huì)加上正則項(xiàng)來控制過擬合,但是在非線性模型樹中,你主要就是調(diào)整樹的深度和個(gè)數(shù),通過訓(xùn)練集和測(cè)試集合的效果的差值來評(píng)判是否是過擬合,一般來說訓(xùn)練集AUC 和測(cè)試集AUC 之差大于3%,表示過擬合
3、現(xiàn)在很多公司都在用xgboost,lightgbm這種模型神器,很大一部分原因就是公司業(yè)務(wù)不同,數(shù)據(jù)不同,所以不同模型效果不同
很多公司都會(huì)測(cè)試各種模型,比較那個(gè)模型比較好
?
參考:
1、http://quinonero.net/Publications/predicting-clicks-facebook.pdf
2、https://www.jianshu.com/p/96173f2c2fb4
3、https://blog.csdn.net/weixin_41362649/article/details/83184422
4、https://blog.csdn.net/weixin_41362649/article/details/82803279
5、https://blog.csdn.net/weixin_41362649/article/details/82080198
?
總結(jié)
- 上一篇: 关于AUC计算公式推导
- 下一篇: 用户画像-标签