使用GBDT+LR作点击率预测
生活随笔
收集整理的這篇文章主要介紹了
使用GBDT+LR作点击率预测
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
主要內(nèi)容來源于facebook的論文:Practical Lessons from Predicting Clicks on Ads at Facebook》
1、基本思路
使用GBDT根據(jù)用戶特征轉(zhuǎn)換生成新的特征,每棵樹的每個(gè)葉子均作為一個(gè)特征,然后將這些特征代入LR。
舉個(gè)例子:
(1)訓(xùn)練GBDT樹:我們現(xiàn)在m個(gè)樣本,總共有6000個(gè)標(biāo)簽,將這些樣本用于訓(xùn)練GBDT,生成10棵樹,每棵樹100個(gè)葉子(當(dāng)然各棵樹的葉子數(shù)可能不同),總共1000個(gè)葉子。上述的1000個(gè)葉子會(huì)作為特征。
(2)使用GBDT樹轉(zhuǎn)換特征:還是上面的m個(gè)樣本,我們將這m個(gè)樣本代入上面生成的10棵樹,這些樣本在每棵樹上都會(huì)被分類到其中一個(gè)葉子,將這個(gè)葉子對(duì)應(yīng)的位置設(shè)置為1,其余為0。這樣就得到我們轉(zhuǎn)換后的特征了。
(3)使用轉(zhuǎn)換特征訓(xùn)練LR:使用上面轉(zhuǎn)換后的特征作為樣本特征,用于訓(xùn)練LR,得到最終的模型。
(4)當(dāng)有新樣本需要預(yù)測(cè)時(shí),使用步驟2生成轉(zhuǎn)換特征后代入第3步生成的模型,得出最終的預(yù)測(cè)結(jié)果。
附一張facebook的圖:
2、問題 (1)使用GBDT抽取特征以后,這些特征就應(yīng)該固定了,也就是說第一天GBDT就固定了,以后不再訓(xùn)練,只是用這棵樹來根據(jù)樣本生成特征。 但是我們的特征是會(huì)變化的,如果增加了一個(gè)特征,由于GBDT樹不再發(fā)生變化,因此這個(gè)特征不會(huì)再被加入模型。唯一的處理方法是,重新訓(xùn)練GBDT樹,但這樣的話由于轉(zhuǎn)換生成的特征發(fā)生了變化,因此LR要從最初的數(shù)據(jù)開始全部訓(xùn)練。 解決辦法:原有特征繼續(xù)進(jìn)入GBDT,新來的特征作為一新特征開始訓(xùn)練。然后每隔一段時(shí)間重新訓(xùn)練GBDT,并且全部重新進(jìn)入LR。
2、問題 (1)使用GBDT抽取特征以后,這些特征就應(yīng)該固定了,也就是說第一天GBDT就固定了,以后不再訓(xùn)練,只是用這棵樹來根據(jù)樣本生成特征。 但是我們的特征是會(huì)變化的,如果增加了一個(gè)特征,由于GBDT樹不再發(fā)生變化,因此這個(gè)特征不會(huì)再被加入模型。唯一的處理方法是,重新訓(xùn)練GBDT樹,但這樣的話由于轉(zhuǎn)換生成的特征發(fā)生了變化,因此LR要從最初的數(shù)據(jù)開始全部訓(xùn)練。 解決辦法:原有特征繼續(xù)進(jìn)入GBDT,新來的特征作為一新特征開始訓(xùn)練。然后每隔一段時(shí)間重新訓(xùn)練GBDT,并且全部重新進(jìn)入LR。
總結(jié)
以上是生活随笔為你收集整理的使用GBDT+LR作点击率预测的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 点击率预估算法:FM与FFM
- 下一篇: 逻辑回归:损失函数与梯度下降