日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

利用GBDT模型构造新特征具体方法

發(fā)布時間:2023/12/18 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 利用GBDT模型构造新特征具体方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

利用GBDT模型構造新特征具體方法

數(shù)據(jù)挖掘入門與實戰(zhàn) ?公眾號: datadw

?

?

實際問題中,可直接用于機器學**模型的特征往往并不多。能否從“混亂”的原始log中挖掘到有用的特征,將會決定機器學**模型效果的好壞。引用下面一句流行的話:

?

特征決定了所有算法效果的上限,而不同的算法只是離這個上限的距離不同而已。

?

本文中我將介紹Facebook最近發(fā)表的利用GBDT模型構造新特征的方法。

?

(Xinran He et al. Practical Lessons from Predicting Clicks on Ads at Facebook, 2014)

論文的思想很簡單,就是先用已有特征訓練GBDT模型,然后利用GBDT模型學**到的樹來構造新特征,最后把這些新特征加入原有特征一起訓練模型。構造的新特征向量是取值0/1的,向量的每個元素對應于GBDT模型中樹的葉子結(jié)點。當一個樣本點通過某棵樹最終落在這棵樹的一個葉子結(jié)點上,那么在新特征向量中這個葉子結(jié)點對應的元素值為1,而這棵樹的其他葉子結(jié)點對應的元素值為0。新特征向量的長度等于GBDT模型里所有樹包含的葉子結(jié)點數(shù)之和。

?

舉例說明。下面的圖中的兩棵樹是GBDT學**到的,第一棵樹有3個葉子結(jié)點,而第二棵樹有2個葉子節(jié)點。對于一個輸入樣本點x,如果它在第一棵樹最后落在其中的第二個葉子結(jié)點,而在第二棵樹里最后落在其中的第一個葉子結(jié)點。那么通過GBDT獲得的新特征向量為[0, 1, 0, 1, 0],其中向量中的前三位對應第一棵樹的3個葉子結(jié)點,后兩位對應第二棵樹的2個葉子結(jié)點。

?

?

那么,GBDT中需要多少棵樹能達到效果最好呢?具體數(shù)字顯然是依賴于你的應用以及你擁有的數(shù)據(jù)量。一般數(shù)據(jù)量較少時,樹太多會導致過擬合。在作者的應用中,大概500棵左右效果就基本不改進了。另外,作者在建GBDT時也會對每棵樹的葉子結(jié)點數(shù)做約束——不多于12個葉子結(jié)點。

?

下面是這種方法在我們世紀佳緣的一個概率預測問題上的實際效果。我們只使用了30棵樹。第一個圖是只使用原始特征的結(jié)果,第二個圖是原始特征加GBDT新特征的結(jié)果。圖中橫坐標表示預測概率值,縱坐標表示真實概率值。所以預測的點越靠近y=xy=x這條參考線越好。顯然,使用了GBDT構造的新特征后,模型的預測效果好不少。

?

?

?

已經(jīng)有人利用這種方法贏得了Kaggle一個CTR預估比賽的冠軍,這種方法的具體實現(xiàn)代碼可見 ??https://github.com/guestwalk/kaggle-2014-criteo

轉(zhuǎn)載于:https://www.cnblogs.com/DjangoBlog/p/6201593.html

總結(jié)

以上是生活随笔為你收集整理的利用GBDT模型构造新特征具体方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。