Ctr点击率预估理论基础及项目实战
1.機器學習推薦算法模型回顧
召回(粗排)
利用業務規則結合機器學習推薦算法得到初始推薦結果,得到部分商品召回集
ALS\UserCF\ItemCF\FP-Growth\規則等方式召回
排序(精排)
1期:根據不同推薦位通過不同的模型得到推薦結果
2期:將推薦的所有結果通過Ctr或Cvr預估結果進行排序
GBDT\LR\GBDT+LR\FM()\FFM()\DeepFM\Wide and deep模型\PNN()\FNN()等?
結構圖示
擴展 : 推薦系統排序模型
框架
??? ?從框架的角度看,推薦系統基本可以分為數據層、觸發層、融合過濾層和排序層。數據層包括數據生成和數據存儲,主要是利用各種數據處理工具對原始日志進行清洗,處理成格式化的數據,落地到不同類型的存儲系統中,供下游的算法和模型使用。候選集觸發層主要是從用戶的歷史行為、實時行為、地理位置等角度利用各種觸發策略產生推薦的候選集(召回)。候選集融合和過濾層有兩個功能,一是對出發層產生的不同候選集進行融合,提高推薦策略的覆蓋度和精度;另外還要承擔一定的過濾職責,從產品、運營的角度確定一些人工規則,過濾掉不符合條件的item。排序層主要是利用機器學習的模型對觸發層篩選出來的候選集進行重排序。
??? ?首先將客戶上報過來的數據進行數據清洗,檢查數據的一致性,處理無效值和缺失值等,去除臟數據,處理成格式化數據存儲到不同類型的存儲系統中。對于用戶行為日志和推薦日志由于隨時間積累會越來越大,一般存儲在分布式文件系統(HDFS),即Hive表中,當需要的時候可以下載到本地進行離線分析。對于物品信息一般存儲在MySQL中,但是對于業務數據,越來越多的客戶導致物品信息表(item_info)越來越大,所以同時也會保存在Hive表和HBase中,Hive可以方便離線分析時操作,但實時程序讀取的時候Hive表的實時性較差,所以同時也會寫一份放在HBase中供實時程序讀取。對于各個程序模塊生成的結果,有進程同步關系的程序一般會使用Redis作為緩沖存儲,生產者會把信息寫到redis中供消費者使用。候選集生成是從用戶的歷史行為、實時行為、利用各種策略和算法生成推薦的候選集。同時點擊反饋會根據用戶的實時操作對候選集進行實時的調整,對于部分新用戶和歷史行為不太豐富的用戶,由于候選集太小,需要一些替補策略進行補充。候選集融合規則過濾主要有兩個功能,一是對生成的候選集進行融合,提高推薦策略的覆蓋度和精度;另外還需根據產品、運營的角度確定一些人為的規則,過濾掉不符合條件的item,重排序主要是利用機器學習的模型對融合后的候選集進行重排序。
??? ?同時,對與候選集觸發和重排序兩層而言,為了效果迭代是需要頻繁修改的兩層,因此需要支持ABtest。為了支持高效率的迭代,我們對候選集觸發和重排序兩層進行了解耦,這兩層的結果是正交的,因此可以分別進行對比試驗,不會相互影響。同時在每一層的內部,我們會根據用戶將流量劃分為多份,支持多個策略同時在線對比。
??? ?排序模型分為非線性模型和線性模型,非線性模型能較好的捕捉特征中的非線性關系,但訓練和預測的代價相對線性模型要高一些,這也導致了非線性模型的更新周期相對要長。相較而言,線性模型對特征的處理要求比較高(LR對特征要求較高),需要憑借領域知識和經驗人工對特征做一些先期處理,但因為線性模型簡單,在訓練和預測時效率較高。因此在更新周期上也可以做的更短,還可以結合業務做一些在線學習的嘗試。
2.機器學習重排序-線性模型
邏輯斯特回歸是一種廣義線性模型 , 雖然名字里帶著回歸 , 但它其實是一種分類算法 , 主要運用在二分類或多分類算法 . 邏輯斯特回歸采用極大似然法對模型參數進行估計 .
線性模型以LR為例展開
線性回歸:y=w0+w1x1+w2x2+w3x3
非線性函數:y=1/{1+e**-x} — sigmod函數 — 以概率輸出2分類的結果
線性模型:對輸入特征需要做專門的處理灌入算法中學習
3.機器學習重排序-非線性模型
GBDT為例—梯度提升決策樹
算法原理:
加法模型
前線分布算法
梯度下降法
是非線性模型,在模型中數據的輸入沒有要求,比線性模型少了很多的處理特征的環境
4.機器學習重排序-GBDT+LR簡介
GBDT+LR
GBDT天然具有的優勢是可以發現多種有區分性的特征以及特征組合 .
LR利用GBDT的輸出結果作為輸入 ; LR要輸入的是線性獨立特征
GBDT是非線性模型
LR是線性模型
LR特征工程比較困難,可以借助GBDT方法得到關鍵特征
GBDT通過將樣本落入到每一個葉子結點上,取值為1,其余為0,構建稀疏性向量空間,如01001,將新向量作為LR的輸入進行點擊率預估,以概率的形式輸出點擊率預估結果
5.排序模型發展
LR階段--------特征需要處理
為什么LR需要線性獨立的特征?
LR接受的是線性獨立的特征
y=w0+w1x1+w2x2 假設x1和x2是相關變量,能夠將w1x1+w2x2組合為一個wx
LR的瓶頸 :
1、特征都需要人工進行轉換為線性特征,十分消耗人力,并且質量不能保證
2、特征兩兩作Interaction (交叉沿鎮)的情況下,模型預測復雜度是平方項。在100維稠密特征的情況下,就會有組合出10000維的特征,復雜度高,增加特征困難。
3、三個以上的特征進行Interaction 幾乎是不可行的
GBDT的優點 :
1、對輸入特征的分布沒有要求
2、根據熵增益自動進行特征轉換、特征組合、特征選擇和離散化,得到高維的組合特征,省去了人工轉換的過程,并且支持了多個特征的Interaction
3、預測復雜度與特征個數無關
GBDT階段-------能夠做非線性處理
根據信息gini系數對各個特征進行交叉,得到葉子結點是各個特征的交叉的結果,可以利用GBDT算法以稀疏編碼的方式對已有的樣本進行預測輸出,如000101
GBDT算法的特點正好可以用來發掘有區分度的特征、特征組合,減少特征工程中人力成本。
GBDT+LR
利用GBDT的輸出作為LR輸入,輸入LR的特征是獨立的特征,進而進行學習
stacking模型就是上一個模型的結果作為下一個模型的輸入
6.愛奇藝推薦排序模型
推薦系統的整體結構如圖所示,各個模塊的作用如下:
1、用戶畫像:包含用戶的人群屬性、歷史行為、興趣內容和偏好傾向等多維度的分析,是個性化的基石
2、特征工程:包含了了視頻的類別屬性,內容分析,人群偏好和統計特征等全方位的描繪和度量,是視頻內容和質量分析的基礎
3、召回算法:包含了多個通道的召回模型,比如協同過濾,主題模型,內容召回和SNS等通道,能夠從視頻庫中選出多樣性的偏好內容
4、排序模型:對多個召回通道的內容進行同一個打分排序,選出最優的少量結果。
推薦排序系統架構
在召回階段,**多個通道的召回的內容是不具有可比性的,**并且因為數據量太大也難以進行更加較精確的偏好和質量評估,因此需要在排序階段對召回結果進行統一的準確的打分排序。
(規則排序)用戶對視頻的滿意度是由很多維度因子來決定的,這些因子在用戶滿意度中的重要性也各不相同,甚至各個因子之間還有多層依賴關系,人為制定復雜的規則既難以達到好的效果,又不具有可維護性,這就需要借助機器學習的方法,使用機器學習模型來綜合多方面的因子進行排序(基于模型排序效果)。
機器學習的架構解決了以下兩個問題
訓練預測的一致性
機器學習模型在訓練和預測之間的差異會對模型的準確性產生很大的影響,尤其是模型訓練與在線服務時特征不一致,比如用戶對推薦結果的反饋會實時影響到用戶的偏好特征,在訓練的時候用戶特征的狀態已經發生了變化,模型如果依據這個時候的用戶特征就會產生非常大的誤差。
我們的解決辦法是,將在線服務時的特征保存下來,然后填充到收集的用戶行為樣本中,這樣就保證了訓練和預測特征的一致性。 ===> 即增大了數據的復雜度
持續迭代
互聯網產品持續迭代上線是常態,在架構設計的時候,數據準備,模型訓練和在線服務都必須能夠對持續迭代有良好的支持。
我們的解決方案是,數據準備和模型訓練各階段解耦,并且策略配置化,這種架構使模型測試變得非常簡單,可以快速并行多個迭代測試。
召回
用戶畫像
特征工程
推薦算法
排序
用戶行為收集,特征填充,訓練樣本篩選,模型訓練,在線預測排序
機器學習算法
7.極大似然估計
求解發生概率的最大值
目的:求解發生概率最大值
步驟:1.寫出似然函數,2.對似然函數求log對數,3.對似然函數求導數,4.得到最優解
機器學習三要素:
模型
決策函數:損失函數—平方損失、絕對值損失、指數損失 ----- 最小化損失
條件概率函數:極大似然估計
求解極大似然目標函數
步驟:
1.寫出似然函數
2.對似然函數求log對數
3.對似然函數求導數
4.得到最優解
圖解
極大似然估計的例子圖解
8.梯度下降法及牛頓法
梯度下降法
底層實現:泰勒的一階展開
代碼實現
# 給定初始值 , xOld記錄上一步的x值 , xNew下一步迭代的x值
xOld = 0
xNew = 6
# 步長
epa = 0.01
# 可接受誤差
precision = 0.00001
# 定義原函數
def f(x):
?? ?return x ** 4 - 3 * x ** 3 + 2
# 定義導函數
def f_prime(x):
?? ?return 4 * x ** 3 - 9 * x ** 2
# 主函數
if __name__ == '__main__':
?? ?# 循環直到函數值之差滿足最小誤差
?? ?while abs(f(xNew) - f(xOld)) > precision:
?? ??? ?xOld = xNew
?? ??? ?xNew = xOld - epa * f_prime(xOld)
?? ?# 輸出極小值點
?? ?print("最小值點為 : ", xNew, "最小值為 : ", f(xNew))
# 最小值點為 : ?2.2489469258218673 最小值為 : ?-6.542957528732806
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
總結 :
(1)方向導數是各個方向上的導數
(2)偏導數連續才有梯度存在
(3)梯度的方向是方向導數中取到最大值的方向,梯度的值是方向導數的最大值。
批量梯度下降法(BGD)
更新規則–所有樣本都參與了 theta 的更新和求解,這稱之為批量梯度方法,批量梯度下降法可以找到 線性回歸的全局最小值(為什么?因為目標函數是凸函數,凸函數有且只有一個全局最小值),但算法本身局限在于可能存在局部最優解,但不是全局最優解。
隨機梯度下降法(SGD)
特點 : 更快 , 在線 , 可以跳過局部最小值 , 有可能找不到全局最優值 , 有時候會在局部最優值點發生震蕩 , 但是一般情況下在一定位置發生震蕩 , 認為模型收斂了 . SGD比BGD更能收斂到全局最優值
牛頓法 :
底層實現:泰勒二階展開
牛頓法代碼 :
# 定義原函數
def f(x):
?? ?return x ** 3.0 - 2.0
# 定義導函數
def df(x):
?? ?return 3.0 * x ** 2.0
# 定義迭代值
def g(x):
?? ?return x - f(x) / df(x)
# 定義初始值
x = 1.0
# 定義誤差
r = 1.0
# 循環100次
for i in range(100):
?? ?# 迭代值賦值
?? ?x1 = g(x);
?? ?# 誤差賦值
?? ?r = abs(x1 - x)
?? ?# 可接受誤差
?? ?if r < 1e-10:
?? ??? ?print("step : % d " % i)
?? ??? ?break
?? ?# 更新下一步起始位置
?? ?x = x1
?? ?# 顯示迭代步驟
?? ?print("step : %d , x = %f" % (i, x))
print("remaind error = %f" % r)
print("x = %f" % x)
print("check f(x) = %f , the result is %r" % (f(x), f(x) == 0))
# step : 0 , x = 1.333333
# step : 1 , x = 1.263889
# step : 2 , x = 1.259933
# step : 3 , x = 1.259921
# step : 4 , x = 1.259921
# step : ?5?
# remaind error = 0.000000
# x = 1.259921
# check f(x) = 0.000000 , the result is True
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
梯度下降法與牛頓法的比較
9.邏輯斯特回歸模型
構建似然函數
對似然函數加log對數----------------負log損失函數-------交叉熵損失
求解導數
利用梯度下降法求解得到參數
BGD
SGD(Mini-Batch SGD)
掌握手推梯度下降法
10.邏輯斯特回歸模型實踐
邏輯回歸可以解決分類問題
參數信息:solver和penlty正則項
#導入數據
from sklearn.datasets import load_iris
iris=load_iris()
#數據的基礎屬性信息
print(iris.data)
print(iris.target)
#建立模型
X=iris.data
y=iris.target
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=22)
from sklearn.linear_model import LogisticRegression
lr=LogisticRegression(solver='newton-cg')
lr.fit(X_train,y_train)
#模型檢驗
print("lr model in trainset score:",lr.score(X_train,y_train))
print("lr model in testset score:",lr.score(X_test,y_test))
# lr model in trainset score: 0.9416666666666667
# lr model in testset score: 0.9666666666666667
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
11.線性回歸和邏輯回歸的API
通過sklearn的API實現不同的算法
12.GBDT_LR實戰與總結
GBDT+LR實戰
GBDT形成結果通過OneHot編碼形成沒有線性關系的獨熱編碼
再通過LR輸出0-1之間的概率值
sklearn中https://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_transformation.html
測試代碼
import numpy as np
np.random.seed(10)
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import (RandomTreesEmbedding, RandomForestClassifier,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? GradientBoostingClassifier)
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve
from sklearn.pipeline import make_pipeline
n_estimator = 10
X, y = make_classification(n_samples=80000)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
X_train, X_train_lr, y_train, y_train_lr = train_test_split(
? ? X_train, y_train, test_size=0.5)
# Supervised transformation based on gradient boosted trees
grd = GradientBoostingClassifier(n_estimators=n_estimator)
grd_enc = OneHotEncoder()
grd_lm = LogisticRegression(solver='lbfgs', max_iter=1000)
grd.fit(X_train, y_train)
grd_enc.fit(grd.apply(X_train)[:, :, 0])
grd_lm.fit(grd_enc.transform(grd.apply(X_train_lr)[:, :, 0]), y_train_lr)
y_pred_grd_lm = grd_lm.predict_proba(grd_enc.transform(grd.apply(X_test)[:, :, 0]))[:, 1]
fpr_grd_lm, tpr_grd_lm, _ = roc_curve(y_test, y_pred_grd_lm)
# # The gradient boosted model by itself
# y_pred_grd = grd.predict_proba(X_test)[:, 1]
# fpr_grd, tpr_grd, _ = roc_curve(y_test, y_pred_grd)
plt.plot(fpr_grd_lm,tpr_grd_lm)
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
**每個樣本都經過整體的每棵樹的決定,并以每棵樹的一片葉子結束。**通過將這些葉的特征值設置為1并將其他特征值設置為0來對樣本進行編碼。
然后,所得到的transformer學習數據的監督的,稀疏的,高維的分類嵌入。
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.auc.html#sklearn.metrics.auc
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html#sklearn.metrics.roc_auc_score
http://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_transformation.html
算法背景 : acebook發表了一篇介紹將GBDT+LR模型用于其廣告推薦系統的論文
LR模型有以下特點:
計算復雜度低
易于并行化處理???
易于得到離散化目標值0或1,利用sigmoid函數將傳統線性模型的輸出值映射到(0,1)區間
GBDT作為一種常用的樹模型,可天然地對原始特征進行特征劃分、特征組合和特征選擇,并得到高階特征屬性和非線性映射。從而可將GBDT模型抽象為一個特征處理器,通過GBDT分析原始特征獲取到更利于LR分析的新特征。這也正是GBDT+LR模型的核心思想——利用GBDT構造的新特征來訓練LR模型。
算法原理及實現
算法組合——stacking : stacking方法有些類似于農業中的嫁接,通過stacking方法組合的模型亦類似于嫁接植物
Facebook論文中的GBDT+LR模型就采用了GBDT算法作為學習層,以LR算法為輸出層。
算法流程& 代碼簡單實現
數據預處理 : 對變量取值中的中英文字符、缺失值和正負無窮值進行處理。
數據集劃分 : 為了降低過擬合的風險,將訓練集中的數據劃分為兩部分,一部分數據用于訓練GBDT模型,另一部分數據通過訓練好的GBDT模型得到新特征以訓練LR模型。
From sklearn.model import train_test_split
X_gbdt,X_lr,y_gbdt,y_lr= train_test_split(X,y,test_size=0.5)
1
2
GBDT特征轉化 : 首先,通過sklearn中的GradientBoostingClassifier得到GBDT模型,然后使用GBDT模型的fit方法訓練模型,最后使用GBDT模型的apply方法得到新特征。
from sklearn.ensemble import GradientBoostingClassifier
gbdt = GradientBoostingClassifier()
gbdt.fit(X_gbdt,y_gbdt)
leaves = gbdt.apply(X_lr)[:,:,0]
1
2
3
4
特征獨熱化 : 使用sklearn.preprocessing中的OneHotEncoder將GBDT所得特征獨熱化。
from sklearn.preprocessing import OneHotEncoder
featutes_trans =OneHotEncoder.fit_transform(leaves)
1
2
LR進行分類 : 用經過離散化處理的新特征訓練LR模型并得到預測結果。
from sklearn.linear_model import LogisticRegression
lr= LogisticRegression()
lr.fit(features_trans,y_lr)
lr.predict(features_trans)
lr.predict_proba(features_trans)[:,1]
1
2
3
4
5
調參方法簡述 :
??? ?構建了模型框架后,模型中的函數參數調整也是必不可少的。對模型參數的適當調整,往往可以有效提升模型的效果。
??? ?由于GBDT+LR模型無法整體使用GridSearchCV函數,所以調參時
??? ?使用sklearn.cross_validation中的StratifiedKFold方法,將數據集進行k折交叉切分,然后以auc值為模型評估指標,對混合模型進行調參。
??? ?調參時的重點為GradientBoostingClassifier函數,可用如下圖所示的調參順序進行調參。
??? ?其中,n_estimators和learning_rate應該聯合調參。
模型效果展示
??? ?我們分別使用LR模型和GBDT+LR模型對樣本數據集進行學習,通過模型所得的auc值和ks值,來評估和比較模型的效果。
算法引申
用FFM模型替代LR模型:
直接將GBDT所得特征輸入FFM模型;
用XGBoost模型替代GBDT模型;
將stacking模型學習層中的GBDT交叉檢驗;
GBDT和LR模型使用model fusion,而不是stacking
擴展 : 【實戰】GBDT+LR算法進行特征擴增
簡介
??? ?CTR估計也就是廣告點擊率預估,計算廣告訓練與平滑思想說明了是用LR算法對于預測的有效性。LR(Logistic Regression)是廣義線性模型,與傳統線性模型相比,**LR通過Logit變換將函數值映射到0~1區間,映射后的函數就是CTR的預估值。**LR模型十分適合并行化,因此對于大數據的訓練十分有效。但是對于線性模型而言,學習能力是有限的,因此需要大量的特征工程預先分析出有效的特征或者是特征組合,從而去間接的增強LR的非線性學習能力。
??? ?特征組合,是通過特征的一些線性疊加或者非線性疊加得到一個新的特征,可以有效的提高分類效果。常見的特征組合方式有笛卡爾積方式。為了降低人工組合特征的工作量,FaceBook提出了一個自動特征提取的方式GBDT+LR。
??? ?GBDT是梯度提升決策樹,首先會構造一個決策樹,首先在已有的模型和實際樣本輸出的殘差上再構造一顆決策樹,不斷地進行迭代。每一次迭代都會產生一個增益較大的分類特征,因此GBDT樹有多少個葉子節點,得到的特征空間就有多大,并將該特征作為LR模型的輸入。
核心問題
(1)建樹采用ensemble決策樹?
??? ?一棵樹的區分性是具有一定的限制的,但是多棵樹可以獲取多個具有區分度的特征組合,而且GBDT的每一棵樹都會學習前面的樹的不足。
(2)建樹算法為什么采用GBDT而不是RF?
??? ?對于GBDT而言,前面的樹,特征分裂主要體現在對多數樣本的具有區分度的特征;后面的樹,主要體現的是經過前面n棵樹,殘差依然比較大的少數樣本。優先選用在整體上具有區分度的特征,再選用針對少數樣本有區分度的特征。
代碼實現
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier,RandomForestClassifier
import xgboost as xgb
from xgboost.sklearn import XGBClassifier
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import roc_curve,roc_auc_score,confusion_matrix,classification_report
#1.隨機生成數據集
np.random.seed(10)
X,y = make_classification(n_samples=1000,n_features=30)
#2.切分數據
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=223,test_size=0.5)
X_train,X_train_lr,y_train,y_train_lr = train_test_split(X_train,y_train,random_state=223,test_size=0.2)
#4.網格搜索
#5.訓練模型
#5.1 RandomForest + LogisticRegression
def RF_LR():
? ? # Rf: 訓練模型
? ? rf = RandomForestClassifier(n_estimators=100, max_depth=4)#n_estimators:樹的數目
? ? rf.fit(X_train, y_train)
? ? rf_result = rf.apply(X_train)#apply得到葉子節點的索引
? ? #onehot編碼
? ? ohe = OneHotEncoder()
? ? ohe.fit(rf_result)
? ? # 利用RF模型獲取以X_train_lr為輸入的葉子節點的索引值, 并對其進行one-hot編碼
? ? X_train_leaf_ohe = ohe.transform(rf.apply(X_train_lr))
? ? #LR: 訓練模型
? ? lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
? ? lr.fit(X_train_leaf_ohe, y_train_lr)
? ? #LR: 預測
? ? y_pred = lr.predict_proba(ohe.transform(rf.apply(X_test)))[:, 1]
? ? #模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("RandomForest + LogisticRegression :\n", auc)
? ? return fpr,tpr
#5.2 XGBoost + LogisticRegression
def XGB_LR():
? ? # XGBoost: 訓練模型
? ? # nthread: 并行度
? ? # n_estimators: Number of boosted trees to fit 要擬合樹的數目
? ? # colsample_bytree:Subsample ratio of columns when constructing each tree
? ? XGB = xgb.XGBClassifier(nthread=4, learning_rate=0.08, n_estimators=100,
? ? ? ? ? ? ? ? ? ? ? ? ? ? colsample_bytree=0.5)
? ? XGB.fit(X_train, y_train)
? ? XGB_result = XGB.apply(X_train)
? ? # onehot編碼
? ? ohe = OneHotEncoder()
? ? ohe.fit(XGB_result)
? ? X_train__ohe = ohe.transform(XGB.apply(X_train_lr))
? ? # X_train__ohe = ohe.transform(rf_result)
? ? # LR: 訓練模型
? ? lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
? ? lr.fit(X_train__ohe, y_train_lr)
? ? # LR: 預測
? ? # y_pred的shape = [n_samples, n_classes]
? ? y_pred = lr.predict_proba(ohe.transform(XGB.apply(X_test)))[:, 1]
? ? # 模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("XGBoost + LogisticRegression :\n", auc)
? ? return fpr,tpr
#5.3 GradientBoostingClassifier+LR
def GBDT_LR():
? ? # GBDT: 訓練模型
? ? # n_estimators:迭代次數
? ? gbdt = GradientBoostingClassifier(n_estimators=100)
? ? gbdt.fit(X_train, y_train)
? ? gbdt_result = gbdt.apply(X_train) ?# 3維:shape (n_samples, n_estimators, n_classes)
? ? # onehot編碼
? ? ohe = OneHotEncoder()
? ? ohe.fit(gbdt_result[:, :, 0]) ?# gbdt_result[:,:,0]獲取GBDT
? ? # print(ohe.fit(gbdt_result[:,:,0]))
? ? X_train__ohe = ohe.transform(gbdt.apply(X_train_lr)[:, :, 0])
? ? # LR: 訓練模型
? ? lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
? ? lr.fit(X_train__ohe, y_train_lr)
? ? # LR: 預測
? ? # y_pred的shape = [n_samples, n_classes]
? ? y_pred = lr.predict_proba(ohe.transform(gbdt.apply(X_test)[:, :, 0]))[:, 1]
? ? # 模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("GBDT + LogisticRegression :\n", auc)
? ? return fpr,tpr
#5.4 LR
def LR():
? ? # LR: 訓練模型
? ? lr = LogisticRegression(C=0.1, penalty="l2",multi_class='auto')
? ? lr.fit(X_train, y_train)
? ? # LR: 預測
? ? # y_pred的shape = [n_samples, n_classes]
? ? y_pred = lr.predict_proba(X_test)[:, 1]
? ? # 模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("LogisticRegression :\n", auc)
? ? return fpr, tpr
#5.4 XGBoost
def XGBoost():
? ? # XGB: 訓練模型
? ? XGB = xgb.XGBClassifier(nthread=4, learning_rate=0.08, n_estimators=100,
? ? ? ? ? ? ? ? ? ? ? ? ? ? colsample_bytree=0.5)
? ? XGB.fit(X_train, y_train)
? ? # XGB: 預測
? ? y_pred = XGB.predict_proba(X_test)[:, 1]
? ? # 模型評估
? ? fpr, tpr, _ = roc_curve(y_test, y_pred)
? ? auc = roc_auc_score(y_test, y_pred)
? ? print("XGBoost :\n", auc)
? ? return fpr, tpr
# 主函數
if __name__ == '__main__':
? ? fpr_rf_lr,tpr_rf_lr = RF_LR()
? ? fpr_xgb_lr,tpr_xgb_lr = XGB_LR()
? ? fpr_gbdt_lr, tpr_gbdt_lr = GBDT_LR()
? ? fpr_lr, tpr_lr = LR()
? ? fpr_xgb, tpr_xgb = XGBoost()
? ? # plt.figure(1)
? ? plt.xlim(0,0.2)
? ? plt.ylim(0.8,1)
? ? plt.plot([0, 1], [0, 1], "k--")
? ? plt.plot(fpr_rf_lr, tpr_rf_lr, label="RF+LR")
? ? plt.plot(fpr_xgb_lr, tpr_xgb_lr, label="XGB+LR")
? ? plt.plot(fpr_gbdt_lr, tpr_gbdt_lr, label="GBDT+LR")
? ? plt.plot(fpr_lr, tpr_lr, label="LR")
? ? plt.plot(fpr_xgb, tpr_xgb, label="XGBoost")
? ? plt.xlabel("False positive rate")
? ? plt.ylabel("True positive rate")
? ? plt.legend(loc="best")
? ? plt.show()
# # gbc = GradientBoostingClassifier(loss='exponential',criterion='friedman_mse',presort='auto')
# gbc = GradientBoostingClassifier(loss='deviance',criterion='friedman_mse',presort='auto')
# gbc.fit(X_train,y_train)
#
#
#6.測試數據
# y_pred = gbc.predict(X_test)
#
#7. 模型檢測
# print("classification report is: \n", classification_report(y_test,y_pred))
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
參考文獻:
https://mp.weixin.qq.com/s?__biz=MzI1ODM5MTI4Nw%3D%3D&chksm=ea09a6badd7e2fac05f9886746bd717bc7e53503906728337b72cd1b95cd2faa4e186e79b9cd&idx=1&mid=2247486242&scene=21&sn=3723bc28c36e0c779bb20aa3f1c92b23
https://blog.csdn.net/lilyth_lilyth/article/details/48032119
https://blog.csdn.net/asdfghjkl1993/article/details/78606268
https://blog.csdn.net/TwT520Ly/article/details/79769705
13.騰訊-GBDT與LR
GBDT
ID樹—以不同的id進行分類
非ID樹—拿所有樣本構建樹
LR
接受GBDT輸出結合Onehot編碼數據
14.CTR在廣告場景應用
ctr廣告場景的引用
搜索類廣告
展示類廣告
社交類廣告
計費方式
cpm展示既收費----展示到一定次數>100
cpc點擊即收費-----點擊率Ctr*bid — (常見)
cpa轉化即收費-----需要轉換
如果ctr不高怎么辦?
展示量低?— 提高展示量
展示量高,點擊偏低
文案
廣告關鍵詞?-----重新購買關鍵詞
推廣結果排名較低
GBDT+LR模型
15.Avazu-CTR-Prediction-LR代碼
數據源+數據導入
數據的基本分析
特征工程
建立模型
模型校驗
模型預測
模型保存
#1.導入數據并進行簡單的數據探索
import os
data_path = os.path.join(".", "train_small.csv")
import pandas as pd
ctr_data1 = pd.read_csv(data_path)
#2.數據的簡單描述信息
print(ctr_data1.shape)
# print ctr_data.head()
# print ctr_data.describe()
print (ctr_data1.columns)
print ("="*100)
training_Set=ctr_data1.drop(['id','site_id', 'app_id', 'device_id', 'device_ip', 'site_domain',
? ? ? ? ? ? ? ? ? 'site_category', 'app_domain', 'app_category', 'device_model'], axis=1)
ctr_data=training_Set.values #numpy--ndarry
#2.對數據進行處理和分析
from sklearn.model_selection import train_test_split
X=ctr_data[:,1:]
print (X.shape)
y=ctr_data[:,0]
print (y.shape)
X_train, X_test, y_train, y_test=train_test_split(X,y,test_size=0.22,random_state=33)
print (X_train.shape)
print (y_train.shape)
# #3.引入機器學習算法
from sklearn.linear_model import LogisticRegression
# lr=LogisticRegression()
# ? ? ? ? ? 0 ? ? ? 0.83 ? ? ?1.00 ? ? ?0.91 ? ? 18240
# ? ? ? ? ? 1 ? ? ? 0.00 ? ? ?0.00 ? ? ?0.00 ? ? ?3760
#
# avg / total ? ? ? 0.69 ? ? ?0.83 ? ? ?0.75 ? ? 22000
lr=LogisticRegression(C=0.1, penalty= 'l1')
# ? ? ? ? ? ? ?precision ? ?recall ?f1-score ? support
#
# ? ? ? ? ? 0 ? ? ? 0.83 ? ? ?1.00 ? ? ?0.91 ? ? 18240
# ? ? ? ? ? 1 ? ? ? 0.40 ? ? ?0.00 ? ? ?0.00 ? ? ?3760
#
# avg / total ? ? ? 0.76 ? ? ?0.83 ? ? ?0.75 ? ? 22000
lr.fit(X_train,y_train)
# #4.模型預測
y_pred=lr.predict(X_test)
print (y_pred)
# # #5.模型校驗
print( lr.score(X_train,y_train))
print (lr.score(X_test,y_test))
from sklearn.metrics import confusion_matrix
print( confusion_matrix(y_test,y_pred))
from sklearn.metrics import classification_report
print( classification_report(y_test,y_pred))
# #6.保存模型
from sklearn.externals import joblib
joblib.dump(lr,filename="Ctr_Predict.pkl")
# #8.按照要求寫入對應的csv文件
import numpy as np
import pandas as pd
ctr_data2=pd.read_csv("test.csv")
ctr_data3=ctr_data2.drop(['click','site_id', 'app_id', 'device_id', 'device_ip', 'site_domain',
? ? ? ? ? ? ? ? ? 'site_category', 'app_domain', 'app_category', 'device_model'], axis=1)
print( ctr_data3)
ids=ctr_data3.values[0:,0]
y_pred_test=lr.predict(ctr_data3.values[0:,1:])
# # # print ids
submit=np.concatenate((ids.reshape(len(ids),1),y_pred_test.reshape(len(y_pred_test),1)),axis=1)
df=pd.DataFrame(submit)
df.to_csv("submit.csv", header=['id', 'click'], index=False)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
17.Ctr廣告點擊率預估代碼實戰
18.Ctr技術發展應用
百度蜂巢
阿里媽媽
京東
規則-------LR--------GBDT提取關鍵特征------GBDT+LR(分類概率)
FM—FFM—DeepFM—WideAndDeep
FM—能夠提取二階特征----通過隱向量latent vector做內積提取
FFM—在FM基礎上增加了Field(域)概念
FNN—Filed Neural network–只能學習到高階特征
PNN—在神經網絡中增加了product-layer
Wide and Deep===線性回歸或LR+DEEP–需要借助人工特征工程
DeepFM—FM提取一階和二階特征—Deep提取高階特征—Sigmod函數給出預測值
19.總結
機器學習基礎概念
語言基礎—Python語言—Scala—Julia—R語言
(項目1)用戶畫像—挖掘類標簽
(項目2)推薦系統—基于sparkmllib模型和surprise庫模型–tensorflow—召回
(項目3)推薦結果排序----模型排序
(項目4)Ctr廣告點擊率預估\Cvr廣告的轉化率預估
擴展 2:
區別 :
監督學習和非監督學習主要卻別在于 : 監督學習有類別標簽 , 非監督學習沒有類別標簽
分類和回歸的主要區別在于 : 分類的預測值不是連續值 , 而回歸的預測值是連續值
分類和聚類的主要區別在于 : 分類有類別標簽 , 聚類沒有
生成模型和判別模型的主要區別 : 生成模型主要利用聯合概率分布 , 而判別模型主要利用條件概率分布
點擊預估&轉化預估
擴展3 :
CTR預估數據特點:
1.輸入中包含類別型和連續型數據。類別型數據需要one-hot,連續型數據可以先離散化再one-hot,也可以直接保留原值
2.維度非常高
3.數據非常稀疏
4.特征按照Field分組
CTR預估重點在于學習組合特征。
LR,FTRL。線性模型有個致命的缺點:無法提取高階的組合特征(線性y=w0+w1+w2等)。
LR最大的缺點就是無法組合特征,依賴于人工的特征組合,這也直接使得它表達能力受限,基本上只能處理線性可分或近似線性可分的問題。
FM模型
FM通過隱向量latent vector做內積來表示組合特征,從理論上解決了低階和高階組合特征提取的問題。但是實際應用中受限于計算復雜度,一般也就只考慮到2階交叉特征。
后面有進行了改進 , 提出了FFM , 增加了Field的概念
CNN模型的缺點是:偏向于學習相鄰特征的組合特征。 RNN模型的缺點是:比較適用于有序列(時序)關系的數據。
FNN : 先使用預先訓練好的FM,得到隱向量,然后作為DNN的輸入來訓練模型。缺點在于:受限于FM預訓練的效果。
隨后提出了PNN,PNN為了捕獲高階組合特征,在embedding layer和first hidden layer之間增加了一個product layer。根據product layer使用內積、外積、混合分別衍生出IPNN, OPNN, PNN三種類型。
無論是FNN還是PNN , 都避免不了 : 對于低階的組合特征,學習到的比較少。而前面我們說過,低階特征對于CTR也是非常重要的。
為了同時學習低階和高階組合特征,提出了Wide&Deep模型。它混合了一個線性模型(Wide part)和Deep模型(Deep part)。這兩部分模型需要不同的輸入,而Wide part部分的輸入,依舊依賴人工特征工程。
這些模型普遍都存在兩個問題:
1.偏向于提取低階或者高階的組合特征。不能同時提取這兩種類型的特征。
2.需要專業的領域知識來做特征工程。
DeepFM在Wide&Deep的基礎上進行改進,成功解決了這兩個問題,并做了一些改進,其優勢/優點如下:
1.不需要預訓練FM得到隱向量
2.不需要人工特征工程
3.能同時學習低階和高階的組合特征
4.FM模塊和Deep模塊共享Feature Embedding部分,可以更快的訓練,以及更精確的訓練學習
FNN使用預訓練的FM來初始化DNN,然后只有Deep部分,不能學習低階組合特征。
FNN缺點 :
Embedding的參數受FM的影響,不一定準確
預訓練階段增加了計算復雜度,訓練效率低
FNN只能學習到高階的組合特征。模型中沒有對低階特征建模。
PNN:為了捕獲高階特征。PNN在第一個隱藏層和embedding層之間,增加了一個product layer。
PNN缺點:
內積外積計算復雜度高。采用近似計算的方法外積沒有內積穩定。
product layer的輸出需要與第一個隱藏層全連接,導致計算復雜度居高不下
和FNN一樣,只能學習到高階的特征組合。沒有對于1階和2階特征進行建模。
Wide & Deep設計的初衷是想同時學習低階和高階組合特征,但是wide部分需要領域知識進行特征工程。
Wide&Deep缺點 : 需要特征工程提取低階組合特征
DeepFM優點 :
沒有用FM去預訓練隱向量V,并用V去初始化神經網絡。(相比之下FNN就需要預訓練FM來初始化DNN)
FM模塊不是獨立的,是跟整個模型一起訓練學習得到的。(相比之下Wide&Deep中的Wide和Deep部分是沒有共享的)
不需要特征工程。(相比之下Wide&Deep中的Wide部分需要特征工程)
訓練效率高。(相比PNN沒有那么多參數)
上述東西太多太雜 , 記住最核心的 :
沒有預訓練(no pre-training)
共享Feature Embedding,沒有特征工程(no feature engineering)
同時學習低階和高階組合特征(capture both low-high-order interaction features)
超參數建議
超參數?? ?建議?? ?備注
激活函數?? ?1.IPNN使用tanh ; 2,其余使用ReLU?? ?
學習方法?? ?Adam?? ?
Dropout?? ?0.6~0.9?? ?
隱藏層數量?? ?3~5 , 根據實際數據大小調整?? ?
網絡形狀?? ?constant , 一共有四種 : 固定、增長、下降、菱形?? ?PS:constant效果最好 , 就是隱藏層每一層的神經元的數量相同
————————————————
版權聲明:本文為CSDN博主「CoderBoom」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/CoderBoom/article/details/88785995
總結
以上是生活随笔為你收集整理的Ctr点击率预估理论基础及项目实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ava线程池ThreadPoolExec
- 下一篇: Https原理及流程