CTR预估系列:DeepCTR 一个基于深度学习的CTR模型包
在計算廣告和推薦系統(tǒng)中,CTR預估一直是一個核心問題。無論在工業(yè)界還是學術(shù)界都是一個熱點研究問題,近年來也有若干相關(guān)的算法競賽。本文介紹一個基于深度學習的CTR模型包DeepCTR,具有簡潔易用、模塊化和可擴展的優(yōu)點。(本文作者:沈偉臣)
CTR預估簡介
CTR預估是計算廣告中最核心的算法之一,那么CTR預估是指什么呢?簡單來說,CTR預估是對每次廣告的點擊情況做出預測,預測用戶是點擊還是不點擊。
在計算廣告和推薦系統(tǒng)中,CTR預估一直是一個核心問題。無論在工業(yè)界還是學術(shù)界都是一個熱點研究問題,近年來也有若干相關(guān)的算法競賽。
DeepCTR簡介
人們通過構(gòu)造有效的組合特征和使用復雜的模型來學習數(shù)據(jù)中的模式來提升效果。基于因子分解機的方法,可以通過向量內(nèi)積的形式學習特征的交互,并且泛化到那些沒有出現(xiàn)過的組合上。
隨著深度神經(jīng)網(wǎng)絡(luò)在若干領(lǐng)域的巨大發(fā)展,近年來研究者也提出了若干基于深度學習的分解模型來同時學習低階和高階的特征交互,如:
FNN,PNN,Wide&Deep,DeepFM,NFM,AFN,DIN等。
對于剛接觸這方面的同學來說,可能對這些方法的細節(jié)還不太了解,雖然網(wǎng)上有很多介紹,但是代碼卻沒有統(tǒng)一的形式,且使用起來不是很方便,從頭開始實現(xiàn)成本又比較高。那么這里介紹一個基于深度學習的CTR模型包DeepCTR,無論是使用還是學習都很方便。
?
DeepCTR是一個簡潔易用、模塊化和可擴展的基于深度學習的CTR模型包。除了近年來主流模型外,還包括許多可用于輕松構(gòu)建您自己的自定義模型的核心組件層。
您可以像使用其他Keras模型一樣簡單的通過model.fit()和model.predict()使用這些復雜模型。
圖:支持文檔
????安裝與使用
安裝
pip install deepctr使用例子:
下面用一個簡單的例子告訴大家,如何快速的應(yīng)用一個基于深度學習的CTR模型。
The Criteo Display Ads dataset 是kaggle上的一個CTR預估競賽數(shù)據(jù)集。里面包含13個數(shù)值特征I1-I13和26個類別特征C1-C26。
# 先導入相應(yīng)的python包,記得先安裝以下tensorflow(1.4.0到1.6.0都可以) import pandas as pd from sklearn.preprocessing import LabelEncoder, MinMaxScaler from deepctr.models import DeepFM # 使用pandas 讀取上面介紹的數(shù)據(jù),并進行簡單的缺失值填充 data = pd.read_csv('./criteo_sample.txt') # 上面的數(shù)據(jù)在:https://github.com/shenweichen/DeepCTR/blob/master/demo/criteo_sample.txt sparse_features = ['C' + str(i) for i in range(1, 27)] dense_features = ['I'+str(i) for i in range(1, 14)] data[sparse_features] = data[sparse_features].fillna('-1', ) data[dense_features] = data[dense_features].fillna(0,) target = ['label'] #這里我們需要對特征進行一些預處理,對于類別特征,我們使用LabelEncoder重新編碼(或者哈希編碼),對于數(shù)值特征使用MinMaxScaler壓縮到0~1之間。 for feat in sparse_features:lbe = LabelEncoder()data[feat] = lbe.fit_transform(data[feat]) mms = MinMaxScaler(feature_range=(0, 1)) data[dense_features] = mms.fit_transform(data[dense_features])# 這里是比較關(guān)鍵的一步,因為我們需要對類別特征進行Embedding,所以需要告訴模型每一個特征組有多少個embbedding向量,我們通過pandas的nunique()方法統(tǒng)計。 sparse_feature_dict = {feat: data[feat].nunique() for feat in sparse_features} dense_feature_list = dense_features #最后,我們按照上一步生成的特征字典拼接訓練數(shù)據(jù) model_input = [data[feat].values for feat in sparse_feature_dict] + [data[feat].values for feat in dense_feature_list] ? # 一切就緒,使用DeepFM進行訓練! model = DeepFM({"sparse": sparse_feature_dict, "dense": dense_feature_list}, final_activation='sigmoid') model.compile("adam", "binary_crossentropy",metrics=['binary_crossentropy'], ) history = model.fit(model_input, data[target].values, batch_size=256, epochs=10, verbose=2, validation_split=0.2, ) print("train done")總結(jié)
DeepCTR是一個簡潔易用、模塊化和可擴展的基于深度學習的CTR模型包。本文對
DeepCTR進行簡單介紹,并舉例說明,同時提供DeepCTR的代碼、文檔資源。
資源下載
文檔主頁:
https://deepctr-doc.readthedocs.io/en/latest/index.html
代碼主頁:
https://github.com/shenweichen/DeepCTR
本文作者:沈偉臣,浙江大學計算機碩士,wcshen1994@163.com
github主頁:https://github.com/shenweichen
請關(guān)注和分享↓↓↓?
機器學習初學者
QQ群:654173748
往期精彩回顧
機器學習簡易入門-附推薦學習資料
機器學習初學者公眾號下載資源匯總(一)
黃海廣博士的github鏡像下載(機器學習及深度學習資源)
吳恩達老師的機器學習和深度學習課程筆記打印版
機器學習小抄-(像背托福單詞一樣理解機器學習)
首發(fā):深度學習入門寶典-《python深度學習》原文代碼中文注釋版及電子書
科研工作者的神器-zotero論文管理工具
機器學習的數(shù)學基礎(chǔ)
機器學習必備寶典-《統(tǒng)計學習方法》的python代碼實現(xiàn)、電子書及課件
總結(jié)
以上是生活随笔為你收集整理的CTR预估系列:DeepCTR 一个基于深度学习的CTR模型包的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习者的入门福利-Keras深度学习
- 下一篇: 赠人玫瑰,手有余香-期待协作更新机器学习