日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

【原创】推荐广告入门:DeepCTR-Torch,基于深度学习的CTR预测算法库

發(fā)布時(shí)間:2025/3/8 pytorch 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【原创】推荐广告入门:DeepCTR-Torch,基于深度学习的CTR预测算法库 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在計(jì)算廣告和推薦系統(tǒng)中,CTR預(yù)估一直是一個(gè)核心問題。無(wú)論在工業(yè)界還是學(xué)術(shù)界都是一個(gè)熱點(diǎn)研究問題,近年來(lái)也有若干相關(guān)的算法競(jìng)賽陸續(xù)舉辦。本文介紹一個(gè)使用PyTorch編寫的深度學(xué)習(xí)的點(diǎn)擊率預(yù)測(cè)算法庫(kù)DeepCTR-Torch,具有簡(jiǎn)潔易用、模塊化和可擴(kuò)展的優(yōu)點(diǎn),非常適合初學(xué)者快速入門學(xué)習(xí)。

(本文作者:沈偉臣,阿里巴巴算法工程師)

點(diǎn)擊率預(yù)估問題

點(diǎn)擊率預(yù)估問題通常形式化描述為給定用戶,物料,上下文的情況下,計(jì)算用戶點(diǎn)擊物料的概率即:pCTR = p(click=1|user,item,context)

簡(jiǎn)單來(lái)說(shuō),在廣告業(yè)務(wù)中使用pCTR來(lái)計(jì)算廣告的預(yù)期收益,在推薦業(yè)務(wù)中通過(guò)使用pCTR來(lái)確定候選物料的一個(gè)排序列表。

DeepCTR-Torch

人們通過(guò)構(gòu)造有效的組合特征和使用復(fù)雜的模型來(lái)學(xué)習(xí)數(shù)據(jù)中的模式來(lái)提升效果。基于因子分解機(jī)的方法,可以通過(guò)向量乘積的形式學(xué)習(xí)特征的交互,并且泛化到那些沒有出現(xiàn)過(guò)的組合上。

隨著深度神經(jīng)網(wǎng)絡(luò)在若干領(lǐng)域的巨大發(fā)展,近年來(lái)研究者也提出了若干基于深度學(xué)習(xí)的分解模型來(lái)同時(shí)學(xué)習(xí)低階和高階的特征交互,如:

PNN,Wide&Deep,DeepFM,Attentional FM,Neural FM,DCN,xDeepFM,AutoInt,FiBiNET

以及基于用戶歷史行為序列建模的DIN,DIEN,DSIN等。

對(duì)于剛接觸這方面的同學(xué)來(lái)說(shuō),可能對(duì)這些方法的細(xì)節(jié)還不太了解,雖然網(wǎng)上有很多介紹,但是代碼卻沒有統(tǒng)一的形式,且當(dāng)想要遷移到自己的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)時(shí)也很不方便。本文介紹的一個(gè)使用PyTorch實(shí)現(xiàn)的基于深度學(xué)習(xí)的CTR模型包DeepCTR-PyTorch,無(wú)論是使用還是學(xué)習(xí)都很方便。

DeepCTR-PyTorch是一個(gè)簡(jiǎn)潔易用、模塊化可擴(kuò)展的基于深度學(xué)習(xí)的CTR模型包。除了近年來(lái)主流模型外,還包括許多可用于輕松構(gòu)建您自己的自定義模型的核心組件層。

您簡(jiǎn)單的通過(guò)model.fit()和model.predict()來(lái)使用這些復(fù)雜的模型執(zhí)行訓(xùn)練和預(yù)測(cè)任務(wù),以及在通過(guò)模型初始化列表的device參數(shù)來(lái)指定運(yùn)行在cpu還是gpu上。

安裝與使用

  • 安裝

pip install?-U deepctr-torch
  • 使用例子

下面用一個(gè)簡(jiǎn)單的例子告訴大家,如何快速的應(yīng)用一個(gè)基于深度學(xué)習(xí)的CTR模型,代碼地址在:

https://github.com/shenweichen/DeepCTR-Torch/blob/master/examples/run_classification_criteo.py。

The Criteo Display Ads datasetkaggle上的一個(gè)CTR預(yù)估競(jìng)賽數(shù)據(jù)集。里面包含13個(gè)數(shù)值特征I1-I13和26個(gè)類別特征C1-C26

# -*- coding: utf-8 -*- # 使用pandas 讀取上面介紹的數(shù)據(jù),并進(jìn)行簡(jiǎn)單的缺失值填充 import?pandas as?pd from?sklearn.metrics import?log_loss, roc_auc_score from?sklearn.model_selection import?train_test_split from?sklearn.preprocessing import?LabelEncoder, MinMaxScaler from?deepctr_torch.models import?* from?deepctr_torch.inputs import?SparseFeat, DenseFeat, get_fixlen_feature_names import?torch# 使用pandas 讀取上面介紹的數(shù)據(jù),并進(jìn)行簡(jiǎn)單的缺失值填充 data = pd.read_csv('./criteo_sample.txt') # 上面的數(shù)據(jù)在:https://github.com/shenweichen/DeepCTR-Torch/blob/master/examples/criteo_sample.txtsparse_features = ['C'?+ str(i) for?i in?range(1, 27)] dense_features = ['I'?+ str(i) for?i in?range(1, 14)]data[sparse_features] = data[sparse_features].fillna('-1', ) data[dense_features] = data[dense_features].fillna(0, ) target = ['label']#這里我們需要對(duì)特征進(jìn)行一些預(yù)處理,對(duì)于類別特征,我們使用LabelEncoder重新編碼(或者哈希編碼),對(duì)于數(shù)值特征使用MinMaxScaler壓縮到0~1之間。for?feat in?sparse_features:lbe = LabelEncoder()data[feat] = lbe.fit_transform(data[feat]) mms = MinMaxScaler(feature_range=(0, 1)) data[dense_features] = mms.fit_transform(data[dense_features])# 這里是比較關(guān)鍵的一步,因?yàn)槲覀冃枰獙?duì)類別特征進(jìn)行Embedding,所以需要告訴模型每一個(gè)特征組有多少個(gè)embbedding向量,我們通過(guò)pandas的nunique()方法統(tǒng)計(jì)。fixlen_feature_columns = [SparseFeat(feat, data[feat].nunique())for?feat in?sparse_features] + [DenseFeat(feat, 1,)for?feat in?dense_features]dnn_feature_columns = fixlen_feature_columns linear_feature_columns = fixlen_feature_columnsfixlen_feature_names = get_fixlen_feature_names(linear_feature_columns + dnn_feature_columns)#最后,我們按照上一步生成的特征列拼接數(shù)據(jù)train, test = train_test_split(data, test_size=0.2) train_model_input = [train[name] for?name in?fixlen_feature_names] test_model_input = [test[name] for?name in?fixlen_feature_names]# 檢查是否可以使用gpudevice = 'cpu' use_cuda = True if?use_cuda and?torch.cuda.is_available():print('cuda ready...')device = 'cuda:0'# 初始化模型,進(jìn)行訓(xùn)練和預(yù)測(cè)model = DeepFM(linear_feature_columns=linear_feature_columns, dnn_feature_columns=dnn_feature_columns, task='binary',l2_reg_embedding=1e-5, device=device)model.compile("adagrad", "binary_crossentropy",metrics=["binary_crossentropy", "auc"],) model.fit(train_model_input, train[target].values,batch_size=256, epochs=10, validation_split=0.2, verbose=2)pred_ans = model.predict(test_model_input, 256) print("") print("test LogLoss", round(log_loss(test[target].values, pred_ans), 4)) print("test AUC", round(roc_auc_score(test[target].values, pred_ans), 4))

相關(guān)資料

  • DeepCTR-Torch代碼主頁(yè)

https://github.com/shenweichen/DeepCTR-Torch

  • DeepCTR-Torch文檔:

    https://deepctr-torch.readthedocs.io/en/latest/index.html

  • DeepCTR(tensorflow版)代碼主頁(yè) :

    https://github.com/shenweichen/DeepCTR

  • DeepCTR(tensorflow版)文檔:

    https://deepctr-doc.readthedocs.io/en/latest/index.html

作者簡(jiǎn)介

沈偉臣,浙江大學(xué)計(jì)算機(jī)碩士,阿里巴巴集團(tuán)算法工程師

沈偉臣曾經(jīng)參與了《DeepLearning.ai深度學(xué)習(xí)》筆記的編寫。

github主頁(yè):

https://github.com/shenweichen

知乎專欄 淺夢(mèng)的學(xué)習(xí)筆記??

https://zhuanlan.zhihu.com/weichennote

郵箱 wcshen1994@163.com?

本站簡(jiǎn)介↓↓↓?

“機(jī)器學(xué)習(xí)初學(xué)者”是幫助人工智能愛好者入門的個(gè)人公眾號(hào)(創(chuàng)始人:黃海廣)

初學(xué)者入門的道路上,最需要的是“雪中送炭”,而不是“錦上添花”。

本站的知識(shí)星球(黃博的機(jī)器學(xué)習(xí)圈子)ID:92416895

目前在機(jī)器學(xué)習(xí)方向的知識(shí)星球排名第一(上圖二維碼)

往期精彩回顧

  • 那些年做的學(xué)術(shù)公益-你不是一個(gè)人在戰(zhàn)斗

  • 良心推薦:機(jī)器學(xué)習(xí)入門資料匯總及學(xué)習(xí)建議

  • 黃海廣博士的github鏡像下載(機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記及資源)

  • 機(jī)器學(xué)習(xí)小抄-(像背托福單詞一樣理解機(jī)器學(xué)習(xí))

  • 首發(fā):深度學(xué)習(xí)入門寶典-《python深度學(xué)習(xí)》原文代碼中文注釋版及電子書

  • 機(jī)器學(xué)習(xí)必備寶典-《統(tǒng)計(jì)學(xué)習(xí)方法》的python代碼實(shí)現(xiàn)、電子書及課件

  • 重磅 | 完備的 AI 學(xué)習(xí)路線,最詳細(xì)的資源整理!

  • 圖解word2vec(原文翻譯)

  • 機(jī)器學(xué)習(xí)的相關(guān)數(shù)學(xué)資料下載

備注:加入本站微信群或者qq群,請(qǐng)回復(fù)“加群

總結(jié)

以上是生活随笔為你收集整理的【原创】推荐广告入门:DeepCTR-Torch,基于深度学习的CTR预测算法库的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。