日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

KDD2021 | USCB:展示广告约束出价问题的通用解决方案

發(fā)布時間:2023/12/15 编程问答 64 豆豆
生活随笔 收集整理的這篇文章主要介紹了 KDD2021 | USCB:展示广告约束出价问题的通用解决方案 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

???導(dǎo)讀

實時競價是在線廣告的經(jīng)典問題,是廣告商獲得目標流量的重要工具。在本文中,我們將廣告商對流量需求進行整合,提出了帶預(yù)算以及KPI約束下最大化流量價值的帶約束出價建模框架,并推導(dǎo)出了通用的最優(yōu)出價公式,利用 rl 算法調(diào)節(jié)該公式中的參數(shù),實現(xiàn)了實時流量環(huán)境下廣告商的流量效果最優(yōu)。目前,該方法已應(yīng)用于阿里媽媽展示廣告場景,基于該工作撰寫的論文已發(fā)表在 KDD 2021。本文將對在線展示廣告約束出價問題的通用解決方案展開介紹,希望可以對從事相關(guān)工作的同學(xué)帶來啟發(fā)或幫助。

論文🔗:https://dl.acm.org/doi/pdf/10.1145/3447548.3467199

???背景

在線展示廣告場景下,廣告主通常以實時競價的方式獲取曝光機會。在大多數(shù)廣告平臺,廣告主最常見的需求就是在預(yù)算及某些KPI約束下最大化競得流量的價值(如在預(yù)算和點擊成本約束下最大化點擊量)。每個廣告主的投放需求在營銷目標(如點擊、曝光)、KPI約束類型(如點擊成本上界、點擊率下界)以及KPI約束數(shù)量三個維度上都有很大不同。現(xiàn)有的研究通常局限于某個特定的投放需求,缺乏通用性,或者很難達到最優(yōu)投放結(jié)果。

在本文中,我們將廣告主的各種投放需求形式化為約束出價問題,并推導(dǎo)出了通用的最優(yōu)出價策略。對于每個廣告投放計劃來說,其最優(yōu)出價公式由m個參數(shù)組成,m為約束數(shù)量。然而在實際應(yīng)用過程中,由于參競環(huán)境不斷波動,確定每天的最優(yōu)出價參數(shù)是很困難的事。針對該問題,本文提出了一種強化學(xué)習(xí)方法,該方法會在計劃投放過程中根據(jù)投放狀態(tài)動態(tài)調(diào)整出價參數(shù),使其盡可能逼近最優(yōu)參數(shù)。其中,我們基于約束出價問題的子問題特性,對強化學(xué)習(xí)訓(xùn)練過程進行了優(yōu)化,使其能夠更快地收斂到最優(yōu)解。我們將這種方法稱為 Unified Solution to Constrained Bidding in Online(以下簡稱:USCB)。USCB在工業(yè)場景真實數(shù)據(jù)集上取得了很好的效果,與此同時,該方法已經(jīng)在阿里媽媽廣告投放策略平臺成功部署,為各個業(yè)務(wù)線提供出價參數(shù)調(diào)控服務(wù),為平臺收入與廣告主投放效果帶來了顯著提升。

???形式化建模

在預(yù)算及某些KPI約束下最大化競得流量的價值(如在預(yù)算和點擊成本約束下最大化點擊量)可以建模為帶約束的優(yōu)化問題。

在一段時間內(nèi)(例如一天),假設(shè)有𝑁個按順序到達的流量(下標為i)。在一個 SPA(廣告流量將分配給出價最高的出價人,成本為第二個的最高出價)計費模式、CPM(按照展現(xiàn)扣費)扣費方式的 RTB 系統(tǒng)(實時競價系統(tǒng))中,廣告商提供出價 以實時競爭每條流量。代 表了廣告主是否能夠贏得流量 i。如果廣告主出價 高于最高出價 ,則將贏得流量 𝑖(此時 ),最終展現(xiàn)的成本為 .

在獲取流量過程中,廣告計劃的目標是最大化贏得流量的總價值,即最大 , 其中 代表流量i的價值。預(yù)算B和KPI約束對于控制廣告效果至關(guān)重要。預(yù)算約束可視為 ,即獲取流量的總成本要不大于預(yù)算B。KPI約束更為復(fù)雜,可分為兩類。第一類是成本相關(guān)(CR)約束,它限制廣告的平均單位成本,如 CPC(平均點擊成本)和 CPA(平均轉(zhuǎn)化成本)等。第二類是非成本相關(guān)(NCR)約束,它限制了廣告的平均效果,如 CTR(平均點擊率)。KPI 約束的統(tǒng)一表達𝑗 可由式(1)表示:

其中,k𝑗 是廣告商設(shè)置的約束j的上界, 和 根據(jù)約束不同而具體定義,例如點擊成本約束時,為,為,為廣告商設(shè)置的點擊成本上限。點擊率約束時,為,為,為廣告商期望最小點擊率的倒數(shù)。

因此,考慮到廣告目標、預(yù)算和 𝑀 個 KPI 約束,計劃的訴求可以通過(LP1)表示為統(tǒng)一的帶約束競價問題。

如果知道完全的流量集合,即知道該計劃能觸達的每條流量i的流量價值 ,成本 等,則可以通過一般的求解線性規(guī)劃問題(LP1)的解法可得到最優(yōu)解 。然而,在實際應(yīng)用中,需要在流量集未知的情況下進行實時競價,而且由于在線展示廣告每日訪問用戶和每日參競計劃數(shù)量眾多且隨機性很大,也很難通過準確的預(yù)測輸入流量的方式構(gòu)造出流量集,因此常規(guī)的線性規(guī)劃求解方法無法應(yīng)用。本文則構(gòu)造出了一個最優(yōu)出價公式,將問題轉(zhuǎn)化為求解最優(yōu)出價公式里的最優(yōu)參數(shù)的問題,大大降低了在線情況下求解該問題的難度。

???最優(yōu)出價公式

最優(yōu)的出價公式為:

其中, 是常數(shù)項, 是參數(shù),其范圍為:。如果約束j是CR,則 ;如果約束 j 是 NCR,則 ,證明過程詳見論文。

最優(yōu)出價公式共包含 m+1 個核心參數(shù) 𝑤𝑘, 𝑘 ∈ [0, ..., 𝑀],公式中剩余項為在線流量競價時可獲取的流量上的信息。由于最優(yōu)出價公式的存在,針對此類具有預(yù)算約束和 M 個 KPI 約束,且希望最大限度地提高競得流量的總價值的問題,最優(yōu)解可以通過找到 M+1 個最優(yōu)參數(shù)依據(jù)公式來進行出價,而不是為每個流量分別尋找最優(yōu)的出價。

???參數(shù)調(diào)整方法

定義了最優(yōu)出價公式后,剩余的挑戰(zhàn)是計算最優(yōu)參數(shù)𝑤𝑘, 𝑘 ∈ [0,...,𝑀]. 因為流量在不同時段波動很大,通過離線日志求解獲得的歷史最佳參數(shù)不能完美適用于當前的流量環(huán)境。因此,在實際應(yīng)用中,需要開發(fā)一個參數(shù)調(diào)整模塊,該模塊使用調(diào)控策略將𝑤𝑘 修正到能適應(yīng)當前環(huán)境(即廣告的狀態(tài),包括預(yù)算支出狀態(tài)、KPI 約束滿足狀態(tài)等)的最佳 。該過程可以描述為一個馬爾可夫決策過程 MDP,并通過強化學(xué)習(xí)的方法求解最優(yōu)調(diào)控策略,r=1,..,T 時刻下,通過感知廣告的狀態(tài),調(diào)節(jié) 𝑤𝑘 到最優(yōu),使得整體獲得最大的流量價值:

  • St: 廣告 t 時刻預(yù)算消耗和滿足約束的狀態(tài),如剩余時間、剩余預(yù)算、預(yù)算消耗速度、約束的當前 KPI 比率等。

  • At: 參數(shù) 的調(diào)節(jié)幅度

  • 𝑟𝑡 : t 時刻中,競得流量的總價值。

由于模型 T 是廣告狀態(tài)轉(zhuǎn)移的過程,我們采用強化學(xué)習(xí)的方法為 model free 的方法,可將其看作黑盒。

利用 MDP 對該問題進行建模后,使用強化學(xué)習(xí)的經(jīng)典算法 DDPG[1] 對該問題進行求解,強化學(xué)習(xí)算法一般需要大量的樣本,且收斂速度較慢,為了加快 RL 的收斂速度,我們結(jié)合帶約束的競價問題的自身特性,設(shè)計最優(yōu)策略的模式,縮小了策略空間。為解釋該優(yōu)化邏輯,我們首先引入子問題特性的概念:

由于流量在一天之內(nèi)依次到達,在任意 t 時刻,最優(yōu)化整體的流量價值的建模可以轉(zhuǎn)化為如下形式:

其中 v#,c#,p# 等表示 t 時刻之前已經(jīng)獲得流量價值,總成本等。可證明該子問題的最優(yōu)出價公式為:

其最優(yōu)出價公式的形式與原問題 LP1 是類似的。想要達到該子問題的最優(yōu)解,需要在t時刻求的最優(yōu)參數(shù),并一直持續(xù)下去。因此最優(yōu)的策略為調(diào)整當前的參數(shù) 直接到最優(yōu)參數(shù) ,并且在后續(xù)流量上保持不動。

在此最優(yōu)策略的基礎(chǔ)上,我們將 critic 網(wǎng)絡(luò)優(yōu)化目標定義為最小化 G 與 之間的差距。G 為整個決策周期,策略真實的歸一化累積獎賞,即:

其中,R 為累積到 t 時刻的流量價值,V 為使用當前的參數(shù)并固定不動后剩余流量上能產(chǎn)生的價值。pj 為約束的懲罰項。為模型預(yù)估的累積獎賞。與傳統(tǒng)的 DDPG 算法利用 來更新 critic 網(wǎng)絡(luò)相比,我們的方法會讓 Q 學(xué)的更容易,能提升整體網(wǎng)絡(luò)的收斂速度。最終算法為:

???實驗效果

淘寶廣告系統(tǒng)當前包含三種典型的帶約束的最大化價值的出價產(chǎn)品:

  • CB{click}:預(yù)算約束下最大化點擊量。出價公式為:

  • CB{click-CPC}:預(yù)算和 cpc 成本約束下最大化點擊量。出價公式為:

  • CB{conversion-CPC}:預(yù)算和cpc成本約束下最大化轉(zhuǎn)化量。出價公式為:

選擇三種類型的計劃構(gòu)建實驗數(shù)據(jù)集為:

其中,imporession 代表計劃日均參競流量的大小,deviation 指標表征計劃的最優(yōu)出價參數(shù)的天級差異。

在最優(yōu)出價公式下,對比三種調(diào)控方法:

  • FB:用歷史固定參數(shù)。

  • M-PID:《Bid optimization by multivariable control in display advertising》里的基于模型的 pid 方法[2]。

  • DRLB:《Budget constrained bidding by model-free reinforcement learning in display advertising》里提出的解決預(yù)算約束問題的 rl 方法[3]。

效果指標為R/R*,其中 R 為利用調(diào)控算法獲得的流量價值,R* 為利用線性規(guī)劃求解出的最優(yōu)流量價值。

在不同的最優(yōu)參數(shù)離散程度及不同的產(chǎn)品類型下,USCB的效果都是最好的。

???在線部署

在淘寶顯示廣告系統(tǒng)中,已經(jīng)部署了約束性競價的通用解決方案(USCB)并進行了合理的論證。該在線部署策略為成千上萬的廣告客戶提供服務(wù),每天影響數(shù)百萬的收入。算法應(yīng)用程序的架構(gòu)顯示在圖中。模型的培訓(xùn)和部署是并行的,這使得模型能夠有效地重復(fù),并且可以輕松地應(yīng)用于大量的廣告活動。

???結(jié)論

本文針對在線展示廣告中的帶約束競價問題提出了通用有效的解決方案。首先抽象出了廣告商的核心需求,并將其表述為一個約束競價問題,利用對偶方法推導(dǎo)了 SPA 下的最優(yōu)競價函數(shù)。最優(yōu)競價函數(shù)通過調(diào)整有限的參數(shù)為廣告商提供在所有流量上實時競價的服務(wù)。為了解決環(huán)境變化過快導(dǎo)致參數(shù)在連續(xù)幾天之間出現(xiàn)偏差的問題,本文進一步提出了一種 RL 方法來動態(tài)調(diào)整參數(shù)。此外,本文還發(fā)現(xiàn)約束競價問題是一個遞歸最優(yōu)問題,這一性質(zhì)顯著地促進了學(xué)習(xí)過程的收斂過程。通過全面的實驗驗證了我們的解決方案的有效性。本文中推導(dǎo)的公式和 RL 方法一起被稱為約束競價通用解決方案(USCB),該方案已在淘寶廣告平臺上部署并驗證。

???關(guān)于我們

我們是阿里媽媽展示廣告機制策略算法團隊,致力于不斷優(yōu)化阿里展示廣告技術(shù)體系,驅(qū)動業(yè)務(wù)增長,推動技術(shù)持續(xù)創(chuàng)新;我們不斷升級工程架構(gòu)以支撐阿里媽媽展示廣告業(yè)務(wù)穩(wěn)健&高效迭代,深挖商業(yè)化價值并優(yōu)化廣告主投放效果,孵化創(chuàng)新產(chǎn)品和創(chuàng)新商業(yè)化模式,優(yōu)化廣告生態(tài)健壯性;我們驅(qū)動機制升級,并已邁入 Deep Learning for Mechanisms 時代,團隊創(chuàng)新工作發(fā)表于 KDD、ICML、CIKM、WSDM、AAMAS、AAAI 等領(lǐng)域知名會議。在此真誠歡迎有ML背景的同學(xué)加入我們~

投遞簡歷郵箱(請注明-展示廣告機制策略):alimama_tech@service.alibaba.com

參考文獻

[1] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.

[2] Yang X, Li Y, Wang H, et al. Bid optimization by multivariable control in display advertising[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1966-1974.

[3] Wu D, Chen X, Yang X, et al. Budget constrained bidding by model-free reinforcement learning in display advertising[C]//Proceedings of the 27th ACM International Conference on Information and Knowledge Management. 2018: 1443-1451.

END

歡迎關(guān)注「阿里媽媽技術(shù)」

瘋狂暗示↓↓↓↓↓↓↓

總結(jié)

以上是生活随笔為你收集整理的KDD2021 | USCB:展示广告约束出价问题的通用解决方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。