當前位置：首頁 >

KDD2021 | USCB:展示广告约束出价问题的通用解决方案

發布時間：2023/12/15 71 豆豆

生活随笔收集整理的這篇文章主要介紹了 KDD2021 | USCB:展示广告约束出价问题的通用解决方案小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

???導讀

實時競價是在線廣告的經典問題，是廣告商獲得目標流量的重要工具。在本文中，我們將廣告商對流量需求進行整合，提出了帶預算以及KPI約束下最大化流量價值的帶約束出價建模框架，并推導出了通用的最優出價公式，利用 rl 算法調節該公式中的參數，實現了實時流量環境下廣告商的流量效果最優。目前，該方法已應用于阿里媽媽展示廣告場景，基于該工作撰寫的論文已發表在 KDD 2021。本文將對在線展示廣告約束出價問題的通用解決方案展開介紹，希望可以對從事相關工作的同學帶來啟發或幫助。

論文🔗：https://dl.acm.org/doi/pdf/10.1145/3447548.3467199

???背景

在線展示廣告場景下，廣告主通常以實時競價的方式獲取曝光機會。在大多數廣告平臺，廣告主最常見的需求就是在預算及某些KPI約束下最大化競得流量的價值（如在預算和點擊成本約束下最大化點擊量）。每個廣告主的投放需求在營銷目標（如點擊、曝光）、KPI約束類型（如點擊成本上界、點擊率下界）以及KPI約束數量三個維度上都有很大不同。現有的研究通常局限于某個特定的投放需求，缺乏通用性，或者很難達到最優投放結果。

在本文中，我們將廣告主的各種投放需求形式化為約束出價問題，并推導出了通用的最優出價策略。對于每個廣告投放計劃來說，其最優出價公式由m個參數組成，m為約束數量。然而在實際應用過程中，由于參競環境不斷波動，確定每天的最優出價參數是很困難的事。針對該問題，本文提出了一種強化學習方法，該方法會在計劃投放過程中根據投放狀態動態調整出價參數，使其盡可能逼近最優參數。其中，我們基于約束出價問題的子問題特性，對強化學習訓練過程進行了優化，使其能夠更快地收斂到最優解。我們將這種方法稱為 Unified Solution to Constrained Bidding in Online(以下簡稱：USCB)。USCB在工業場景真實數據集上取得了很好的效果，與此同時，該方法已經在阿里媽媽廣告投放策略平臺成功部署，為各個業務線提供出價參數調控服務，為平臺收入與廣告主投放效果帶來了顯著提升。

???形式化建模

在預算及某些KPI約束下最大化競得流量的價值（如在預算和點擊成本約束下最大化點擊量）可以建模為帶約束的優化問題。

在一段時間內（例如一天），假設有𝑁個按順序到達的流量（下標為i)。在一個 SPA(廣告流量將分配給出價最高的出價人，成本為第二個的最高出價)計費模式、CPM(按照展現扣費)扣費方式的 RTB 系統(實時競價系統)中，廣告商提供出價以實時競爭每條流量。代表了廣告主是否能夠贏得流量 i。如果廣告主出價高于最高出價，則將贏得流量 𝑖（此時），最終展現的成本為 .

在獲取流量過程中，廣告計劃的目標是最大化贏得流量的總價值，即最大 , 其中代表流量i的價值。預算B和KPI約束對于控制廣告效果至關重要。預算約束可視為，即獲取流量的總成本要不大于預算B。KPI約束更為復雜，可分為兩類。第一類是成本相關（CR）約束，它限制廣告的平均單位成本，如 CPC（平均點擊成本）和 CPA（平均轉化成本）等。第二類是非成本相關（NCR）約束，它限制了廣告的平均效果，如 CTR（平均點擊率）。KPI 約束的統一表達𝑗 可由式（1）表示：

其中，k𝑗 是廣告商設置的約束j的上界，和根據約束不同而具體定義，例如點擊成本約束時，為，為，為廣告商設置的點擊成本上限。點擊率約束時，為，為，為廣告商期望最小點擊率的倒數。

因此，考慮到廣告目標、預算和 𝑀 個 KPI 約束，計劃的訴求可以通過（LP1）表示為統一的帶約束競價問題。

如果知道完全的流量集合，即知道該計劃能觸達的每條流量i的流量價值，成本等，則可以通過一般的求解線性規劃問題（LP1）的解法可得到最優解。然而，在實際應用中，需要在流量集未知的情況下進行實時競價，而且由于在線展示廣告每日訪問用戶和每日參競計劃數量眾多且隨機性很大，也很難通過準確的預測輸入流量的方式構造出流量集，因此常規的線性規劃求解方法無法應用。本文則構造出了一個最優出價公式，將問題轉化為求解最優出價公式里的最優參數的問題，大大降低了在線情況下求解該問題的難度。

???最優出價公式

最優的出價公式為：

其中，是常數項, 是參數，其范圍為:。如果約束j是CR，則；如果約束 j 是 NCR，則，證明過程詳見論文。

最優出價公式共包含 m+1 個核心參數 𝑤𝑘, 𝑘 ∈ [0, ..., 𝑀]，公式中剩余項為在線流量競價時可獲取的流量上的信息。由于最優出價公式的存在，針對此類具有預算約束和 M 個 KPI 約束，且希望最大限度地提高競得流量的總價值的問題，最優解可以通過找到 M+1 個最優參數依據公式來進行出價，而不是為每個流量分別尋找最優的出價。

???參數調整方法

定義了最優出價公式后，剩余的挑戰是計算最優參數𝑤𝑘, 𝑘 ∈ [0,...,𝑀]. 因為流量在不同時段波動很大，通過離線日志求解獲得的歷史最佳參數不能完美適用于當前的流量環境。因此，在實際應用中，需要開發一個參數調整模塊，該模塊使用調控策略將𝑤𝑘 修正到能適應當前環境（即廣告的狀態，包括預算支出狀態、KPI 約束滿足狀態等）的最佳。該過程可以描述為一個馬爾可夫決策過程 MDP，并通過強化學習的方法求解最優調控策略，r=1,..,T 時刻下，通過感知廣告的狀態，調節 𝑤𝑘 到最優，使得整體獲得最大的流量價值：

St: 廣告 t 時刻預算消耗和滿足約束的狀態，如剩余時間、剩余預算、預算消耗速度、約束的當前 KPI 比率等。
At: 參數的調節幅度
𝑟𝑡 : t 時刻中，競得流量的總價值。

由于模型 T 是廣告狀態轉移的過程，我們采用強化學習的方法為 model free 的方法，可將其看作黑盒。

利用 MDP 對該問題進行建模后，使用強化學習的經典算法 DDPG[1] 對該問題進行求解，強化學習算法一般需要大量的樣本，且收斂速度較慢，為了加快 RL 的收斂速度，我們結合帶約束的競價問題的自身特性，設計最優策略的模式，縮小了策略空間。為解釋該優化邏輯，我們首先引入子問題特性的概念：

由于流量在一天之內依次到達，在任意 t 時刻，最優化整體的流量價值的建模可以轉化為如下形式：

其中 v#，c#，p# 等表示 t 時刻之前已經獲得流量價值，總成本等。可證明該子問題的最優出價公式為：

其最優出價公式的形式與原問題 LP1 是類似的。想要達到該子問題的最優解，需要在t時刻求的最優參數，并一直持續下去。因此最優的策略為調整當前的參數直接到最優參數，并且在后續流量上保持不動。

在此最優策略的基礎上，我們將 critic 網絡優化目標定義為最小化 G 與之間的差距。G 為整個決策周期，策略真實的歸一化累積獎賞，即：

其中，R 為累積到 t 時刻的流量價值，V 為使用當前的參數并固定不動后剩余流量上能產生的價值。pj 為約束的懲罰項。為模型預估的累積獎賞。與傳統的 DDPG 算法利用來更新 critic 網絡相比，我們的方法會讓 Q 學的更容易，能提升整體網絡的收斂速度。最終算法為：

???實驗效果

淘寶廣告系統當前包含三種典型的帶約束的最大化價值的出價產品：

CB{click}：預算約束下最大化點擊量。出價公式為：
CB{click-CPC}：預算和 cpc 成本約束下最大化點擊量。出價公式為：
CB{conversion-CPC}：預算和cpc成本約束下最大化轉化量。出價公式為：

選擇三種類型的計劃構建實驗數據集為：

其中，imporession 代表計劃日均參競流量的大小，deviation 指標表征計劃的最優出價參數的天級差異。

在最優出價公式下，對比三種調控方法：

FB：用歷史固定參數。
M-PID：《Bid optimization by multivariable control in display advertising》里的基于模型的 pid 方法[2]。
DRLB：《Budget constrained bidding by model-free reinforcement learning in display advertising》里提出的解決預算約束問題的 rl 方法[3]。

效果指標為R/R*，其中 R 為利用調控算法獲得的流量價值，R* 為利用線性規劃求解出的最優流量價值。

在不同的最優參數離散程度及不同的產品類型下，USCB的效果都是最好的。

???在線部署

在淘寶顯示廣告系統中，已經部署了約束性競價的通用解決方案（USCB）并進行了合理的論證。該在線部署策略為成千上萬的廣告客戶提供服務，每天影響數百萬的收入。算法應用程序的架構顯示在圖中。模型的培訓和部署是并行的，這使得模型能夠有效地重復，并且可以輕松地應用于大量的廣告活動。

???結論

本文針對在線展示廣告中的帶約束競價問題提出了通用有效的解決方案。首先抽象出了廣告商的核心需求，并將其表述為一個約束競價問題，利用對偶方法推導了 SPA 下的最優競價函數。最優競價函數通過調整有限的參數為廣告商提供在所有流量上實時競價的服務。為了解決環境變化過快導致參數在連續幾天之間出現偏差的問題，本文進一步提出了一種 RL 方法來動態調整參數。此外，本文還發現約束競價問題是一個遞歸最優問題，這一性質顯著地促進了學習過程的收斂過程。通過全面的實驗驗證了我們的解決方案的有效性。本文中推導的公式和 RL 方法一起被稱為約束競價通用解決方案（USCB），該方案已在淘寶廣告平臺上部署并驗證。

???關于我們

我們是阿里媽媽展示廣告機制策略算法團隊，致力于不斷優化阿里展示廣告技術體系，驅動業務增長，推動技術持續創新；我們不斷升級工程架構以支撐阿里媽媽展示廣告業務穩健&高效迭代，深挖商業化價值并優化廣告主投放效果，孵化創新產品和創新商業化模式，優化廣告生態健壯性；我們驅動機制升級，并已邁入 Deep Learning for Mechanisms 時代，團隊創新工作發表于 KDD、ICML、CIKM、WSDM、AAMAS、AAAI 等領域知名會議。在此真誠歡迎有ML背景的同學加入我們~

投遞簡歷郵箱（請注明-展示廣告機制策略）：alimama_tech@service.alibaba.com

參考文獻

[1] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.

[2] Yang X, Li Y, Wang H, et al. Bid optimization by multivariable control in display advertising[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1966-1974.

[3] Wu D, Chen X, Yang X, et al. Budget constrained bidding by model-free reinforcement learning in display advertising[C]//Proceedings of the 27th ACM International Conference on Information and Knowledge Management. 2018: 1443-1451.

END

歡迎關注「阿里媽媽技術」

瘋狂暗示↓↓↓↓↓↓↓

總結

以上是生活随笔為你收集整理的KDD2021 | USCB:展示广告约束出价问题的通用解决方案的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：校招萌新在阿里妈妈是如何成长的
下一篇：阿里妈妈技术团队4篇论文入选WSDM 2