當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

KDD 2021 | Neural Auction: 电商广告中的端到端机制优化方法

發布時間：2023/12/15 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 KDD 2021 | Neural Auction: 电商广告中的端到端机制优化方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

???導讀?

拍賣機制設計一直是計算廣告領域的核心問題，在本文中我們將機器學習和機制設計方法深度融合，提出一種基于深度神經網絡建模的電商廣告拍賣機制，并在滿足 Value 最大化廣告主激勵兼容的機制解空間內實現多利益方目標的端到端優化。目前，該方法已應用于阿里媽媽展示廣告場景，基于該工作撰寫的論文已被國際會議 KDD 2021 接收。本文將對深度學習機制設計方法展開介紹，希望可以對從事相關工作的同學帶來啟發或幫助。

論文下載：https://arxiv.org/abs/2106.03593

???1?摘要

在電商廣告系統中，綜合考慮多利益方（用戶、廣告主、平臺）的目標十分關鍵。傳統的拍賣機制（例如 GSP/VCG）由于分配規則確定且專注于優化單一目標（例如收入/社會福利），在優化多利益方指標時可能是次優解。一種可能的研究方向是使用基于數據驅動的機器學習方法，它能從真實數據中直接學習拍賣機制，并有能力使機制朝著給定的業務目標靈活調控。然而，拍賣機制的執行過程中涉及一些不可導的操作（如排序等），這些操作可能和基于梯度回傳的大多數深度學習方法難以兼容，制約了機制模型的學習能力。阿里媽媽展示廣告機制策略算法團隊提出一種基于深度學習的拍賣機制設計方法 —— Deep Neural Auction (DNA)，并將其應用在工業界電商廣告場景中。DNA 使用深度神經網絡從原始拍賣數據中提取特征信息，并將機制分配過程編碼到模型內部，利用一種可微分算子對該分配過程中的排序操作進行松弛，在分配結果和反饋信號間建立可微分梯度計算關系以支持端到端訓練。此外，DNA 將機制博弈均衡屬性（廣告主激勵兼容）顯式融入模型設計中。該機制已被部署在阿里媽媽展示廣告系統中，在大規模離線數據集實驗以及在線 A/B實驗中，DNA 機制對比傳統拍賣機制在優化多利益方指標上都展現出了更好的效果。

圖: 深度學習機制設計

???2?問題建模

2.1 多利益方博弈視角下的多目標電商廣告機制設計

定義在電商廣告場景中多利益方（廣告主、用戶、廣告平臺）博弈下的多目標優化問題：

其中表示要優化的機制（即分配和扣費規則），表示廣告主的出價，代表多利益方訴求指標的線性加權和（weight-sum）：，例如（平臺收入、點擊率、轉化率、收藏加購率、成交量等等），所有指標通過預先給定的重要性權重求得聚合目標函數。在優化過程中需要滿足機制的激勵兼容約束（Incentive compatibility，IC）和個體理性約束（Individual Rationality，IR），即在當前機制下所有廣告主的最優策略為誠實報價，以及廣告主的凈效用不能為負（不超過最大意愿出價）。

對于該問題，工業界普遍使用 uGSP 機制[6]來優化多目標。盡管 uGSP 具有較好的可解釋性，但機制解空間存在效果天花板：1. 排序策略被限制在 ecpm 和其他指標的線性組合中；2. 作為一種“靜態”機制，uGSP 嚴重依賴預估模型的準確性，很難根據流量波動和預估不精準做動態調整，缺乏直接對標終局效果的自適應調控能力。

2.2 基于Value Maximizer的電商廣告主建模

在傳統的拍賣機制理論中，經典的激勵兼容機制（如 Myerson/VCG 拍賣）均假設廣告主模型為效用最大化模型（utility-maximizer），即廣告主的目標為最大化其擬線性效用（quasi-linear utility）：。然而我們觀察到近些年工業界的電商廣告系統中，效用最大化廣告主模型已不能完整描述廣告主的核心訴求了。例如在淘寶展示廣告系統中（Google Ads 中也有相似的產品模式 [11]），存在給定單次出價上限的 OCPC 類型廣告主、以及預算/PPC/PPA 約束下的 MCB 類型廣告主，而這些廣告主常常不再關心 utility 絕對值的大小，只是將扣費作為一項約束，盡可能地追求其營銷目標的最大化（即value，如點擊量、成交量等等）。Yahoo！在2017年提出的“Value Maximizer”概念[1]可以描述這一廣告主類型的行為模式：

Definition (Value Maximizer). A value maximizer optimizes value while keeping payment below her maximum willing-to-pay ; when value is equal, a lower is preferred.

進一步地，文獻[1]證明了對于“Value Maximizer”廣告主，機制的 IC 和 IR 需要滿足以下兩個條件：

Monotonicity（單調分配）：廣告主上報了更高的報價不能拿到更差的分配結果；
Critical Price（最小扣費）：勝出廣告的計費應為其拿到相同坑位的最低報價。

在后面機制模型的設計過程中時也會顯式融入這兩個條件，來保障廣告主的激勵兼容和個體理性這兩項經濟學性質。

???3?模型設計

由于可解釋性較好且易于部署，我們仍然沿用“基于 rankscore 排序”的機制分配框架，并使用深度神經網絡計算每條廣告的 rankscore。如圖所示，Neural Auction 主要由三部分模塊構成：

集合編碼器（Set Encoder），學習整個競價隊列的上下文信息，輸出一個定義在競價隊列上的特征。

上下文評分函數（Context-Aware Rank Score Function），以單個廣告的特征和競價隊列特征作為輸入，學習每個廣告的排序分數，并保障廣告主的 IC/IR 性質。

可微排序引擎（Differentiable Sorting Engine），以競價隊列所有廣告的排序分數為輸入，以可微的形式進行排序操作，并進一步計算在當前排序分狀態下的其他估計指標。

接下來將詳細介紹這三部分模型設計和整體的訓練方法。

3.1 集合編碼器（Set Encoder）

建模候選隊列參競廣告的上下文信息對提升平臺側的分配能力十分重要，比如重排技術 [9,10]也運用了很多類似的信息。但不同于序列建模，機制模塊的參競候選集是無序的，因此上下文信息提取結構必須要保持集合的排列不變性（permutation invariance）。為了解決這個問題，我們采用 DeepSet [2]網絡結構來建模這一映射關系，其具體計算過程如下：

核心思路是先使用一個共享的編碼器將每一個廣告特征映射到高維空間，再通過聚合操作符（這里我們選用平均池化）生成一個固定大小的聚合特征，最后再通過一個編碼器輸出這個候選集合的特征表示。這一信息表示將輸出到下游的廣告評分函數中，輔助推斷每個廣告在當前候選集上的競爭力。

3.2 上下文評分函數（Context-Aware Rank Score Function）

評分函數的輸入為每個廣告的特征與上游集合編碼器輸出的集合表示，輸出為每個廣告的排序分，所有廣告共享這一評分函數，并使用深度神經網絡來建模這一映射過程。但2.2中我們介紹過，機制的經濟學性質（IC/IR）對評分函數提出了更多的要求——“單調分配”和“最小計費”，而這兩點轉化為數學語言即：排序分函數需要同時具有“單調性”和“可求逆”的特性。Neural Auction 模型直接通過結構性保障來約束機制的 IC/IR 參數化空間，通過設計一種 Partially Monotone Min-Max Network [3]的網絡結構來實現每個廣告的排序分函數。這種網絡結構的特性是：求逆過程可以通過對網絡參數進行簡單變換來得到，并且可以約束其中部分網絡參數來實現在 bid 上的部分單調。其具體的前向計算和求逆過程如下：

這一網絡結構已有文獻[3]證明具備通用的非線性function approximator能力，我們通過優化該網絡結構的參數來實現IC/IR約束下的平臺機制多目標優化。

3.3 可微分排序算子（Differentiable Sorting Engine）

排序分函數模塊在計算完所有廣告的分數之后會統一輸出到可微分排序引擎中，這一模塊的作用是以一種可微的計算形式來表達“排序”這一算子，從而能夠與梯度下降訓練方法結合，實現自動化的端到端訓練。為了解決“排序不可微”問題，我們使用一種 NeuralSort 技術[4]來實現這一計算過程，其核心思路是使用 softmax 將離散的排序過程連續化。首先將排序過程具體形式化為 topk 坑位的展現：即 argsort 的過程（我們假定 argsort 為按 rankscore 由高到底排序），則其對應的 permutation matrix 可以表示為：

矩陣中的每個元素表示第個廣告的 rankscore 是否為整個隊列中大的元素。則進一步可以證明當定義時，上述 permutation matrix 可以等價為：

其中表示候選集中任意兩個廣告 rankscore 之間的絕對距離矩陣，即：；表示所有廣告個數。則對做松弛可以得到 permutation matrix 的連續可微形式：

其中為溫度超參，用于控制連續松弛的程度。其物理含義可以理解為：矩陣的第行代表每個廣告排在第位的概率。則這一可微分排序矩陣可以視作一個基礎算子，作為連接“DNN-based rankscore”與“rankscore-based 排序”，及進一步“基于排序得到的真實反饋效果”之間的可微計算橋梁。例如：對于 topk 展現廣告的收入，可以用該松弛矩陣簡單地表示為：

由于整個計算路徑不涉及離散操作，可以依據下游自定義的 loss metric 實現完整的端到端優化。

3.4 訓練流程

3.4.1 樣本構造：

DNA 機制模型使用的廣告特征為：出價 bid、預估打分（pCTR，pCVR等）、廣告相關信息（如商品類型、筆單價等）、用戶相關信息（如性別、年齡段等）、上下文信息（如投放場景、廣告產品類型等）、及其他統計特征，使用歷史日志中用戶的真實反饋行為（如點擊、加購、成交等）構造訓練信號。

3.4.2 訓練 Loss

訓練 loss 由兩部分信號構成：

（1）：直接面向后驗真實反饋指標的最大化：

表示 topK 廣告的多目標收益（注意這里使用了松弛排序矩陣構造出了近似期望收益）。其中，表示所有候選廣告的多目標效果。

（2）：根據日志中的用戶行為數據可以計算出一個最優排序，則可以構造一個分類預測的損失函數，來糾正經過 neuralsort 得到的松弛排序矩陣：

仔細觀察這兩個 loss 的形式不難發現，的優化其實就是使網絡產生的 rankscore 與在用戶真實行為上計算出的多目標最優排序一致，但由于 revenue 的計算還是依賴于網絡 rankscore 的求逆，導致 rankscore 之間的 distance 又會被顯式優化，這給模型訓練帶來了一些不穩定的因素（離線實驗中我們也確實觀察到了）；而由于只糾正序的準確性，不涉及廣告 rankscore 之間 distance 的學習，它的訓練過程較為穩定。我們的經驗是：如果優化目標僅有 revenue，那么任務可以獨立訓練，最終會收斂（盡管其 learning curve 存在一些毛刺）；如果優化多個目標之間權衡，那么的權重要和在同一水平，或者先全局優化學好 allocation，再引入精細化優化 revenue。

值得注意的是，工業界廣告系統的真實反饋通常是稀疏的，算法日志中有用戶行為的數據占比可能較低。為了使訓練信號更加稠密、提高模型學習的效率，我們將用戶反饋與預估值進行了融合，在有用戶行為的數據上使用后驗校準技術來糾正預估值，再進一步構造兩個 loss，提高了訓練的穩定性。

???4. 實驗效果

4.1 離線實驗

在離線數據集上，我們主要對比了GSP[5]、UGSP[6]和DeepGSP[7]機制。為了更清晰的比較多目標優化效果，我們每次只選取兩個目標進行優化（即RPM+X模式，）。從圖中可以看出DNA機制的帕累托前端更優，目標之間的置換比較高。

為了驗證機制模型的 IC 性質，受文獻[8]中基于bid擾動設計 data-driven IC metric 的啟發，我們定義了 value maximizer 廣告主的后悔值（Regret），和：

分別表示如果對 bid 進行擾動，廣告主 value 獲得提升的最大占比及 payment 降低的最大占比。我們在真實廣告日志上模擬了 bid 的擾動，并計算了兩項 Regret 指標，結果如下表所示。可以看出 Neural Auction 機制的 regret 只有在上不為0，但其占比較低，且對比非IC機制uGFP（一價拍賣）優勢明顯。

4.2 在線實驗

Table2 對比了 DeepGSP 和 DNA 機制，在損失相同 RPM 水平下獲得其他指標的提升，可以看出DNA獲得了更優的置換比。Table3 展示了在線上對比 GSP 在所有指標上的優化效果，可以看出融合了多目標的 DNA 機制在所有指標上都優于 GSP，展現出 DNA 機制對于實現廣告主、平臺和用戶體驗多方共贏的調控能力。其他實驗分析可參考論文：https://arxiv.org/abs/2106.03593。

???5?總結與展望

傳統的拍賣機制（例如GSP/VCG）由于分配規則確定且專注于優化單一目標（例如收入/社會福利），在優化多利益方指標時可能是次優解；而經典的uGSP則嚴重依賴預估模型的準確性，缺乏直接對標終局效果的自適應調控能力。為了解決該問題，阿里媽媽展示廣告機制策略算法團隊提出一種基于深度學習的拍賣機制設計方法 —— Deep Neural Auction (DNA)。在大規模離線數據集實驗以及在線A/B實驗中，DNA 機制對比傳統拍賣機制在優化多利益方指標上都展現出了更好的效果。

AI is increasingly making decisions, not only for us, but also about us. 最近幾年利用深度學習建模博弈關系的研究工作越來越多，基于深度學習的拍賣機制設計在工業界仍具有非常強的落地價值和研究前景，仍然有很多新的方向可以繼續探索。比如：如何抽象出更好的優化目標來描述機制的長期效果，并融入機制模型的優化。另外，廣告機制策略的另一大組成部分——出價（bidding），近幾年也逐漸切換到了基于數據驅動的智能出價技術，那么拍賣智能體（Auction Agent）與出價智能體（Auto-bidding Agent）之間該如何協同，兩個可學習agent之間的動態博弈關系是怎樣的，異步學習會不會造成效果震蕩，這些問題同樣值得深入研究。

關于我們

我們是阿里媽媽展示廣告機制策略算法團隊，致力于不斷優化阿里展示廣告技術體系，驅動業務增長，推動技術持續創新；我們不斷升級工程架構以支撐阿里媽媽展示廣告業務穩健&高效迭代，深挖商業化價值并優化廣告主投放效果，孵化創新產品和創新商業化模式，優化廣告生態健壯性；我們驅動機制升級，并已邁入 Deep Learning for Mechanisms 時代，團隊創新工作發表于 KDD、ICML、CIKM、WSDM、AAMAS、AAAI 等領域知名會議。在此真誠歡迎有ML背景的同學加入我們！

投遞簡歷郵箱（請注明-展示廣告機制策略）：alimama_tech@service.alibaba.com

參考文獻

[1] Christopher A Wilkens, Ruggiero Cavallo, and Rad Niazadeh. 2017. GSP: the cinderella of mechanism design. In WWW. 25–32.

[2] Manzil Zaheer, Satwik Kottur, Siamak Ravanbakhsh, Barnabas Poczos, Russ R Salakhutdinov, and Alexander J Smola. 2017. Deep sets. In NIPS. 3391–3401.

[3] Hennie Daniels and Marina Velikova. 2010. Monotone and partially monotone neural networks. IEEE Transactions on Neural Networks 21, 6 (2010), 906–917.

[4] Aditya Grover, Eric Wang, Aaron Zweig, and Stefano Ermon. 2019. Stochastic Optimization of Sorting Networks via Continuous Relaxations. In ICLR.

[5] Sébastien Lahaie and David M Pennock. 2007. Revenue analysis of a family of ranking rules for keyword auctions. In EC. 50–56.

[6] Yoram Bachrach, Sofia Ceppi, Ian A Kash, Peter Key, and David Kurokawa. 2014. Optimising trade-offs among stakeholders in ad auctions. In EC. 75–92.

[7] Zhilin Zhang, Xiangyu Liu, Zhenzhe Zheng, Chenrui Zhang, Miao Xu, Junwei Pan, Chuan Yu, Fan Wu, Jian Xu, and Kun Gai. 2021. Optimizing Multiple Performance Metrics with Deep GSP Auctions for E-commerce Advertising. In WSDM. 993–1001.

[8] Zhe Feng, Okke Schrijvers, and Eric Sodomka. 2019. Online learning for measuring incentive compatibility in ad auctions. In WWW. 2729–2735.

[9] Feng, Yufei, et al. "Revisit Recommender System in the Permutation Prospective." arXiv preprint arXiv:2102.12057 (2021).

[10] Huzhang, Guangda, et al. "AliExpress Learning-To-Rank: Maximizing Online Model Performance without Going Online." IEEE Transactions on Knowledge and Data Engineering (2021).

[11] Google Ads Automated Bidding: https://support.google.com/google-ads/answer/2979071

END

歡迎關注「阿里媽媽技術」

瘋狂暗示↓↓↓↓↓↓↓

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的KDD 2021 | Neural Auction: 电商广告中的端到端机制优化方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：阿里妈妈技术团队 6 篇论文入选 CIK
下一篇：品牌保量技术在阿里妈妈外投场景的应用