當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Deep GSP ：面向多目标优化的工业界广告智能拍卖机制

發布時間：2023/12/15 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 Deep GSP ：面向多目标优化的工业界广告智能拍卖机制小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

丨目錄：

? ?· 背景

? ?· 問題定義

? ? ·??Deep GSP

?? · 實驗

?? · 與現有學術界和工業界類似方案的差異

?? · 展望

?? · 關于我們

?? · 參考文獻

??背景

廣告拍賣機制是對競爭性資源的一種高效的市場化分配方式。電商廣告中的拍賣機制設計（Mechanism Design in Online E-commerce Advertising），旨在從平臺視角出發制定拍賣策略，通過“流量分配” 和“扣費”兩個抓?，引導廣告主有序競爭，并使得流量博弈趨向優化廣告主、平臺、媒體多方利益。

信息流廣告全面進入重用戶體驗的時代，廣告分配機制也需要兼顧廣告主訴求、用戶體驗、廣告消耗等多個目標的影響，平臺機制不僅需要對收入負責，還需要對整個競價系統的長期健康穩定負責。這一問題不同于經典的多目標優化問題或拍賣機制問題的研究：

動態博弈環境下的目標優化。在線電商廣告系統中，不同利益方之間的優化訴求可能存在沖突（例如平臺收入和用戶體驗），且不同利益方均具有理性心智，在一個博弈環境下進行動態交互，這不同于傳統的靜態多目標優化問題。
面向多目標的拍賣機制設計。傳統的機制設計方法往往只考慮優化平臺的收入或社會福利（social welfare，平臺收入和廣告主的預期收益），極少同時考慮其他多個指標（例如點擊、轉化、收藏加購、客戶體驗等指標）。

因此我們需要考慮在多利益方的動態博弈場景下建模并優化多個目標。

??問題定義

我們定義電商廣告場景下，多利益方（廣告主、用戶、平臺）博弈背景下的多訴求指標優化問題（Multiple Stakeholders' Ad Performance Objectives Optimization in the Competitive E-commerce Advertising）：

402 Payment Required

其中表示要優化的機制（即分配和扣費規則）；代表各利益方的訴求指標集合，如：平臺收入、點擊、轉化、收藏加購、成交量等等，所有訴求指標通過預先給定的重要性權重求得聚合目標函數。同時，在優化過程中需要滿足兩個關于機制屬性的約束：

博弈均衡約束（Game Equilibriium Contraints）：所有廣告主（競價者）在當前機制下能夠達到博弈均衡狀態，在當前狀態下廣告主對分配結果感到滿意（即分配結果的改變不能使廣告主的收益變多）。在算法博弈論（Algorithmic Game Theory）領域，有一些和拍賣機制相關的博弈均衡概念。例如經典的Myerson定理證明了：如果一個機制在單坑拍賣場景中是單調分配（Monotone Allocation），且扣費為保持當前分配下的最小出價（critical bid based pricing），那么這個機制是激勵兼容（Incentive-Compatible, IC）[1] 的：

THEOREM 1 (Single Slot Incencentive-Compatible)[1]. A single slot auction mechanism is ?incentive-compatible if and only if the allocation scheme is monotone, i.e., the winning bidder would still win the auction if she reports a higher bid, and the pricing rule is based on the critical bid, which is the minimum bid that the winning bidder needs to report to maintain the winning state:

402 Payment Required

而對于多坑拍賣（multi-slot auction），我們考慮對稱納什均衡（Symmetric Nash Equilibrium, SNE）[2]：

THEOREM 2 (Multi-Slot Symmetric Nash Equilibrium)[2] An auction mechanism satisfies symmetric Nash equilibrium (SNE) if and only if each bidder in this equilibrium prefer her current allocated slot to any other slot :

where is the inherent click-through rate of the slot .

它表示每個廣告主在平臺分配給的坑位下utility最大，不會嫉妒其他坑位。

機制的平滑切換約束（Smooth Transition Contraints）。在線廣告系統的動態性很強，不同利益方在不同時刻的優化訴求也不盡相同，當機制從服務于一個目標切換到另一目標時，應該保證各方利益指標平穩過渡，即機制的平滑切換。可以用如下公式表示：

其中表示一個benchmark機制，表示廣告主utility的一個下界，即機制在優化過程中不應低于這個下界。

解決這一問題有兩個難點：（1）許多優化訴求指標難以精確估計（例如成交額、商品收藏加購量等），無法得到精確的解析形式，只能通過真實反饋的方式才能獲得。此外，不同階段的優化目標可能不一樣（例如大促期間平臺機制更傾向于成交，而日常期間更傾向于消耗），如何以一種更靈活的優化方式給予平臺機制更強的調控能力。（2）需要一種簡潔的數學形式表達機制需要滿足的屬性（博弈均衡/平滑切換），并將其融入到機制的優化過程中。對于傳統的GSP機制，盡管一些博弈論方面的理論工作已經證明GSP在博弈均衡方面有較好的保障，但GSP僅能優化平臺收入，無法對任意給定的多訴求指標進行優化；而對于工業界比較常用的uGSP機制，其對各訴求指標的預估值（例如pctr/pcvr等）較為依賴，很難根據流量波動和預估不精準做動態調整，缺乏直接對標終局效果的自適應調控能力。

我們通過引入深度神經網絡的參數化模型和基于后驗真實反饋的端到端策略優化來求解第一個問題，通過傳統機制在博弈均衡性質上的一些先驗知識并融入到模型的損失函數來解決第二個難點。

??Deep GSP：面向多目標優化的工業界廣告智能拍賣機制

我們提出一種面向多目標優化的廣告智能拍賣機制Deep GSP（Deep GSP Mechanism）。Deep GSP在傳統GSP機制的基礎上通過引入深度神經網絡來提升其分配能力，并通過強化學習朝著提升給定的多利益方目標的方向直接優化這一策略模型的參數；在扣費上Deep GSP延續GSP的二價計費，模型的優化在滿足機制激勵兼容/機制平滑切換的條件下進行。不同于GSP/uGSP等機制在計算rank score時嚴重依賴預估值，Deep GSP機制的優化過程是基于真實反饋進行的，因此也可以支撐任意定制目標的優化，是一種基于數據驅動的學習方法。

機制設計

Deep GSP使用基于深度神經網絡的rank score function代替傳統GSP機制中的Ecpm排序。將廣告主出價、廣告特征、用戶信息、廣告主營偏好等作為特征，映射到一個連續實數值空間，表示這一請求下這一廣告的rank score。我們用符號表示神經網絡計算出的第個廣告的rank score。而如何將機制的desirable properties與深度學習模型的端到端訓練進行融合是Deep GSP的核心問題：

博弈均衡約束（Game Equilibriium Contraints）

為了滿足機制的博弈均衡性，深度排序分函數應該滿足在出價這一維特征上的單調性，即廣告主提升其出價不會拿到更差的流量分配結果；與此同時，其扣費應為拿到其分配結果所應給出的最小報價（即最小扣費原則）。這要求深度排序分函數同時具有單調性和可以求逆的特性，我們提出“單點單調損失”和“近似可逆扣費”來實現：

（1）單點單調損失（Point-wise Monotonocity Loss，PML）

不失一般性，我們將深度排序分函數形式化如下，表示出價和深度模型輸出的乘積：

為了保證單調分配，在上的偏導數應大于等于0，則可以設置單點單調損失函數如下：

402 Payment Required

該損失函數是一種基于數據驅動的方法來計算單調性損失，即當排序分函數的輸出在出價這一維特征的導數小于0時，在模型訓練中施加一個懲罰。

（2）近似可逆扣費（Approximate Inverse Operation, AIO）

可逆扣費的計算可以近似如下：

在離線的實驗中我們觀察到rankscore模型在加入PWL后其單調性可以基本得到保障（如下圖），近似扣費解和離線計算的真實值之間的差異也較小（Table2中的PER值，表示近似值與二分查找計算出的真實值之間的比值）。

機制的平滑切換約束（Smooth Transition Contraints）

進一步，在明確了模型的定義和博弈均衡約束的具體實現后，我們設計具體的模型優化方法，并將平滑切換的機制特性作為約束融入其中。由于真實反饋信號的鏈路很長且不可解析（比如收藏加購量、成交量等），而預估模型也往往存在估計偏差（例如點擊率、轉化率預估模型），我們將Deep GSP的深度排序分模型的優化建模成一個決策問題，并使用基于真實反饋的model-free RL進行優化。排序分策略的狀態即上文介紹過的輸入特征；動作為排序分數。獎賞函數包含兩部分：一部分為優化目標，即加權聚合的多訴求指標；另一部分通過使用多目標優化中常用的技術來衡量機制改變后對廣告主utility的波動，從而實現平滑切換：

402 Payment Required

機制實現

如前面介紹，在真實電商廣告的場景中，許多優化訴求指標難以得到精確的可解析形式（例如商品收藏加購量等），且只能通過真實反饋的方式才能獲得。這一特點與強化學習中的探索過程比較類似，因此我們將機制分配模型的學習建模成一個策略學習問題（Policy Optimization），并使用深度強化學習來優化其參數。我們定義這一決策問題的幾個要素：

狀態：廣告主對流量的出價、廣告特征（類別、點擊率預估值、轉化率預估值等）、用戶特征（性別、年齡、收入等）以及廣告主信息（預算、營銷傾向等）以及一些其他上下文信息（場景、session內全局統計信息等等）。
動作：每個廣告的rankscore。
獎勵：每個廣告在場景中曝光后的多目標加權聚合值（需經過量綱統一處理）。
狀態轉移：在當前的版本下，Deep GSP暫時不考慮機制分配策略的長期價值（即episode_length=1），當然這是未來值得探索的一個方向。

我們使用深度強化學習中一種經典的連續控制學習算法，深度確定性策略梯度（Deep Deterministic Policy Gradient）來實現模型優化。具體地，設計一個值函數（）和一個策略函數（），策略函數（）即要優化的深度rankscore模型，值函數（）來評估一組 [狀態,動作] 對的價值（使用獎勵函數擬合），并通過路徑梯度求導來指導策略函數的訓練。兩個模型的具體優化方法如下：

402 Payment Required

整個Deep GSP的訓練流程與真實反饋的交互過程如下圖所示：

? Deep GSP機制在部署后的執行流程如下：

分配：候選廣告集合中的所有廣告根據網絡輸出的rankscore進行排序（倒排），排在前位（即具體場景中需要展現的廣告數量）的廣告勝出并展現。
扣費：每一個勝出廣告根據其下一位廣告的排序分通過深度打分函數求逆（即近似可逆扣費方案）計算其相應的扣費。

Deep GSP能夠根據真實的多目標反饋信號進行端到端的優化，克服訴求指標難以建模預估的不足，而且對真實在線廣告系統的動態波動具有較好的魯棒性。

??實驗

多目標優化能力&機制性質保證

為了能夠充分驗證Deep GSP在優化多目標上的表現，以及機制內在機理，我們在離線設計實驗對這些進行充分的分析。

首先在離線側我們基于XRL強化學習平臺搭建了一個模擬器，并利用點擊率、轉化率、收藏加購率等指標的分場景校準值來模擬真實反饋。下圖分別展示了四項實驗的優化指標對比：RPM/CTR、RPM/ACR、RPM/CVR、RPM/GPM。我們發現相比于GSP和uGSP，Deep GSP能在各個指標上優化的更充分，尤其是在其他指標持平的情況下能夠顯著提升收入，體現出了深度模型的優化能力。

下表展示了在不同優化訴求場景下的有關博弈均衡設計的指標。其中單調性指標（表示rank score排序與其對應的bid在排序上的一致性，使用spearman相關系數計算來實現）、扣費時引入的逆計算誤差指標（表示近似扣費與離線通過二分搜索計算出的真實扣費之間的比值）均與理想值1較為接近，證明了PML和AIO的誤差較小。Table 2中最后一列IC表示通過拍賣日志數據離線計算出的激勵兼容指標（Data-driven IC [3]），其值越接近于1表示機制越趨近于激勵兼容。

最后我們驗證了機制的“平滑切換”功能。下圖展示了當機制目標從“CTR”切換至“RPM”時，廣告主Utility的變化，可以發現廣告主效果會隨著參數的提升呈緩慢下降趨勢，而非劇烈震蕩。

??與現有學術界和工業界類似方案的差異

在學術界已有一些研究工作focus在深度學習和機制設計的結合。例如ICML19中的工作 [4]提出了端到端的分配網絡和計費網絡RegretNet，并將機制的IC約束融入到網絡結構的設計或優化的loss當中。RMD用提出了基于強化學習的拍賣機制來優化收入等。但這其中大部分的研究還是在經典拍賣場景中，其數據來自于模擬的bidder value distribution，和真實廣告拍賣場景中的數據分布差異較大。在優化多方利益這個問題上，現在工業界也有一些通過業務經驗事先設定排序公式，并通過深度學習（或強化學習）來預測（或優化）每條流量中的參數，得到流量維度的“個性化排序公式”，以實現在不同的流量優化不同的指標，并做到所有流量指標的提升，上述的算法在各自的業務中都取得了顯著的效果提升。

從技術本質上來看，這些工作都是因為在廣告場景中，多方利益需要協同優化，實際場景復雜，傳統的GSP/UGSP拍賣機制已無法更好的實現動態博弈場景下的效果最優，進而尋求一種新的拍賣機制來解決解決工業場景上面向真實效果優化。但拍賣機制的設計不是單純的優化問題，還需要考慮廣告主的理性行為，即因為機制的變化而導致廣告主策略行為的變化，并可能進一步導致優化效果的變化。個性化排序公式是解決這個問題的一個途徑，在拍賣機制設計上可以沿用GSP框架從而省去對機制性質的深究。但同時這種實現方式由于事先確定了分配函數的參數化形式，使得其在擴充特征空間或優化更多樣目標時可能受到可擴展性的限制。Deep GSP正是在這樣的背景下，從拍賣機制設計的本質出發，將模型學習和拍賣機制深度融合，建模多利益方的“動態博弈”場景，并面向后驗任意多目標來進行優化，同時將機制性質融合在神經網絡的優化過程中，充分釋放模型優化多目標的能力。Deep GSP相關工作論文發表在WSDM 2021，感興趣同學也可以查閱原文了解更多。

論文下載：https://arxiv.org/abs/2012.02930

??展望

Deep GSP是阿里媽媽展示廣告機制策略團隊將“拍賣機制”與“端到端學習”結合的一次嘗試，在后續的工作中，我們也在繼續“模型算法優化+機制博弈約束”這種“一體兩面”的研究思路，在算法設計方面提高建模能力和優化能力；在理論方面，研究learning-based機制的激勵兼容性，探究如何將其更好的融入算法設計中，并進一步嘗試在機制的可解釋性上有所突破。

??關于我們

我們是阿里媽媽展示廣告機制策略算法團隊，致力于不斷優化阿里展示廣告技術體系，驅動業務增長，推動技術持續創新；我們不斷升級工程架構以支撐阿里媽媽展示廣告業務穩健&高效迭代，深挖商業化價值并優化廣告主投放效果，孵化創新產品和創新商業化模式，優化廣告生態健壯性；我們驅動機制升級，并已邁入 Deep Learning for Mechanisms 時代，團隊創新工作發表于 KDD、WWW、ICML、CIKM、WSDM、AAMAS、AAAI 等領域知名會議。在此真誠歡迎有ML背景的同學加入我們！

投遞簡歷郵箱（請注明-展示廣告機制策略）：

alimama_tech@service.alibaba.com

參考文獻：

[1] Myerson, R. B. (1981). Optimal auction design.?Mathematics of operations research,?6(1), 58-73.

[2] Varian, H. R. (2007). Position auctions.?international Journal of industrial Organization,?25(6), 1163-1178.

[3] Yuan Deng, Sébastien Lahaie, Vahab Mirrokni, and Song Zuo. 2020. A data-driven metric of incentive compatibility. In Proceedings of The Web Conference 2020. 1796–1806.

[4] Dütting, P., Feng, Z., Narasimhan, H., Parkes, D., & Ravindranath, S. S. (2019, May). Optimal auctions through deep learning. In?International Conference on Machine Learning?(pp. 1706-1715). PMLR.

[5] Tacchetti, A., Strouse, D. J., Garnelo, M., Graepel, T., & Bachrach, Y. (2019). A neural architecture for designing truthful and efficient auctions.?arXiv preprint arXiv:1907.05181.

[6] Shen, W., Tang, P., & Zuo, S. (2019, May). Automated mechanism design via neural networks. In?Proceedings of the 18th International Conference on Autonomous Agents and Multiagent Systems?(pp. 215-223).

END

也許你還想看

丨KDD2021 | USCB:展示廣告約束出價問題的通用解決方案

丨KDD 2021 | Neural Auction: 電商廣告中的端到端機制優化方法

丨WSDM 2022 | 一種用于在線廣告自動競價的協作競爭多智能體框架

歡迎關注「阿里媽媽技術」，了解更多~

瘋狂暗示↓↓↓↓↓↓↓

總結

以上是生活随笔為你收集整理的Deep GSP ：面向多目标优化的工业界广告智能拍卖机制的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： WSDM 2022 | 一种用于在线广告
下一篇：从二值检索到层次竞买图——让搜索广告关键

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

Deep GSP ： 面向多目标优化的工业界广告智能拍卖机制

??背景

??問題定義

402 Payment Required

402 Payment Required

402 Payment Required

??Deep GSP：面向多目標優化的工業界廣告智能拍賣機制

機制設計

博弈均衡約束（Game Equilibriium Contraints）

402 Payment Required

機制的平滑切換約束（Smooth Transition Contraints）

402 Payment Required

機制實現

402 Payment Required

??實驗

多目標優化能力&機制性質保證

??與現有學術界和工業界類似方案的差異

??展望

??關于我們

參考文獻：

總結

Deep GSP ：面向多目标优化的工业界广告智能拍卖机制