CIKM 2021 | AutoHERI: 基于层次表示自动聚合的 CVR 预估模型
本文主要介紹阿里媽媽大外投廣告算法團隊在 CVR 預估模型與多任務學習方法上的一些探索。我們提出了一種基于層次表示自動聚合的 AutoHERI 模型(Automated Hierarchical Representation Integration),并在多個外投業務上落地應用。該項工作論文已發表在 CIKM 2021 ,歡迎交流討論。
論文下載:
https://dl.acm.org/doi/10.1145/3459637.3482061
??背景
轉化率預估模型(post-click conversion rate estimation,即 CVR 模型)旨在預估用戶在發生點擊行為后會繼續發生轉化行為的概率,是推薦和廣告系統中的重要模塊,在排序、智能出價等功能中發揮著關鍵作用。在阿里媽媽外投廣告業務中,廣告在站外媒體展現給用戶,用戶點擊廣告后會喚端到淘寶 app 來繼續發生加購、成交等深度行為。廣告主通常會追求后鏈路效果優化(例如支付成本),因此 CVR 預估模型的優化一直是外投廣告算法的迭代重點。
圖 1:外投廣告場景中的用戶行為漏斗示例在推薦與廣告系統中,用戶行為漏斗通常由 "展現-點擊-...-加購-轉化-復購-..." 等多個階段構成,越靠后的階段行為數越少。轉化行為處在漏斗的末端,因此 CVR 模型的學習往往面臨著正樣本過少的數據稀疏問題。外投廣告場景中,用戶往往是逛與玩的心智,購買意愿相較于淘寶 app 站內廣告場景要相對低,因此用戶的轉化行為往往更加稀疏,使得 CVR 模型學習有著更大的難度。此外,由于只有點擊樣本可以收集到 post-click 的轉化 label,CVR 模型的訓練通常使用點擊樣本集合,而在線服務時 CVR 模型需要對參競空間的流量進行預測,因此存在著訓練空間與預測空間不一致的樣本選擇偏差問題。
建模 CVR 預估的典型做法是將樣本量更加豐富的前鏈路預估任務(如 CTR 預估)與之進行聯合學習,近年來有許多精彩工作,包括 ESMM、DBMTL、GMSL、ESM2、Multi-DR、AITM [1-6]?等模型。在此基礎上,我們著眼于更加精細地刻畫全鏈路各預估任務之間的關聯來提升對后鏈路行為的預估效果。從用戶行為漏斗來看,各個預估任務之間存在級聯式的層次關系:以最通用的 "展現-點擊-轉化" 漏斗為例,CTR、CVR 預估這兩個任務可視作是前級、后級任務,形成了級聯;類似地,外投廣告場景中的 "展現-點擊-喚端-轉化" 行為漏斗中,也可以推廣得到各預估任務之間的層次關系,例如 CTR 預估和喚端率預估是 CVR 預估的前級任務。為了利用任務間的層次關系來提升后鏈路行為預估模型的效果,我們希望建立一種能夠將多個級聯任務的建模過程顯式聯系起來的方法,探索如何有效地把前級任務所學到的較淺層轉化信息聚合到后級任務的建模之中。同時,考慮到外投廣告的業務場景眾多,在單一場景有效的信息聚合方式未必適用于其他場景,因此我們希望所建立的方法在接入不同業務場景時可以高效地獲取適應于特定場景的信息聚合模式。
基于上述動機,我們提出了基于層次表示自動聚合的 AutoHERI 模型 (Automated Hierarchical Representation Integration),通過 AutoML 的思想來建模各任務特征表示學習過程的層次關聯以提升后鏈路預估任務的表示學習。AutoHERI 模型的核心是通過 one-shot 架構搜索技術來高效地自動學習各任務之間特征表示的聚合模式,從而具備了接入新場景時的適應能力。在外投廣告業務億級數據集上的實驗結果表明 AutoHERI 模型的 CVR 預估性能顯著優于此前的多個方法。目前,AutoHERI 模型已在多個外投業務上落地應用。
??方法
不失一般性,這里先通過 CTR、CVR 兩任務聯合建模的場景來介紹所提出的層次表示自動聚合方法,而后再介紹如何將其推廣到更一般的多任務建模場景中。
圖 2 (a):AutoHERI 模型整體結構,考慮了多個預估任務之間級聯關系的層次聚合;圖 2 (b) :平行聚合,未考慮任務間的關系基礎網絡結構
聯合建模 CTR、CVR 兩個任務時,AutoHERI 模型的基礎網絡結構為典型的先共享 embedding 層、再接入兩個多層 DNN 網絡分別建模 CTR/CVR 的形式,如圖 2 (a) 所示。通過與數據量更充足的 CTR 任務共享 embedding 層,一定程度上緩解 CVR 任務數據稀疏帶來的 embedding 訓練不充分的問題。而后,兩個多層 DNN 網絡分別用于學習 CTR、CVR 任務的向量表示,最后接入 logistic 函數來給出模型預估的點擊概率 以及預估的點擊后轉化概率 。
層次表示聚合
在用戶行為漏斗中,各預估任務之間形成了級聯式的層次關系。為了充分利用前級任務(i.e., CTR 預估)學到的表示來提升后級任務(i.e., CVR 預估)的學習效果,AutoHERI 模型將 CTR 網絡的中間層輸出向量顯式地聚合到 CVR 網絡的表示學習過程中,建模多任務之間的級聯關系。我們將這種把前級任務的表示融入到后級任務的做法稱為層次表示聚合。
如圖 2 (a) 右側所示,為實現層次表示聚合,我們在兩個 DNN 網絡之間添加 layer-wise 的聚合連邊,將 CTR 網絡的中間層輸出向量連接到 CVR 網絡的中間層輸入,希望找到最優的連邊組合來提升 CVR 預估效果。這種聚合連邊方式允許從前級任務網絡的每一層連接到后級任務網絡的每一層。具體地,將兩個 DNN 網絡的層數分別記作 ,那么全部候選連邊共有 個,每條連邊為二值變量:取值為 1 表示有這條連邊,取值為 0 表示沒有這條邊,層次表示聚合的目標是找出最優連邊組合使 CVR 預估這一后級任務的性能最佳。將 CTR 網絡的第 層輸出向量記作 、CVR 網絡的第 層輸出向量記作 ,當引入從 CTR 網絡的各層向 CVR 網絡第 層的連邊 后, 通過如下聚合公式進行計算:
其中, 是 CVR 網絡第 層的參數; 函數是一個聚合算子,用于將 CTR 網絡的各層向量 與 ?進行聚合來輸出最終的向量表示 。這里我們實現 的方式是先將各個向量拼接起來 ,而后將其進行線性映射來得到 。
作為對比,圖2(b) 則給出了一種不考慮各預估任務之間層次性的平行表示聚合方式,CTR 網絡、CVR 網絡可以互相連接到對方的層。為避免成環導致前向傳播過程無法計算,平行聚合方式僅允許一個網絡的低層(靠近輸入的層)向另一網絡的高層(靠近輸出的層)進行連接,而不能像 AutoHERI 的層次聚合方式那樣實現從前級任務的高層聚合至后級任務的低層的靈活連接。
在層次聚合的情形下,可能的連邊組合共有 種。AutoHERI 利用神經網絡架構搜索來學習最優的連邊組合。
討論:相比于人工設計聚合模式的 DBMTL [2]、GMSL [3] 模型,我們提出的 AutoHERI 模型基于 AutoML 思想來自動學習多任務表示之間的最優聚合模式,避免了反復試錯來確定模型結構的過程,具備接入新場景時高效建模聚合模式的能力。
圖3:左側為 DBMTL 模型[2]、右側為 GMSL 模型[3],紅色框內為人工設計的多個預估任務之間的聚合模式。其中,DBMTL 模型在輸出層建立了各預估任務的序列依賴,GMSL 模型則通過 GRU 單元建立序列依賴。基于 one-shot 搜索的自動聚合
在一個業務場景下搜索得到的網絡結構往往在其他場景不是最優的,因此面臨新場景時比較合適的做法是重新搜索最優連邊組合。神經網絡架構搜索的訓練代價往往較高,如果每當接入一個場景就重新搜索會帶來較為嚴重的效率問題。為降低接入新場景時的搜索代價,我們通過 one-shot 架構搜索技術?[7-9]?來提升搜索效率,將二值連邊的優化問題轉為連邊概率的優化,從而可以直接利用梯度下降求解出連邊。
具體地,基于 one-shot 搜索的 AutoHERI 模型將每個二值連接 松弛到連續值 (伯努利分布的期望),并將聚合公式中的 替換為 。進而,AutoHERI 模型可以通過梯度下降來聯合優化:1)網絡參數 ,含 embedding、DNN、聚合算子的線性映射參數;以及 2)連邊概率值 。對于一條展現樣本,記 與 分別為點擊 label 與 post-view 的轉化 label,我們參考 ESMM 模型 [1] 所提出的全空間訓練方式,將目標函數定義為優化 CTR、CTCVR 這兩個預估任務的交叉熵損失:
其中 是超參數。注意到當樣本是點擊未轉化時,其是 CTR 預估任務的正樣本、CTCVR 預估任務的負樣本,為避免梯度沖突,我們可對 CTCVR 的損失函數執行 stop gradient 操作使其梯度不會回傳到 CTR 網絡。
AutoHERI 模型的訓練過程基于雙層優化(bi-level optimization),聯合訓練網絡參數和連邊概率:
具體而言,在每個 iteration 中,首先更新網絡參數、同時 fix 連邊概率;而后 fix 網絡參數、更新連邊概率。需要注意的是這兩次更新需要使用不同的數據。為了令連邊概率能夠更好地收斂,我們參考 [9]?引入了一個熵正則項 。
擴展到更多建模任務
在許多外投廣告場景中,廣告主有同時優化多個目標的訴求,例如同時優化喚端成本和支付成本。這里我們以 "展現-點擊-喚端-轉化" 這一用戶行為漏斗為例,介紹當預估任務超過兩個時 AutoHERI 的建模方式。
圖 4:建模超過兩個任務時,AutoHERI 模型的結構。這里涉及三個預估任務:點擊率、點擊后喚端率、喚端后轉化率。如圖 4 所示,此時 AutoHERI 模型的基礎網絡結構包含共享 embedding 層以及三個 DNN 網絡來分別預估上述三個概率。為了建模這三個預估任務之間的層次性,候選連邊有三組:1)從點擊率網絡連接到喚端率網絡;2)從喚端率網絡連接到轉化率網絡;以及 3)從點擊率網絡連接到轉化率網絡。對于后級任務的網絡(此處為喚端率網絡和轉化率網絡),聚合公式可由兩個預估任務情形推廣得到。在實踐中,我們實驗發現將相鄰兩個任務的網絡進行表示聚合即可獲得不錯的效果,上述的第三組連邊并不是必要的。
??實驗驗證
我們在阿里媽媽電商外投廣告業務數據集以及公開數據集上驗證 AutoHERI 模型的效果。我們首先對比 AutoHERI 模型與多個基線模型的 CVR 預估效果,而后從消融實驗和訓練效率角度進一步分析。
實驗數據方面,我們在兩個數據集上進行離線實驗:第一個是公開數據集 Ali-CCP,展現樣本 8000 萬+,每個樣本有點擊、轉化兩個標簽;第二個是電商外投業務數據集,展現樣本 4 億,每個樣本有點擊、喚端、轉化三個標簽。評價指標方面,我們匯報了 CVR、CTCVR 預估任務上的 AUC 以及 NLL。其中,為了公平比較各個 CVR 模型,在評價它們的 CTCVR 預估性能時使用統一的 CTR 模型給出點擊率預估值。
表 1:兩個數據集上的 CVR 預估效果表 2:消融實驗與訓練效率實驗表1 匯報了兩個數據集上的 AUC、NLL 評價指標。可以看出,當模型顯式建模了多任務之間關聯后,預估效果均有提升。AutoHERI 模型通過自動學習多任務表示的最優聚合模式,在兩個數據集上都取得了最優的 CVR 預估效果。為了考察 AutoHERI 模型的效果提升來源,表2 給出了消融實驗結果。可以看出,層次聚合模式相比平行聚合模式有較明顯的提升,并且 one-shot 架構搜索相比于傳統的基于演化的搜索性能持平。我們進一步考察 AutoHERI 模型的訓練效率,在表2 的最后一列給出了各模型的訓練時間,可以發現使用 one-shot 搜索時 AutoHERI 模型的訓練時間顯著降低,具備接入新場景時高效獲取信息聚合模式的能力,較好地平衡了效果與效率。
圖 5:自動搜索得到的聚合連邊上圖給出了在外投業務數據集上搜索出來的結構,較難通過人工反復試錯的方式設計出來。我們進一步在用增外投場景進行在線實驗,線上效果正向:轉化率 +4.9%、支付成本 -5.8%,已經推全量。目前,AutoHERI 模型的效果目前已在多個外投業務得到驗證。
??總結
為了充分利用用戶行為漏斗中各預估任務之間的級聯關系來提升 CVR 預估性能,我們提出了基于層次表示自動聚合的 AutoHERI 模型,核心是通過 one-shot 架構搜索技術來高效地自動學習各任務之間特征表示的聚合模式,具備接入新業務場景時的適應能力。我們的工作是對自動學習級聯任務之間的信息聚合模式的初步探索,還有進一步的優化空間。例如,在目前的 AutoHERI 模型中,聚合算子的設計是較為簡單的拼接再映射的操作,還有更多嘗試有待挖掘;此外,將 AutoML 思想應用于多任務模型中除表示聚合之外的其他模塊,也是值得探索的方向。
參考文獻
[1] Xiao Ma, Liqin Zhao, GuanHuang, Zhi Wang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In Proceedings of SIGIR.
[2] Qi Wang, Zhihui Ji, Huasheng Liu, and Binqiang Zhao. 2019. Deep Bayesian Multi-Target Learning for Recommender Systems. arXiv preprint arXiv:1902.09154 (2019).
[3] GMSL: https://mp.weixin.qq.com/s/b0mHh-cTeY6LtZ88BlAleQ
[4] Hong Wen, Jing Zhang, Yuan Wang, Fuyu Lv, Wentian Bao, Quan Lin, and Keping Yang. 2020. Entire space multi-task modeling via post-click behavior decomposition for conversion rate prediction. In Proceedings of SIGIR.
[5] Wenhao Zhang, Wentian Bao, Xiao-Yang Liu, Keping Yang, Quan Lin, Hong Wen, and Ramin Ramezani. 2020. Large-scale Causal Approaches to Debiasing Post-click Conversion Rate Estimation with Multi-task Learning. In Proceedings of WWW.
[6] Dongbo Xi, Zhen Chen, Peng Yan, Yinger Zhang, Yongchun Zhu, Fuzhen Zhuang, and Yu Chen. 2021. Modeling the Sequential Dependence among Audience Multi- step Conversions with Multi-task Learning in Targeted Display Advertising. In Proceedings of KDD.
[7] Hanxiao Liu, Karen Simonyan, and Yiming Yang. 2019. DARTS: Differentiable architecture search. In Proceedings of ICLR.
[8] Sirui Xie, Hehui Zheng, Chunxiao Liu, and Liang Lin. 2019. SNAS: Stochastic neural architecture search. In Proceedings of ICLR.
[9] Yuan Gao, Haoping Bai, Zequn Jie, Jiayi Ma, KuiJia, and Wei Liu. 2020. MTL-NAS: Task-agnostic neural architecture search towards general-purpose multi-task learning. In Proceedings of CVPR.
關于我們
阿里媽媽大外投廣告算法團隊 是阿里集團媒體推廣核心團隊,依托于集團龐大而真實的營銷場景,以 AI 技術驅動實現客戶商品營銷,并承擔集團 App 用戶增長等業務需求。我們持續探索人工智能,聯邦學習,深度學習,強化學習,知識圖譜,圖學習等前沿技術在外投廣告和用增方面的落地應用。在創造業務價值的同時,團隊近1年也在 CIKM、SIGIR、KDD 等領域知名會議上發表過多篇論文,熱忱歡迎對廣告算法、推薦系統、NLP 等方向感興趣的同學加入我們。
投遞簡歷郵箱:
alimama_tech@service.alibaba.com
END
歡迎關注「阿里媽媽技術」,了解更多~
瘋狂暗示↓↓↓↓↓↓↓
總結
以上是生活随笔為你收集整理的CIKM 2021 | AutoHERI: 基于层次表示自动聚合的 CVR 预估模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CurvLearn开源 | 阿里妈妈曲率
- 下一篇: 【阿里妈妈营销科学系列】开篇:C.M.O