KDD 2021 | 一种使用真负样本的在线延迟反馈建模
???摘要
電商場(chǎng)景的多目標(biāo)模型預(yù)估,包括加購(gòu)率,轉(zhuǎn)化率,進(jìn)店,時(shí)長(zhǎng)等等。在展示廣告領(lǐng)域,多目標(biāo)體現(xiàn)了廣告主對(duì)自己真實(shí)訴求的表達(dá),因此,多目標(biāo)模型既是技術(shù)項(xiàng)目,也有強(qiáng)烈的業(yè)務(wù)屬性。廣告排序系統(tǒng),從上到下包含產(chǎn)品設(shè)計(jì),機(jī)制策略,精排,粗排,召回,索引等多個(gè)模塊。整個(gè)系統(tǒng)能否從上游業(yè)務(wù)承接到下游底層實(shí)現(xiàn),理解和傳達(dá)廣告主的目標(biāo)訴求是重中之重,多目標(biāo)模型面臨很多與 CTR 預(yù)估不同的問(wèn)題。
樣本反饋延遲性: 購(gòu)買行為發(fā)生在點(diǎn)擊后,且不確定間隔時(shí)間。這一點(diǎn)在大促期間更明顯。這導(dǎo)致我們訓(xùn)練模型的時(shí)候負(fù)樣本包含兩種不確定情況,即真負(fù)樣本(用戶不購(gòu)買)和假負(fù)樣本(用戶會(huì)在未來(lái)的某個(gè)時(shí)刻購(gòu)買)。如何既利用這部分負(fù)樣本,又降低這部分樣本帶來(lái)的不確定性是我們亟待解決的問(wèn)題。樣本延遲建模是多目標(biāo)模型區(qū)別于 CTR 模型的最主要的子方向之一。
購(gòu)買行為稀疏性: 相比于點(diǎn)擊用戶行為,加購(gòu)、購(gòu)買的用戶行為數(shù)據(jù)準(zhǔn)確而稀疏。數(shù)據(jù)量不充足將直接影響復(fù)雜模型的學(xué)習(xí)效果。那么如何利用稀疏數(shù)據(jù)設(shè)計(jì)模型,高效掌握用戶興趣是研究重點(diǎn)。因此,我們有興趣分層建模研究子方向,專門解決這類問(wèn)題。
多目標(biāo)任務(wù)關(guān)聯(lián)性: 加購(gòu)和購(gòu)買具有較強(qiáng)的相關(guān)性,比如先加購(gòu)后購(gòu)買。區(qū)別于點(diǎn)擊行為,一個(gè)用戶的加購(gòu)、購(gòu)買、進(jìn)店、關(guān)注等行為會(huì)有明顯的目標(biāo)相關(guān)性。業(yè)界也有ESMM,MMOE,PLE等模型。這個(gè)方向?qū)W⒂跇?gòu)建統(tǒng)一模型,既利用多任務(wù)之間的關(guān)聯(lián)性,又能夠避免優(yōu)化方向上的沖突,同時(shí)還能解耦統(tǒng)一建模帶來(lái)的迭代瓶頸問(wèn)題。
本文著重介紹樣本延遲建模,這個(gè)方向解決購(gòu)買行為晚于點(diǎn)擊導(dǎo)致的延遲反饋問(wèn)題。2020年6月起,我們通過(guò)多任務(wù)延遲建模結(jié)構(gòu),使天級(jí) CVR 模型可以識(shí)別和利用近期尚未轉(zhuǎn)化的樣本;并建立考慮延遲建模問(wèn)題的實(shí)時(shí)模型方法(ODL)。該項(xiàng)工作論文已發(fā)表在KDD 2021《Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling》 [1]。本文將圍繞天級(jí)和實(shí)時(shí)兩個(gè)角度為大家分享,歡迎交流討論。
論文下載:https://arxiv.org/abs/2104.14121
???1 精排天級(jí)樣本延遲建模(Offline Defer)
1.1 背景
在轉(zhuǎn)化數(shù)據(jù)稀疏的情況下,即使淘系的數(shù)據(jù)量,也并非所有場(chǎng)景都可以通過(guò)實(shí)時(shí)ODL模型獲得收益,甚至效果還會(huì)更差。因此,天級(jí)轉(zhuǎn)化樣本延遲建模方案,是多目標(biāo)模型優(yōu)化的重要方向。
場(chǎng)景發(fā)生廣告點(diǎn)擊后,用戶7天之內(nèi)發(fā)生購(gòu)買,都會(huì)歸因到這條廣告。由于購(gòu)買行為的發(fā)生晚于點(diǎn)擊很多,因此,天級(jí)模型訓(xùn)練的時(shí)候,最近幾天的 label 很可能不準(zhǔn)確。針對(duì)這個(gè)問(wèn)題,常用做法是:
第一、以7天前數(shù)據(jù)進(jìn)行模型訓(xùn)練,可以得到7天轉(zhuǎn)化模型,但是7天內(nèi)樣本缺失會(huì)使模型捕捉不到近7天的數(shù)據(jù)分布變化。
第二、以1天歸因轉(zhuǎn)化 label 進(jìn)行模型訓(xùn)練,可以保證時(shí)效性。但由于 n 天后才轉(zhuǎn)化的樣本都被標(biāo)記成了負(fù)樣本,這樣的模型對(duì)轉(zhuǎn)化周期長(zhǎng)的樣本,比如某些很貴的商品,顯然是有偏的。
因此,我們的問(wèn)題是,如何有效利用近6天樣本,去優(yōu)化7天歸因轉(zhuǎn)化的天級(jí)模型。我們提出一種天級(jí)樣本延遲建模方式,通過(guò)一個(gè)端到端的多任務(wù)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)建模轉(zhuǎn)化模型和時(shí)延模型,隱式的通過(guò)時(shí)延模型影響實(shí)際轉(zhuǎn)化模型的標(biāo)簽分布,達(dá)到準(zhǔn)確學(xué)習(xí)7天轉(zhuǎn)化模型的目的。
1.2 解決方案
設(shè)計(jì)思路: ?既然觀測(cè)到的負(fù)樣本包含假負(fù)樣本,一個(gè)直觀的想法是能否分別建模轉(zhuǎn)化模型和時(shí)延模型,然后通過(guò)時(shí)延模型預(yù)估這條樣本到模型訓(xùn)練時(shí)刻已經(jīng)發(fā)生轉(zhuǎn)化的概率,作為該負(fù)樣本的不確定性,從而給每條負(fù)樣本一個(gè)合理權(quán)重,降低假負(fù)樣本帶來(lái)的影響。那么首先一個(gè)問(wèn)題,淘系的商品的轉(zhuǎn)化時(shí)延,是可建模的嗎?于是我們進(jìn)行調(diào)研,按照分類,統(tǒng)計(jì)某場(chǎng)景歸因的1天轉(zhuǎn)化/7天轉(zhuǎn)化的比值來(lái)看,不同分類的轉(zhuǎn)化周期有明顯差異。按照用戶購(gòu)買力統(tǒng)計(jì),也是類似結(jié)論?;谏鲜龇治?#xff0c;轉(zhuǎn)化周期(時(shí)延模型)在淘系廣告產(chǎn)品是可建模的。
2014年 Olivier Chapelle 和 Yuya Yoshikawa 等人 [4] 針對(duì)這個(gè)問(wèn)題提出過(guò)解決方案,但他們的方案對(duì)轉(zhuǎn)化模型和時(shí)延模型分開(kāi)建模,且假設(shè)服從指數(shù)分布。這個(gè)假設(shè)并不合理,并且分開(kāi)建模也損失了兩個(gè)模型的關(guān)聯(lián)。因此,我們思考,能否通過(guò)一個(gè)端到端的網(wǎng)絡(luò)同時(shí)建模轉(zhuǎn)化模型和時(shí)延模型,更方便的解決樣本延遲問(wèn)題。
數(shù)據(jù)流程: 天級(jí)生成轉(zhuǎn)化樣本,每個(gè)樣本包含7個(gè) label,,,…,。每個(gè) label 表示截止第 n 天,這天樣本是否發(fā)生轉(zhuǎn)化。7天前的樣本都可以按照通常的邏輯生成樣本。7天以內(nèi)的樣本,由于尚未到達(dá)歸因結(jié)束的時(shí)間,因此這部分負(fù)樣本隨時(shí)間推移有可能因?yàn)橛脩舻耐蝗晦D(zhuǎn)化,而變成正樣本。因此,7天以內(nèi)的樣本需要每天更新一次 label。
網(wǎng)絡(luò)結(jié)構(gòu): 區(qū)別于相關(guān)工作的方案,我們直接建立端到端訓(xùn)練的多任務(wù)模型。如圖所示,網(wǎng)絡(luò)結(jié)構(gòu)最后一個(gè)后端 是轉(zhuǎn)化模型,簡(jiǎn)寫(xiě)為 P(7),表示7天可以發(fā)生轉(zhuǎn)化的概率。類似的簡(jiǎn)寫(xiě) 是 n 天轉(zhuǎn)化模型。網(wǎng)絡(luò)結(jié)構(gòu)前幾個(gè)結(jié)點(diǎn) 是時(shí)延模型,表示7天內(nèi)可以發(fā)生轉(zhuǎn)化且在第 n 天已經(jīng)發(fā)生轉(zhuǎn)化的概率,=1,2,..,6。那么,截止第 n 天可以收到正樣本的概率 最終7天轉(zhuǎn)化的概率前 n 天發(fā)生轉(zhuǎn)化的概率。每一個(gè)后端 通過(guò)“樣本到第 n 天是否已經(jīng)發(fā)生轉(zhuǎn)化”的信息進(jìn)行監(jiān)督。這樣,即使部分樣本尚未到7天歸因時(shí)間,模型也可以利用前7天內(nèi)的樣本,通過(guò) 的反向傳播訓(xùn)練7天轉(zhuǎn)化率 。具體訓(xùn)練方式:
7天以前的樣本,由于 n 個(gè)后端的 label 存在,可以同時(shí)學(xué)習(xí) 和 相關(guān)參數(shù);
7天以內(nèi)化樣本,假設(shè)時(shí)延分布 不變,間接學(xué)習(xí) 相關(guān)參數(shù)。比如4天內(nèi)的樣本, 的后端可以拿到完整 label,并參與訓(xùn)練 。 的后端則不參與梯度回傳。
???2 精排實(shí)時(shí)樣本延遲建模(Online Defer)
2.1 背景
我們統(tǒng)計(jì)發(fā)現(xiàn),即使大盤(pán)加購(gòu)率/轉(zhuǎn)化率,在1天內(nèi)也會(huì)有超過(guò)20%的變化。因此,判斷實(shí)時(shí)多目標(biāo)模型存在收益空間。由于購(gòu)買行為的發(fā)生晚于點(diǎn)擊很多,因此,如果直接復(fù)用CTR實(shí)時(shí)樣本流,10分鐘的等待窗口會(huì)導(dǎo)致數(shù)據(jù)流拿到的負(fù)樣本比例明顯虛高。因此,觀測(cè)樣本分布與實(shí)際樣本分布會(huì)有明顯差異。
所以需要解決的問(wèn)題是:如何在流式環(huán)境下,拿到盡可能正確的多目標(biāo)觀測(cè)樣本,并通過(guò)建模方法求解真實(shí)分布下的轉(zhuǎn)化率預(yù)估模型。我們提出一種可以從理論上保證觀測(cè)邊緣分布等于真實(shí)邊緣分布的方法,并利用重要度采樣方法求解真實(shí)分布下的多目標(biāo)預(yù)估模型。
2.2 解決方案
設(shè)計(jì)思路: 一個(gè)可行的方案是,樣本池里的樣本先全部作為負(fù)樣本,發(fā)送給模型 訓(xùn)練。等正樣本回流的時(shí)候,再以補(bǔ)償正樣本的方式以樣本流形式發(fā)送給模型。這樣,因?yàn)檎龢颖径枷茸鳛樨?fù)樣本給模型訓(xùn)練多發(fā)了一次,模型訓(xùn)練時(shí),觀測(cè)到的樣本分布和實(shí)際樣本分布就會(huì)出現(xiàn)不一致。假設(shè)真實(shí)分布是 ,觀測(cè)分布是 ,由于多加了補(bǔ)償樣本,那么 。對(duì)于模型,我們希望在 下求解 。這個(gè)求解過(guò)程,本質(zhì)是在觀測(cè)分布下,求取原真實(shí)分布期望的問(wèn)題。這類問(wèn)題可以用重要度采樣方法求解。假設(shè)模型是 θ,參數(shù)為 θ, 是損失函數(shù),那么的模型 θ 的損失在真實(shí)分布下的期望L就是:
這里有個(gè)很強(qiáng)的假設(shè),邊緣分布 。因此,我們進(jìn)一步思考,如何設(shè)計(jì)可以讓這個(gè)假設(shè)成立。
數(shù)據(jù)流程: 因?yàn)椴糠钟脩魰?huì)“立即加購(gòu)”或“立即購(gòu)買”,部分正樣本會(huì)很快回流。因此,為避免一些不必要的假負(fù)樣本,我們建立一個(gè)數(shù)據(jù)流等待10分鐘窗口,窗口時(shí)間到達(dá)時(shí)向樣本流發(fā)送正負(fù)樣本。10分鐘外發(fā)生正樣本再以補(bǔ)償樣本形式進(jìn)入樣本流。具體的如下圖。首先,用 Holo 外存保存7天的樣本存儲(chǔ)作為歸因邏輯的樣本池。曝光發(fā)生10分鐘后,未發(fā)生加購(gòu)/轉(zhuǎn)化行為的樣本都作為負(fù)樣本進(jìn)入樣本流。當(dāng)實(shí)時(shí)的用戶正樣本進(jìn)入到tt數(shù)據(jù)流之后,與7天存儲(chǔ)的樣本進(jìn)行歸因,再將歸因后的補(bǔ)償正樣本注入樣本流。
數(shù)據(jù)邊緣分布: 通過(guò)上述數(shù)據(jù)流構(gòu)造,如下圖,設(shè)真實(shí)樣本的邊緣分布是 ,觀測(cè)樣本分布 。那么 會(huì)比 多出一部分重復(fù)(Duplicated)的假負(fù)樣本(Fake Negative)。因此,。因?yàn)橹匾炔蓸臃椒ㄓ须[含的假設(shè),邊緣分布 ,因此,這個(gè)差異會(huì)影響模型的精度。
真負(fù)樣本和真正樣本引入: 為了解決上述的分布差異,我們將7天存儲(chǔ)池里面,7天都沒(méi)有發(fā)生加購(gòu)的樣本,再作為補(bǔ)償負(fù)樣本,注入到樣本流。數(shù)據(jù)流程如下圖:
同時(shí),我們給窗口內(nèi)真正樣本2倍的訓(xùn)練權(quán)重。于是,如下圖,雖然樣本流看到2倍數(shù)量的樣本,但是,通過(guò)引入真負(fù)樣本和真正樣本,新的觀測(cè)分布 。觀測(cè)樣本構(gòu)成如下圖:
損失函數(shù):?在邊緣數(shù)據(jù)分布一致的情況下,觀測(cè)分布下求解?p(y=1|x)。推導(dǎo)后的損失函數(shù)為:
其中,[.]表示阻止梯度回傳, 是獨(dú)立訓(xùn)練和更新的分類器,用來(lái)預(yù)估假負(fù)樣本(Fake Negative)的概率。
真負(fù)樣本近似: 對(duì)于最終未轉(zhuǎn)化的負(fù)樣本,如果最終等到7天之后再補(bǔ)償進(jìn)入樣本流,可能會(huì)一定的時(shí)效性問(wèn)題,另外真負(fù)樣本的引入還涉及到線上鏈路的改造,實(shí)現(xiàn)成本過(guò)高。綜合考慮這些問(wèn)題,我們采用了一種近似補(bǔ)償真負(fù)樣本的方式:我們會(huì)設(shè)置另一個(gè) RelNeg 窗口,例如90分鐘~1天,如果樣本未在該窗口內(nèi)轉(zhuǎn)化,樣本會(huì)被作為近似補(bǔ)償真負(fù)樣本引入到樣本流中,我們實(shí)驗(yàn)發(fā)現(xiàn),由于時(shí)效性的增強(qiáng),近似真負(fù)樣本可以取得比真實(shí)真負(fù)樣本更好的效果。樣本流程如下圖:
???總結(jié)
在樣本延遲反饋建模這個(gè)問(wèn)題上,我們針對(duì)不同場(chǎng)景的特性和業(yè)務(wù)訴求,提出了天級(jí)樣本延遲建模和實(shí)時(shí)樣本延遲建模的不同解決方案。針對(duì)天級(jí)建模樣本標(biāo)簽不確定的問(wèn)題,我們使用一個(gè)多任務(wù)的結(jié)構(gòu),同時(shí)建模轉(zhuǎn)化模型和時(shí)延模型,隱式的通過(guò)時(shí)延模型影響實(shí)際轉(zhuǎn)化模型的標(biāo)簽分布;針對(duì)實(shí)時(shí)樣本延遲建模問(wèn)題,我們?cè)跇颖玖髦幸霕?biāo)簽確定的補(bǔ)償樣本,通過(guò)平衡標(biāo)簽的確定性和模型的實(shí)時(shí)性,取得了相對(duì)天級(jí)模型進(jìn)一步的收益。
目前我們的工作主要集中在樣本延遲建模,未來(lái)我們會(huì)將這部分工作與購(gòu)買行為稀疏性問(wèn)題和多目標(biāo)任務(wù)關(guān)聯(lián)性問(wèn)題結(jié)合,實(shí)現(xiàn)更加精準(zhǔn)的預(yù)測(cè),理解和傳達(dá)廣告主的目標(biāo)訴求,提升廣告主的營(yíng)銷能力。
參考文獻(xiàn)
[1] Siyu Gu, Xiang-Rong Sheng, Ying Fan, Guorui Zhou, Xiaoqiang Zhu. 2021. Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling. ?In Proceedings of the 27th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.
[2] Sofia Ira Ktena, Alykhan Tejani, Lucas Theis, Pranay Kumar Myana, Deepak Dilip-kumar, Ferenc Huszár, Steven Yoo, and Wenzhe Shi. 2019. Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR Prediction. In Proceedings of the 13th ACM Conference on Recommender Systems. 187–195.
[3] Jia-Qi Yang, Xiang Li, Shuguang Han, Tao Zhuang, De-Chuan Zhan, Xiaoyi Zeng, and Bin Tong. 2021. Capturing Delayed Feedback in Conversion Rate Prediction via Elapsed-Time Sampling. In Proceedings of the 35th AAAI Conference on Artificial Intelligence. 4582—4589.
[4] Olivier Chapelle. 2014. Modeling delayed feedback in display advertising. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 1097–1105.
END
歡迎關(guān)注「阿里媽媽技術(shù)」
瘋狂暗示↓↓↓↓↓↓↓
總結(jié)
以上是生活随笔為你收集整理的KDD 2021 | 一种使用真负样本的在线延迟反馈建模的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 品牌保量技术在阿里妈妈外投场景的应用
- 下一篇: 校招萌新在阿里妈妈是如何成长的