當(dāng)前位置：首頁 >

KDD 2021 | 一种使用真负样本的在线延迟反馈建模

發(fā)布時間：2023/12/15 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 KDD 2021 | 一种使用真负样本的在线延迟反馈建模小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

???摘要

電商場景的多目標(biāo)模型預(yù)估，包括加購率，轉(zhuǎn)化率，進(jìn)店，時長等等。在展示廣告領(lǐng)域，多目標(biāo)體現(xiàn)了廣告主對自己真實訴求的表達(dá)，因此，多目標(biāo)模型既是技術(shù)項目，也有強(qiáng)烈的業(yè)務(wù)屬性。廣告排序系統(tǒng)，從上到下包含產(chǎn)品設(shè)計，機(jī)制策略，精排，粗排，召回，索引等多個模塊。整個系統(tǒng)能否從上游業(yè)務(wù)承接到下游底層實現(xiàn)，理解和傳達(dá)廣告主的目標(biāo)訴求是重中之重，多目標(biāo)模型面臨很多與 CTR 預(yù)估不同的問題。

樣本反饋延遲性： 購買行為發(fā)生在點擊后，且不確定間隔時間。這一點在大促期間更明顯。這導(dǎo)致我們訓(xùn)練模型的時候負(fù)樣本包含兩種不確定情況，即真負(fù)樣本（用戶不購買）和假負(fù)樣本（用戶會在未來的某個時刻購買）。如何既利用這部分負(fù)樣本，又降低這部分樣本帶來的不確定性是我們亟待解決的問題。樣本延遲建模是多目標(biāo)模型區(qū)別于 CTR 模型的最主要的子方向之一。

購買行為稀疏性： 相比于點擊用戶行為，加購、購買的用戶行為數(shù)據(jù)準(zhǔn)確而稀疏。數(shù)據(jù)量不充足將直接影響復(fù)雜模型的學(xué)習(xí)效果。那么如何利用稀疏數(shù)據(jù)設(shè)計模型，高效掌握用戶興趣是研究重點。因此，我們有興趣分層建模研究子方向，專門解決這類問題。

多目標(biāo)任務(wù)關(guān)聯(lián)性： 加購和購買具有較強(qiáng)的相關(guān)性，比如先加購后購買。區(qū)別于點擊行為，一個用戶的加購、購買、進(jìn)店、關(guān)注等行為會有明顯的目標(biāo)相關(guān)性。業(yè)界也有ESMM，MMOE，PLE等模型。這個方向?qū)Ｗ⒂跇?gòu)建統(tǒng)一模型，既利用多任務(wù)之間的關(guān)聯(lián)性，又能夠避免優(yōu)化方向上的沖突，同時還能解耦統(tǒng)一建模帶來的迭代瓶頸問題。

本文著重介紹樣本延遲建模，這個方向解決購買行為晚于點擊導(dǎo)致的延遲反饋問題。2020年6月起，我們通過多任務(wù)延遲建模結(jié)構(gòu)，使天級 CVR 模型可以識別和利用近期尚未轉(zhuǎn)化的樣本；并建立考慮延遲建模問題的實時模型方法（ODL）。該項工作論文已發(fā)表在KDD 2021《Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling》 [1]。本文將圍繞天級和實時兩個角度為大家分享，歡迎交流討論。

論文下載：https://arxiv.org/abs/2104.14121

???1 精排天級樣本延遲建模（Offline Defer）

1.1 背景

在轉(zhuǎn)化數(shù)據(jù)稀疏的情況下，即使淘系的數(shù)據(jù)量，也并非所有場景都可以通過實時ODL模型獲得收益，甚至效果還會更差。因此，天級轉(zhuǎn)化樣本延遲建模方案，是多目標(biāo)模型優(yōu)化的重要方向。

場景發(fā)生廣告點擊后，用戶7天之內(nèi)發(fā)生購買，都會歸因到這條廣告。由于購買行為的發(fā)生晚于點擊很多，因此，天級模型訓(xùn)練的時候，最近幾天的 label 很可能不準(zhǔn)確。針對這個問題，常用做法是：

第一、以7天前數(shù)據(jù)進(jìn)行模型訓(xùn)練，可以得到7天轉(zhuǎn)化模型，但是7天內(nèi)樣本缺失會使模型捕捉不到近7天的數(shù)據(jù)分布變化。

第二、以1天歸因轉(zhuǎn)化 label 進(jìn)行模型訓(xùn)練，可以保證時效性。但由于 n 天后才轉(zhuǎn)化的樣本都被標(biāo)記成了負(fù)樣本，這樣的模型對轉(zhuǎn)化周期長的樣本，比如某些很貴的商品，顯然是有偏的。

因此，我們的問題是，如何有效利用近6天樣本，去優(yōu)化7天歸因轉(zhuǎn)化的天級模型。我們提出一種天級樣本延遲建模方式，通過一個端到端的多任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)，同時建模轉(zhuǎn)化模型和時延模型，隱式的通過時延模型影響實際轉(zhuǎn)化模型的標(biāo)簽分布，達(dá)到準(zhǔn)確學(xué)習(xí)7天轉(zhuǎn)化模型的目的。

1.2 解決方案

設(shè)計思路： ?既然觀測到的負(fù)樣本包含假負(fù)樣本，一個直觀的想法是能否分別建模轉(zhuǎn)化模型和時延模型，然后通過時延模型預(yù)估這條樣本到模型訓(xùn)練時刻已經(jīng)發(fā)生轉(zhuǎn)化的概率，作為該負(fù)樣本的不確定性，從而給每條負(fù)樣本一個合理權(quán)重，降低假負(fù)樣本帶來的影響。那么首先一個問題，淘系的商品的轉(zhuǎn)化時延，是可建模的嗎？于是我們進(jìn)行調(diào)研，按照分類，統(tǒng)計某場景歸因的1天轉(zhuǎn)化/7天轉(zhuǎn)化的比值來看，不同分類的轉(zhuǎn)化周期有明顯差異。按照用戶購買力統(tǒng)計，也是類似結(jié)論。基于上述分析，轉(zhuǎn)化周期（時延模型）在淘系廣告產(chǎn)品是可建模的。

2014年 Olivier Chapelle 和 Yuya Yoshikawa 等人 [4] 針對這個問題提出過解決方案，但他們的方案對轉(zhuǎn)化模型和時延模型分開建模，且假設(shè)服從指數(shù)分布。這個假設(shè)并不合理，并且分開建模也損失了兩個模型的關(guān)聯(lián)。因此，我們思考，能否通過一個端到端的網(wǎng)絡(luò)同時建模轉(zhuǎn)化模型和時延模型，更方便的解決樣本延遲問題。

數(shù)據(jù)流程： 天級生成轉(zhuǎn)化樣本，每個樣本包含7個 label，,,…,。每個 label 表示截止第 n 天，這天樣本是否發(fā)生轉(zhuǎn)化。7天前的樣本都可以按照通常的邏輯生成樣本。7天以內(nèi)的樣本，由于尚未到達(dá)歸因結(jié)束的時間，因此這部分負(fù)樣本隨時間推移有可能因為用戶的突然轉(zhuǎn)化，而變成正樣本。因此，7天以內(nèi)的樣本需要每天更新一次 label。

網(wǎng)絡(luò)結(jié)構(gòu)： 區(qū)別于相關(guān)工作的方案，我們直接建立端到端訓(xùn)練的多任務(wù)模型。如圖所示，網(wǎng)絡(luò)結(jié)構(gòu)最后一個后端是轉(zhuǎn)化模型，簡寫為 P(7)，表示7天可以發(fā)生轉(zhuǎn)化的概率。類似的簡寫是 n 天轉(zhuǎn)化模型。網(wǎng)絡(luò)結(jié)構(gòu)前幾個結(jié)點是時延模型，表示7天內(nèi)可以發(fā)生轉(zhuǎn)化且在第 n 天已經(jīng)發(fā)生轉(zhuǎn)化的概率，=1,2,..,6。那么，截止第 n 天可以收到正樣本的概率最終7天轉(zhuǎn)化的概率前 n 天發(fā)生轉(zhuǎn)化的概率。每一個后端通過“樣本到第 n 天是否已經(jīng)發(fā)生轉(zhuǎn)化”的信息進(jìn)行監(jiān)督。這樣，即使部分樣本尚未到7天歸因時間，模型也可以利用前7天內(nèi)的樣本，通過的反向傳播訓(xùn)練7天轉(zhuǎn)化率。具體訓(xùn)練方式：

7天以前的樣本，由于 n 個后端的 label 存在，可以同時學(xué)習(xí) 和相關(guān)參數(shù)；
7天以內(nèi)化樣本，假設(shè)時延分布不變，間接學(xué)習(xí) 相關(guān)參數(shù)。比如4天內(nèi)的樣本，的后端可以拿到完整 label，并參與訓(xùn)練。的后端則不參與梯度回傳。

???2 精排實時樣本延遲建模（Online Defer）

2.1 背景

我們統(tǒng)計發(fā)現(xiàn)，即使大盤加購率/轉(zhuǎn)化率，在1天內(nèi)也會有超過20%的變化。因此，判斷實時多目標(biāo)模型存在收益空間。由于購買行為的發(fā)生晚于點擊很多，因此，如果直接復(fù)用CTR實時樣本流，10分鐘的等待窗口會導(dǎo)致數(shù)據(jù)流拿到的負(fù)樣本比例明顯虛高。因此，觀測樣本分布與實際樣本分布會有明顯差異。

所以需要解決的問題是：如何在流式環(huán)境下，拿到盡可能正確的多目標(biāo)觀測樣本，并通過建模方法求解真實分布下的轉(zhuǎn)化率預(yù)估模型。我們提出一種可以從理論上保證觀測邊緣分布等于真實邊緣分布的方法，并利用重要度采樣方法求解真實分布下的多目標(biāo)預(yù)估模型。

2.2 解決方案

設(shè)計思路： 一個可行的方案是，樣本池里的樣本先全部作為負(fù)樣本，發(fā)送給模型訓(xùn)練。等正樣本回流的時候，再以補(bǔ)償正樣本的方式以樣本流形式發(fā)送給模型。這樣，因為正樣本都先作為負(fù)樣本給模型訓(xùn)練多發(fā)了一次，模型訓(xùn)練時，觀測到的樣本分布和實際樣本分布就會出現(xiàn)不一致。假設(shè)真實分布是，觀測分布是，由于多加了補(bǔ)償樣本，那么。對于模型，我們希望在下求解。這個求解過程，本質(zhì)是在觀測分布下，求取原真實分布期望的問題。這類問題可以用重要度采樣方法求解。假設(shè)模型是 θ，參數(shù)為 θ，是損失函數(shù)，那么的模型 θ 的損失在真實分布下的期望L就是：

這里有個很強(qiáng)的假設(shè)，邊緣分布。因此，我們進(jìn)一步思考，如何設(shè)計可以讓這個假設(shè)成立。

數(shù)據(jù)流程： 因為部分用戶會“立即加購”或“立即購買”，部分正樣本會很快回流。因此，為避免一些不必要的假負(fù)樣本，我們建立一個數(shù)據(jù)流等待10分鐘窗口，窗口時間到達(dá)時向樣本流發(fā)送正負(fù)樣本。10分鐘外發(fā)生正樣本再以補(bǔ)償樣本形式進(jìn)入樣本流。具體的如下圖。首先，用 Holo 外存保存7天的樣本存儲作為歸因邏輯的樣本池。曝光發(fā)生10分鐘后，未發(fā)生加購/轉(zhuǎn)化行為的樣本都作為負(fù)樣本進(jìn)入樣本流。當(dāng)實時的用戶正樣本進(jìn)入到tt數(shù)據(jù)流之后，與7天存儲的樣本進(jìn)行歸因，再將歸因后的補(bǔ)償正樣本注入樣本流。

數(shù)據(jù)邊緣分布： 通過上述數(shù)據(jù)流構(gòu)造，如下圖，設(shè)真實樣本的邊緣分布是，觀測樣本分布。那么會比多出一部分重復(fù)（Duplicated）的假負(fù)樣本（Fake Negative）。因此，。因為重要度采樣方法有隱含的假設(shè)，邊緣分布，因此，這個差異會影響模型的精度。

真負(fù)樣本和真正樣本引入： 為了解決上述的分布差異，我們將7天存儲池里面，7天都沒有發(fā)生加購的樣本，再作為補(bǔ)償負(fù)樣本，注入到樣本流。數(shù)據(jù)流程如下圖：

同時，我們給窗口內(nèi)真正樣本2倍的訓(xùn)練權(quán)重。于是，如下圖，雖然樣本流看到2倍數(shù)量的樣本，但是，通過引入真負(fù)樣本和真正樣本，新的觀測分布。觀測樣本構(gòu)成如下圖：

損失函數(shù)：?在邊緣數(shù)據(jù)分布一致的情況下，觀測分布下求解?p(y=1|x)。推導(dǎo)后的損失函數(shù)為：

其中，[.]表示阻止梯度回傳，是獨立訓(xùn)練和更新的分類器，用來預(yù)估假負(fù)樣本(Fake Negative)的概率。

真負(fù)樣本近似： 對于最終未轉(zhuǎn)化的負(fù)樣本，如果最終等到7天之后再補(bǔ)償進(jìn)入樣本流，可能會一定的時效性問題，另外真負(fù)樣本的引入還涉及到線上鏈路的改造，實現(xiàn)成本過高。綜合考慮這些問題，我們采用了一種近似補(bǔ)償真負(fù)樣本的方式：我們會設(shè)置另一個 RelNeg 窗口，例如90分鐘~1天，如果樣本未在該窗口內(nèi)轉(zhuǎn)化，樣本會被作為近似補(bǔ)償真負(fù)樣本引入到樣本流中，我們實驗發(fā)現(xiàn)，由于時效性的增強(qiáng)，近似真負(fù)樣本可以取得比真實真負(fù)樣本更好的效果。樣本流程如下圖：

???總結(jié)

在樣本延遲反饋建模這個問題上，我們針對不同場景的特性和業(yè)務(wù)訴求，提出了天級樣本延遲建模和實時樣本延遲建模的不同解決方案。針對天級建模樣本標(biāo)簽不確定的問題，我們使用一個多任務(wù)的結(jié)構(gòu)，同時建模轉(zhuǎn)化模型和時延模型，隱式的通過時延模型影響實際轉(zhuǎn)化模型的標(biāo)簽分布；針對實時樣本延遲建模問題，我們在樣本流中引入標(biāo)簽確定的補(bǔ)償樣本，通過平衡標(biāo)簽的確定性和模型的實時性，取得了相對天級模型進(jìn)一步的收益。

目前我們的工作主要集中在樣本延遲建模，未來我們會將這部分工作與購買行為稀疏性問題和多目標(biāo)任務(wù)關(guān)聯(lián)性問題結(jié)合，實現(xiàn)更加精準(zhǔn)的預(yù)測，理解和傳達(dá)廣告主的目標(biāo)訴求，提升廣告主的營銷能力。

參考文獻(xiàn)

[1] Siyu Gu, Xiang-Rong Sheng, Ying Fan, Guorui Zhou, Xiaoqiang Zhu. 2021. Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling. ?In Proceedings of the 27th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

[2] Sofia Ira Ktena, Alykhan Tejani, Lucas Theis, Pranay Kumar Myana, Deepak Dilip-kumar, Ferenc Huszár, Steven Yoo, and Wenzhe Shi. 2019. Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR Prediction. In Proceedings of the 13th ACM Conference on Recommender Systems. 187–195.

[3] Jia-Qi Yang, Xiang Li, Shuguang Han, Tao Zhuang, De-Chuan Zhan, Xiaoyi Zeng, and Bin Tong. 2021. Capturing Delayed Feedback in Conversion Rate Prediction via Elapsed-Time Sampling. In Proceedings of the 35th AAAI Conference on Artificial Intelligence. 4582—4589.

[4] Olivier Chapelle. 2014. Modeling delayed feedback in display advertising. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 1097–1105.

END

歡迎關(guān)注「阿里媽媽技術(shù)」

瘋狂暗示↓↓↓↓↓↓↓

總結(jié)

以上是生活随笔為你收集整理的KDD 2021 | 一种使用真负样本的在线延迟反馈建模的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：品牌保量技术在阿里妈妈外投场景的应用
下一篇：校招萌新在阿里妈妈是如何成长的