當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

负样本修正：CVR预估时间延迟问题

發布時間：2025/3/8 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了负样本修正：CVR预估时间延迟问题小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

你的標簽錯了,而且錯了很多！

一元@煉丹筆記

在推薦搜索的建模中，我們經常會使用D+1天的數據作為label,從1~D天的數據中的進行特征抽取等工作,和我們時間序列問題建模類似,但和很多其他的時間序列問題建模不一樣的地方在于,我們的label不一定可靠,比如在傳統的時間序列回歸中,D+1天的銷量是多少就是多少,我們沒有太多的猶豫,因為不大會有其他的情況。但是在電商的問題中,就存在下面這種情況：

D+1天未購買可能并不一定是真正意義上的未購買,而可能是加入購物車或者意愿清單了, 只是沒有在當天下單, 而是過了一天在D+2天的時候下了單, 而這樣的標簽如果我們直接默認其為負樣本就會有較大的問題,因為它并不是真正意義上的負樣本，只是反饋延遲了。

這在搜索推薦系統中,我們稱之為延遲反饋的問題。

那么這個問題嚴重嗎？如果只有1%不到的數據在第二天甚至之后出現了延遲,那么或許并不是一個問題，但實際呢？在Criteo公司早期，

有35%的商品會在點擊后一個小時內得到轉化；
有50%的商品會在點擊后24h內得到轉化；
有13%的商品會在點擊后2周之后才得到轉化。

那么如何解決該問題呢？

對時間延遲建模

這個問題較早在2014文章Modelling Delayed Feedback in Display Advertising中被提出，該文十分經典，同時提出的問題十分具有實踐價值,但是已經過去了6年, 本文我們就研討最新的IJCAI20關于CVR預估標簽延遲的paper.《An Attention-based Model for CVR with Delayed Feedback via Post-Click Calibration》。

2.時間延遲模型

2.1 關系梳理

和《Modeling Delayed Feedback in Display Advertising》論文中類似,我們還需要得到

我們將轉換的延遲時間全部轉化為天的粒度, 在Survival Analysis中我們知道, 只要得到其中任意一個的表示，就可以得到其他的表示，也就是說我們對f(t)或者s(t)進行假設之后,就可以推導得到f(t),h(t)以及s(t)三者的表示.

2.2 網絡表示

那么接下來我們只需要看一下該概率是如何通過網絡層進行表示的，具體可以參考文章給出的右側的網絡大致框架進行解讀。和之前的一樣，我們由后往前看,

實驗結果

1.整體性能比較：

我們看一下本文的實驗結果，

從上面的實驗中，我們發現：

- Item的Embedding初始化對效果的影響是巨大的;
- Time Delay模塊的影響僅次于Item的Embedding初始化;
- SelfAttention的影響是WP1和JD-MP數據集上的影響是相對較小的。

2.Time Delay分析:

我們從Figure2中可以看到,我們的在訓練集和測試集上的時間延遲分布是類似的，此處我們用Jensen-Shannon divergence來刻畫不同模型對于time delay的預測，而從結果上看，本文的算法對于時間延遲的預測也是最好的。

一本有仙氣的筆記，記錄了AI里的不凡

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的负样本修正：CVR预估时间延迟问题的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Normalization在CTR问题中
下一篇：当推荐系统遇上用户画像：你的画像是怎么来

生活随笔

生活随笔

编程问答

负样本修正：CVR预估时间延迟问题

你的標簽錯了,而且錯了很多！

對時間延遲建模

最新延遲反饋論文解讀

問題背景

模型部分

數據稀疏性問題

轉化模型&時間延遲模型

2.時間延遲模型

實驗結果

總結