搜索推荐炼丹笔记:CVR预估中的延迟反馈问题
CVR預(yù)估中的延遲反饋問題
一元@煉丹筆記問題描述
在很多推薦搜索的建模中,我們經(jīng)常會(huì)使用D+1天的數(shù)據(jù)作為label,從1~D天的數(shù)據(jù)中的進(jìn)行特征抽取等工作,和我們時(shí)間序列問題建模類似,但和很多其他的時(shí)間序列問題建模不一樣的地方在于,我們的label不一定可靠,比如在傳統(tǒng)的時(shí)間序列回歸中,D+1天的銷量是多少就是多少,我們沒有太多的猶豫,因?yàn)椴淮髸?huì)有其他的情況。但是在電商的問題中,就存在下面這種情況:
D+1天未購買可能并不一定是真正意義上的未購買,而可能是加入購物車或者意愿清單了, 只是沒有在當(dāng)天下單, 而是過了一天在D+2天的時(shí)候下了單, 而這樣的標(biāo)簽如果我們直接默認(rèn)其為負(fù)樣本就會(huì)有較大的問題,因?yàn)樗⒉皇钦嬲饬x上的負(fù)樣本,只是反饋延遲了。這在搜索推薦系統(tǒng)中,我們稱之為延遲反饋的問題。
問題嚴(yán)峻性
看到這么個(gè)描述,我們似乎有了一個(gè)直觀的理解,但是可能并不會(huì)過于重視,我們直觀感受是,是的,但是可能比例不會(huì)很高吧,有必要重視嗎?下面我們看一組數(shù)據(jù):在Criteo公司早期,
- 有35%的商品會(huì)在點(diǎn)擊后一個(gè)小時(shí)內(nèi)得到轉(zhuǎn)化;
- 有50%的商品會(huì)在點(diǎn)擊后24h內(nèi)得到轉(zhuǎn)化;
- 有13%的商品會(huì)在點(diǎn)擊后2周之后才得到轉(zhuǎn)化。
這么看來問題還是十分嚴(yán)峻的,那么如何解決該問題呢?
Modelling Delayed Feedback in Display Ad
eCPM
這個(gè)問題較早在2014文章Modelling Delayed Feedback in Display Advertising中被提出,當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)等還沒那么流行,但是解決的思路非常值得借鑒?在廣告推薦中,有一個(gè)指標(biāo)價(jià)值是非常大的,eCPM=CPA?P(conversion,click)=CPA?P(click)?P(conversion|click),
- CPA: Cost per conversion, 廣告商愿意為每個(gè)轉(zhuǎn)化支付的金額, 如果eCPM高的話,意味著我們可能獲得更多的錢。
從上面這點(diǎn)可以看出,我們希望能很好地預(yù)估某個(gè)廣告的轉(zhuǎn)化概率(最終轉(zhuǎn)化即可,對應(yīng)到下文P(C=1|X=x).
問題建模
變量定義
我們先定義五個(gè)變量,
假設(shè)
問題表示
損失函數(shù) & 問題求解
損失函數(shù):
問題求解:
我們的優(yōu)化問題中,有兩個(gè)變量和,論文中提出了兩種求解方案,基于EM算法的求解以及基于梯度下降的策略。
小結(jié)
本文針對轉(zhuǎn)化回傳的延遲問題提出了一種新的建模方式,不把還沒觀察到轉(zhuǎn)化樣本直接當(dāng)做負(fù)樣本處理,而是考慮其距離當(dāng)前點(diǎn)擊發(fā)生的時(shí)間長短給予模型不同權(quán)重的梯度,在建模的時(shí)候考慮延遲轉(zhuǎn)化的時(shí)間信息,實(shí)驗(yàn)的結(jié)果也驗(yàn)證了該方案的有效性。當(dāng)然直觀的看本文的方案,我們也可以看到本文的幾點(diǎn)不足,我們假設(shè)發(fā)生轉(zhuǎn)化的延遲時(shí)間為指數(shù)分布,這種假設(shè)可能還不夠?qū)挿?#xff1b;能否替換為其他的更好的函數(shù)值得考慮。
總結(jié)
以上是生活随笔為你收集整理的搜索推荐炼丹笔记:CVR预估中的延迟反馈问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Model Search:炼丹师最强危机
- 下一篇: 标签修正:CVR预估时间延迟问题