快手-中科大最新研究:利用对话式推荐解决用户冷启动问题
推薦系統(tǒng)冷啟動(dòng)通常分為三類,即用戶冷啟動(dòng)、物品冷啟動(dòng)還有系統(tǒng)冷啟動(dòng)。無(wú)論那種冷啟動(dòng)都因?yàn)橹挥休^少的數(shù)據(jù)和特征來(lái)訓(xùn)練模型,所有需要不同的技術(shù)方案來(lái)提升推薦效果。另外冷啟動(dòng)結(jié)合產(chǎn)品方案可以加速冷啟動(dòng)的過(guò)程。
其中用戶冷啟動(dòng)的問(wèn)題對(duì)于移動(dòng)互聯(lián)網(wǎng)基于內(nèi)容推薦產(chǎn)品中非常重要,不管是新產(chǎn)品還是體量很大的產(chǎn)品,都存在大量新用戶和低活用戶,即冷啟動(dòng)用戶。這部分用戶是 DAU 增長(zhǎng)的關(guān)鍵點(diǎn),但這些用戶交互數(shù)據(jù)很少甚至沒(méi)有,如何快速找到這部分用戶的興趣,是用推薦系統(tǒng)需要解決的關(guān)鍵問(wèn)題。
快手和中科大發(fā)表在 TOIS (ACM Transactions on Information Systems) 上的最新工作提出融合物品(視頻)和屬性的統(tǒng)一框架,用湯普森采樣結(jié)合對(duì)話式的方法為冷啟動(dòng)用戶做推薦。對(duì)話式推薦能夠通過(guò)向用戶提問(wèn)來(lái)快速獲得用戶興趣,而湯普森采樣能夠保持探索-利用的平衡,這兩點(diǎn)均有助于系統(tǒng)盡快地探索到冷啟動(dòng)用戶的興趣并利用已有知識(shí)進(jìn)行推薦。
論文標(biāo)題:
Seamlessly Unifying Attributes and Items: Conversational Recommendation for Cold-Start Users
論文鏈接:
https://arxiv.org/abs/2005.12979
本文著重研究?jī)蓚€(gè)關(guān)鍵點(diǎn):
1. 如何做到探索-利用的平衡。在推薦系統(tǒng)中,探索(Exploration)是指去主動(dòng)尋找未知的用戶潛在的興趣;利用(Exploitation)是指根據(jù)已有的經(jīng)驗(yàn)去估計(jì)用戶當(dāng)前的興趣并做出推薦。由于缺乏用戶行為歷史數(shù)據(jù),在為冷啟動(dòng)用戶做推薦時(shí)保持探索和利用的平衡尤為重要——我們既要盡快探索用戶對(duì)不同商品的興趣,又要盡可能利用當(dāng)前已經(jīng)獲得的知識(shí)來(lái)做出合適的推薦。這樣才能盡可能吸引新用戶和低活用戶,并提高留存率。
2. 對(duì)話式推薦方法。對(duì)話式推薦在推薦系統(tǒng)領(lǐng)域近來(lái)得到廣泛的關(guān)注。對(duì)話式推薦系統(tǒng)中的“對(duì)話”模塊能夠直接向用戶提問(wèn),并期望通過(guò)用戶的回答顯式地獲得用戶的興趣。提問(wèn)的形式可以多種多樣,本文考慮對(duì)物品的屬性進(jìn)行提問(wèn)。例如,在快手短視頻推薦的場(chǎng)景中,新用戶的應(yīng)用主界面會(huì)收到一個(gè)彈窗。
彈窗中列舉了一系列短視頻類型(屬性標(biāo)簽),并引導(dǎo)用戶去選擇自己喜歡的視頻類型。相比于間接地從歷史交互數(shù)據(jù)中進(jìn)行推斷,這些主動(dòng)選擇的屬性標(biāo)簽可以為推薦系統(tǒng)提供更準(zhǔn)確,更直接的用戶興趣信息,并幫助提供更好的推薦。在對(duì)話式推薦中,主要有三個(gè)核心的策略問(wèn)題:(1)問(wèn)什么問(wèn)題;(2)推薦什么物品;(3)當(dāng)前是問(wèn)問(wèn)題還是做推薦。
方法介紹
文章提出了一個(gè)統(tǒng)一的框架 ConTS,把物品和屬性建模到一個(gè)空間中,利用改進(jìn)的湯普森采樣算法 [1] 保持探索和利用的平衡,并使用一個(gè)統(tǒng)一的打分函數(shù)來(lái)統(tǒng)一解決對(duì)話式推薦中的三個(gè)核心問(wèn)題。
具體來(lái)說(shuō),文章研究用戶和推薦系統(tǒng)間的多輪對(duì)話推薦場(chǎng)景。首先用非冷啟動(dòng)用戶的歷史交互數(shù)據(jù)去分布訓(xùn)練一個(gè) FM 模型,得到所有歷史用戶,物品和屬性的 embedding 并為冷啟動(dòng)用戶做參數(shù)初始化。
在每輪對(duì)話開(kāi)始之前,首先從一個(gè)多維高斯分布中進(jìn)行采樣得到用戶當(dāng)前的 embedding,利用得到的 embedding 和用戶當(dāng)前已知喜歡的屬性對(duì)所有物品和屬性進(jìn)行打分。
如果得分最高的是物品,就向用戶推薦分?jǐn)?shù)最高的前 k 個(gè)物品;如果得分最高的是屬性,就向用戶詢問(wèn)對(duì)于這個(gè)屬性的喜好。如果用戶拒絕了推薦的物品或者提問(wèn)的屬性,在把拒絕的物品(屬性)從候選池中剔除后繼續(xù)對(duì)話過(guò)程。
如果用戶接受了推薦的物品,代表推薦成功并結(jié)束對(duì)話。如果用戶喜歡提問(wèn)的屬性,那么記錄下該屬性,并把當(dāng)前候選池中所有不含有該屬性標(biāo)簽的物品剔除。此外,如果在超過(guò)一個(gè)最大對(duì)話輪數(shù)(如 15 輪)用戶還未獲得滿意的推薦,認(rèn)為用戶會(huì)失去耐心并直接退出當(dāng)前對(duì)話。
本文把對(duì)話式推薦中所有的物品和屬性進(jìn)行統(tǒng)一建模,用一個(gè)相同的打分函數(shù)來(lái)決定所有的策略問(wèn)題。實(shí)驗(yàn)證明,這種統(tǒng)一建模的方式相比之前一些手動(dòng)設(shè)置對(duì)話策略的工作(如 ConUCB [2])更加智能和魯棒。此外,我們?cè)诖蚍趾瘮?shù)中引入了對(duì)用戶喜歡的屬性信息的建模,使得模型能夠更好地利用用在對(duì)話過(guò)程中直接獲得的用戶興趣。
下面的式子就是我們的打分函數(shù),其中 是采樣得到的用戶 embedding, 是物品/屬性的 embedding, 是在對(duì)話中獲得的用戶喜歡的屬性集合, 是這些屬性的 embedding。
每輪推薦或者提問(wèn)之后,會(huì)根據(jù)用戶的反饋更新用戶 embedding 服從的高斯分布的參數(shù),具體更新方式如下:
?????
文章把湯普森采樣運(yùn)用在對(duì)話式推薦中,并更具加入的初始化過(guò)程和用戶喜歡屬性信息建模調(diào)整了參數(shù)的更新方式。湯普森采樣是一種經(jīng)典的 Bandit 算法,目的是在推薦過(guò)程中保持探索-利用的平衡,使得在一定時(shí)間內(nèi)的收益損失有一個(gè)理論的上界。
在這里假設(shè)用戶的 embedding 服從一個(gè)多維高斯分布 ,并不斷利用用戶反饋更新其均值 和協(xié)方差 。
實(shí)驗(yàn)效果
?
文章在兩個(gè)經(jīng)典數(shù)據(jù)集 Yelp,LastFM 和一個(gè)從快手平臺(tái)上收集的數(shù)據(jù)集 Kuaishou 上進(jìn)行了詳盡的實(shí)驗(yàn)。首先把 ConTS 和幾個(gè)現(xiàn)有方法做比較,并進(jìn)行了消融實(shí)驗(yàn)。結(jié)果如下:
表格中比較的是 15 輪的推薦成功率和平均推薦成功輪數(shù),圖中展示的 1-15 輪的推薦成功率的相對(duì)差值。可以看到在每個(gè)指標(biāo)上 ConTS 都顯著優(yōu)于已有的方法。三個(gè)消融實(shí)驗(yàn)分別去掉了模型中初始化,用戶喜歡屬性建模和探索模塊,結(jié)果驗(yàn)證了這些設(shè)計(jì)對(duì)模型表現(xiàn)的重要性。
此外,我們還探究了不同的 Bandit 方法——湯普森采樣和上置信界算法對(duì)我們模型的影響。我們用同樣的方式把上置信界算法進(jìn)行改進(jìn)以適應(yīng)對(duì)話式推薦場(chǎng)景,并于 ConTS 進(jìn)行比較,結(jié)果如下:
可以看到湯普森采樣在我們的場(chǎng)景下表現(xiàn)更好。文章還研究了在最大對(duì)話輪數(shù)更小(7 和 10)下的情況,ConTS 仍然顯著優(yōu)于其他方法;探究了在不同程度冷啟動(dòng)條件下模型之間的差異,結(jié)果表明 ConTS 適合冷啟動(dòng)場(chǎng)景而其他一些方法如 EAR [3] 適合熱啟動(dòng)場(chǎng)景。最后用三個(gè)案例分析探究了不同方法在實(shí)際對(duì)話過(guò)程中的策略差異。
?
結(jié)論
如何為冷啟動(dòng)用戶做推薦是學(xué)術(shù)界和工業(yè)界研究的熱點(diǎn)問(wèn)題之一。這篇論文利用對(duì)話式推薦結(jié)合湯普森采樣的方式,提出了一個(gè)融合物品和屬性的統(tǒng)一模型來(lái)解決該問(wèn)題。在保持探索-利用平衡的同時(shí),用對(duì)話的方式直接快速地獲得用戶的興趣,以此幫助系統(tǒng)更好地為冷啟動(dòng)用戶進(jìn)行推薦。實(shí)驗(yàn)結(jié)果表明,該模型相對(duì)現(xiàn)有方法具有較大優(yōu)勢(shì)。
參考文獻(xiàn)
[1] Shipra Agrawal and Navin Goyal. 2013. Thompson sampling for contextual bandits with linear payoffs. In ICML.127–135.
[2]? Xiaoying Zhang, Hong Xie, Hang Li, and John Lui. 2020. Conversational Contextual Bandit: Algorithm and Application.In WWW.
[3]? Wenqiang Lei, Xiangnan He, Yisong Miao, Qingyun Wu, Richang Hong, Min-Yen Kan, and Tat-Seng Chua. 2020.Estimation–Action–Reflection: Towards Deep Interaction Between Conversational and Recommender Systems. InWSDM.
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的快手-中科大最新研究:利用对话式推荐解决用户冷启动问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 市净率为负是什么意思
- 下一篇: CVPR 2021 | 基于跨任务场景结