内容流推荐中的个性化标题生成框架
最近讀了兩篇微軟亞研院的論文,關(guān)于新聞內(nèi)容流推薦的,簡(jiǎn)單分享一下,主要包含兩部分,第一部分《NPA: Neural News Recommendation with Personalized Attention》主要是怎么實(shí)現(xiàn)個(gè)性化新聞推薦,第二部分《PENS: A Dataset and Generic Framework for Personalized News Headline Generation》闡述怎么實(shí)現(xiàn)個(gè)性化標(biāo)題的生成。
對(duì)于個(gè)性化標(biāo)題生成的在業(yè)務(wù)中的真實(shí)作用,實(shí)踐過(guò)的人都會(huì)有自己的看法,筆者在這里不做過(guò)多評(píng)價(jià)了,從學(xué)習(xí)或者了解的角度出發(fā),我們來(lái)看看這個(gè)方向的研究。
內(nèi)容推薦作為一個(gè)推薦系統(tǒng)的一個(gè)子任務(wù),常規(guī)推薦的思路,例如協(xié)同過(guò)濾等當(dāng)然可以用于內(nèi)容召回以及候選內(nèi)容的排序。但是,與傳統(tǒng)的穩(wěn)態(tài)推薦任務(wù)不同,內(nèi)容推薦有其特有的挑戰(zhàn)。尤其是在新聞內(nèi)容上,大部分會(huì)因?yàn)闀r(shí)效性原因無(wú)法再被推薦出來(lái),同時(shí)會(huì)快速地出現(xiàn)新內(nèi)容,急需推送給需要它的讀者,這就帶來(lái)了嚴(yán)重的Item冷啟動(dòng)問(wèn)題。這也使得基于協(xié)同過(guò)濾的方法直接應(yīng)用于新聞推薦的場(chǎng)景時(shí),有了諸多問(wèn)題。
在了解上圖的基于個(gè)性化注意力機(jī)制的新聞推薦之前,我們先從可視化的角度來(lái)看看論文中一些關(guān)于Attention有意思的展示。
從圖中可以發(fā)現(xiàn),基于個(gè)性化注意力機(jī)制的新聞推薦模型能識(shí)別和選擇重要的Words和News。例如,football、nba這樣的詞語(yǔ)對(duì)于推測(cè)新聞的主題很有幫助,因此被高亮,而像 every這樣的詞語(yǔ)則信息量較低。對(duì)于新聞而言,例如第4條新聞被高亮,因?yàn)樗軌蚝芎玫胤从秤脩舻呐d趣,而如第3和第5條新聞則可能被各種類型的用戶瀏覽,沒(méi)有興趣區(qū)分度,因此獲得了較低的權(quán)重。
回過(guò)頭我們來(lái)看看模型架構(gòu)層面,比較簡(jiǎn)單,一個(gè)將詞語(yǔ)序列轉(zhuǎn)化為語(yǔ)義向量序列的詞嵌入層,一個(gè)用于建模局部上下文的 CNN 層,和一個(gè)Word級(jí)的Self-Attention,后面是通過(guò)內(nèi)積計(jì)算得到候選集中的Item預(yù)測(cè)分?jǐn)?shù)。負(fù)采樣方面,將每個(gè)用戶點(diǎn)擊的新聞(視為正樣本)搭配 K 個(gè)在同一個(gè)會(huì)話內(nèi)展示而沒(méi)有被用戶點(diǎn)擊的新聞視為負(fù)樣本。對(duì)于這種采樣,筆者之前寫過(guò)挺多的對(duì)比總結(jié)性文章,有興趣的同學(xué)可以翻翻以往文章,看看這里是不是還有提升改進(jìn)的可能性。
先放框架,再來(lái)聊一聊,從上圖比較清晰的發(fā)現(xiàn),左側(cè)Transformer Encoder編碼候選集合中的文本信息,然后通過(guò)Attention學(xué)習(xí)正文單詞的隱藏表示。而在右側(cè),就是通過(guò)用戶點(diǎn)擊過(guò)的內(nèi)容得到User Embedding,而個(gè)性化層面架構(gòu)中給出了3種方式,第一種是將User Embedding作為指針網(wǎng)絡(luò)解碼器的初始隱藏狀態(tài)Decoder Hidden States;第二種是加入左側(cè)的Attention的計(jì)算中,區(qū)分用戶對(duì)內(nèi)容的關(guān)注程度;第三種是最右側(cè)的方式,將User Embedding加入到Pgen的計(jì)算中。
三種方式的效果如下:
參考資料
- https://www.zhihu.com/question/23644385/answer/914251962
- https://www.microsoft.com/en-us/research/uploads/prod/2021/06/ACL2021_PENS_Camera_Ready_1862_Paper.pdf
- https://zhuanlan.zhihu.com/p/396306358
- https://arxiv.org/pdf/1907.05559.pdf
- GitHub地址:https://msnews.github.io/pens.html
總結(jié)
以上是生活随笔為你收集整理的内容流推荐中的个性化标题生成框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 再谈序列化推荐-集成item类目属性
- 下一篇: PyCaret:又一个神仙ML库