推荐系统笔记(八):推荐系统中的长尾效应
背景
????????長尾(The Long Tail)這一概念是由“連線”雜志主編克里斯·安德森(Chris Anderson)在2004年十月的“長尾” 一文中最早提出,用來描述諸如亞馬遜和Netflix之類網(wǎng)站的商業(yè)和經(jīng)濟(jì)模式。
????????
? ? ? ? 事實證明80%以上的點(diǎn)擊集中在20%流行內(nèi)容之中,如上圖所示。?
? ? ? ? 在推薦系統(tǒng)中,長尾意味著推薦系統(tǒng)傾向于推薦熱門商品,而忽略了非熱門的商品,這樣熱門的越來越熱門,冷門的越來越冷門,長期下去,會對總體點(diǎn)擊率產(chǎn)生壞的影響。
原因
為什么需要解決長尾效應(yīng):
????????1. 用戶不可能多次點(diǎn)擊同一個熱門商品,用戶購買過了商品后再看到這個商品回引起反感。
????????2. 推薦種類太少,很多用戶是感性消費(fèi)。
????????3. 每個用戶都有自己的癖好,為了提升用戶個性化體驗。
解決方案
? ? ? ? · 解決曝光偏差(曝光偏差是指用戶看到的商品是有限的,看不到他喜歡的商品,反而推薦的不喜歡的商品):
????????1.Heuristic:加權(quán)的矩陣分解以及動態(tài)MF,未觀測到的交互被賦予較低的權(quán)重,但挑戰(zhàn)性較強(qiáng),不易于實現(xiàn)。
????????2.Sampling:采樣,經(jīng)常采用的采樣策略有均勻的負(fù)采樣,對于流行的負(fù)樣本過采樣,但是這些策略卻較難捕捉到真實的負(fù)樣本。
????????3.Exposure-based model:開發(fā)基于曝光的模型,這樣可以知道一個商品被曝光到某個用戶的可能性等。
? ? ? ? · 解決流行度偏差(流行度偏差是指推薦熱門商品的頻率比數(shù)據(jù)集中顯示的原始受歡迎程度還要高,因為模型通常會給熱門項目的評分高于其理想值,簡單地將不受歡迎的商品預(yù)測為負(fù)值):
????????1.正則:合適的正則可以將模型推向平衡的推薦列表。
????????2. 對抗訓(xùn)練:通過G和D之間的對抗學(xué)習(xí),D學(xué)習(xí)流行項和利基項之間的隱式關(guān)聯(lián),G學(xué)習(xí)捕捉更多與用戶歷史相關(guān)的niche商品,從而為用戶推薦更多長尾商品。
????????3. Causal graph:因果圖是反事實推理的有力工具。
????????4. 其它方法:propensity score也可以被用來做popularity的bias。通過降低流行項對模型訓(xùn)練的影響,可以減輕流行偏差。
總結(jié)
????????目前的推薦系統(tǒng)或者推薦算法,很難發(fā)現(xiàn)用戶的隱性需求,需要調(diào)整長尾效應(yīng)中商品推薦的比重,以避免或者降低長尾效應(yīng)對用戶體驗的影響。
? ? ? ? 在推薦系統(tǒng)中可以使用自監(jiān)督學(xué)習(xí)等方法減輕長尾效應(yīng)增加魯棒性。
參考鏈接:推薦系統(tǒng)的長尾問題 - 知乎
總結(jié)
以上是生活随笔為你收集整理的推荐系统笔记(八):推荐系统中的长尾效应的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: span标签的用法
- 下一篇: Windows操作系统进阶:防火墙基础和