推荐系统去偏(Debiased Recommendation)研究进展概述
?作者?|?張景森
學校?|?中國人民大學信息學院碩士
文章來源?|?RUC AI Box
引言
推薦系統作為解決信息過載的一種重要手段,已經在不同的應用場景下取得了不錯的效果。近些年來關于推薦系統的研究主要集中在如何設計更好的模型來適應用戶行為數據,進而提升推薦質量。然而,由于用戶行為數據是觀察所得(Observational)而不是實驗所得(Experimental)[1],因此會存在各種偏差,如用戶對物品的選擇偏差、系統對物品的曝光偏差等,直接拿模型擬合數據而忽視偏差會導致性能欠佳,在一定程度上也損害了用戶對推薦系統的體驗和信任,因此,去除推薦系統偏差已經成為推薦系統領域研究的一個新方向。
隨著近些年因果推斷(Causal Inference)的興起,傾向分數(Propensity Score)、反事實(Counterfactual)思想以及去除混淆因子(Confounder)等手段在此領域也得到廣泛應用,為推薦系統去偏提供了一些思路。本文主要介紹推薦系統去偏的研究進展情況,包括各種偏差及解決思路概括和對近幾年各大會議錄用的部分該領域文章的解讀。
推薦系統偏差分類
1. Selection Bias
選擇偏差主要來自用戶的顯式反饋,如對物品的評分。由于用戶傾向于對自己感興趣的物品打分,很少對自己很少對自己不感興趣的物品打分,造成了數據非隨機缺失(Missing Not At Random, MNAR)問題,觀察到的評分并不是所有評分的代表性樣本,于是產生了選擇偏差。
解決:數據填充(Data Imputation);傾向分數等。
2. Conformity Bias
一致性偏差是說,用戶對物品的評分受用戶所在的群體影響,與群體里的其他用戶的評分趨于一致,即使這個評分與自己的感受不相符。這導致用戶的評分并不總是能反應該用戶的真實偏好。
解決:對社會群體或流行度效應進行建模等。
3. Exposure Bias
曝光偏差主要來自用戶的隱式反饋,如點擊。用戶只能看到一部分系統曝光的物品,并作出點擊等反應。但是數據中不包含的交互并不一定代表用戶不喜歡,還有可能是用戶不知道該物品。
解決:啟發性置信權重;采樣(Sampling)等
4. Position Bias
位置偏差是指,用戶傾向于與推薦列表頂部的物品產生交互(點擊、購買等),盡管這些物品可能是不相關的或不是最符合偏好的。這導致交互的物品可能并沒有很高的相關性。
解決:點擊模型(Click models);傾向分數等
5. Popularity Bias
推薦系統數據存在長尾現象,少部分流行度高的物品占據了大多數的交互。推薦模型基于這些數據訓練時,通常給流行度高的物品高分,給流行度低的物品低分,這就導致流行度高的物品更頻繁地出現在數據中。流行度偏差會降低推薦系統的個性化水平,并導致推薦結果的不公平。
解決:正則化(Regularization);對抗學習(Adversarial learning);因果圖(Causal graph)等
6. Unfairness
不公平是指系統不公平地對待某些個人或群體,而偏袒其他用戶。如在有些崗位推薦系統中,相比于男性而言,女性可能會更少地被推薦高薪或職業指導服務等廣告,造成了性別不公平。
解決:再平衡(Rebalancing);正則化;對抗學習;因果建模(Causal modeling)等
7. Feedback Loop Amplifies Biases
真實的推薦系統通常會形成一個惡性循環,從而擴大各種偏差。以流行度偏差為例,推薦系統的反饋回路會導致流行度高的物品更加流行,而流行度低的物品變得更不受歡迎,這種效應會降低推薦結果的多樣性,導致用戶的同質化。
解決:通過收集隨機數據或強化學習等方式打破循環。
8. Inductive Bias
并不是所有的偏差都是有害的。歸納偏差指通過作出一系列假設,使得模型能更好地學習目標函數進而完成推薦任務。很多假設對推薦模型效果提升都是有幫助的,如MF算法將用戶和物品的交互估算成二者向量的內積。
研究進展
1. Recommendations as Treatments: Debiasing Learning and Evaluation (ICML2016)
關鍵詞:Selection bias
較為經典的一篇提出利用逆傾向分數(Inverse Propensity Score, IPS)處理選擇偏差的文章。傾向分數可以看作是每個數據被觀察到的概率。本文從因果推斷的角度看待推薦問題,認為在推薦系統中給用戶曝光某個商品類似于在醫學中給病人施加某種治療方式。這兩個任務的共同點是,只知道少數病人(用戶)對少數治療方式(物品)的反應,而大多數的病人-治療(用戶-物品)對的結果是觀察不到的。
文章首先點明理想的評測方法,即在所有的用戶-物品對都可以觀察到時的標準評測指標:
其次,提出使用逆傾向分數對觀察數據加權,構建一個對理想評測指標的無偏估計器,IPS Estimator:
此外,文章還介紹了預測傾向分數的兩種方法(樸素貝葉斯、邏輯回歸),并提出了一個基于傾向分數的矩陣分解模型(MF-IPS)用于推薦任務。分別在半合成的數據集和真實數據集上進行實驗證明了IPSEstimator是對理想評測指標的無偏估計和MF-IPS模型效果優于傳統的矩陣分解算法,達到了去除選擇偏差的目的。
2. Doubly robust joint learning for recommendation on data missing not at random (ICML2019)
? 關鍵詞:Selection bias
處理選擇偏差的兩類方法——數據填充和傾向分數都有一定的局限性:基于數據填充的方法由于不能準確預測數據,會導致偏差的產生;由于傾向分數難以被準確地估計,因此基于傾向分數的方法會受較大方差的影響。
為了消除這兩點限制,本文提出利用以上兩種方法結合的雙重魯棒的方式構建無偏估計器(DR Estimator),實現只要兩種方法之一是準確的,則DR estimator就是無偏的目的。給出數據填充的推斷誤差和和學習到的傾向分數,基于DR estimator的目標函數定義為:
在使用DR estimator進行推薦學習時,需要避免數據填充模型引入的推斷誤差損害推薦模型的訓練,本文設計了一個泛化邊界來分析此問題,觀察誤差是如何影響使用DR estimator的預測模型的準確率的。為了實現效果保證,基于DRestimator,又提出了一種聯合學習方式,即在最小化訓練損失以提高模型預測準確率的同時也要學習填充模型的參數。四個真實數據集上的實驗驗證了這種雙重魯棒估計器和聯合學習方式的效果。
3. Asymmetric Tri-training for Debiasing Missing-Not-At-Random Explicit Feedback (SIGIR2020)? ?
關鍵詞:Selection bias
基于傾向分數解決推薦系統選擇偏差的方法由于不能準確估算傾向分數,因此會引入較大的方差。為解決這一問題,本文受到無監督領域自適應(Domain Adaptation)中的不對稱協同訓練(Asymmetric Tri-training)框架的啟發,提出了一種基于元學習(Meta-learning)的方法去除偏差。
共分為3步:第一預訓練,使用觀察到的評分數據預訓練三個選好的推薦算法;第二偽標簽,隨機抽取一系列用戶-商品對,用和對這些無標簽的數據進行評分預測,如果兩個模型的預測結果足夠相似,可以使用兩個結果之一作為這一數據對的偽評分,最終可以得到一個可以信賴的偽標簽數據集;第三最終預測,在偽標簽數據集上訓練模型 ,由給出最后推薦結果。
本文在理論分析部分提出了一個新的與傾向分數無關的理想損失函數的上界,并且證明了所提出的元學習方法可以最小化此上界,因而傾向分數相關的限制問題有希望被解決。在公開數據集上的實驗驗證了所提出的方法穩定地提升了推薦質量,特別是在傾向分數難以估算的場景下。
4. Unbiased Recommender Learning from Missing-Not-At-Random Implicit Feedback (WSDM2020)
關鍵詞:Exposure bias
盡管推薦系統中觀察到的點擊行為一定程度上可以反映用戶的偏好,但是缺失的點擊數據并不意味著一定是用戶的負面反饋,還有可能是用戶根本沒有看到這些商品(Positive-unlabeled problem),這對從隱式反饋中預測用戶的偏好造成了困難。為了應對以上問題并同時解決推薦系統存在的MNAR問題,本文首先做出假設:,即物品必須曝光給用戶且相關才會發生點擊。其次,定義了一個理想的損失函數,通過最大化相關度實現推薦任務。
基于傾向分數方法,本文提出了對理想損失函數的一個無偏估計器,公式中的即為傾向分數,表示物品i曝光給用戶u的概率:
文章從理論證明了當傾向分數過小時(如部分物品曝光度過低),無偏估計器會產生很大的方差,因此提出通過裁剪傾向分數的方式來防止傾向分數過小,改進無偏估計器。在半合成數據集和真實數據集上的實驗證明了提出的方法超過了參與比較的模型,特別是提高了對于很少出現在訓練集中的商品(曝光度低的商品)的推薦。
5. Unbiased Learning to Rank in Feeds Recommendation (WSDM2021)
關鍵詞:Position bias
不同于網頁搜索中用戶通常點擊位置靠前的頁面,在信息流推薦(Feeds Recommendation)中,用戶更傾向于不停下滑以查看更多的物品,如在購物網站持續下滑瀏覽商品。由于物品的展示信息會影響用戶的判斷,所以基于觀察到的隱式反饋數據建立的排序方法是有偏差的。除了位置偏差,本文提出在用戶瀏覽較深時,上下文偏差(Context bias)要比位置偏差更顯著,認為此時用戶與物品交互的概率是受物品展示的上下文環境影響的,當目標商品四周是相似度不高的商品時,點擊率更高。
為同時去除位置偏差和上下文偏差,即Context-awareposition bias,本文提出了一個無偏的排序學習框架,假設用戶點擊物品的概率是受檢查(Examination)、相關性(Relevance)和比較(Comparison)三個因素影響。首先定義了考慮這三個偏差因素的組合的傾向分數,然后使用基于回歸的期望最大化算法來估算傾向分數,并通過平衡檢查和排序指標對傾向分數進行了直接和間接的評估。在真實電子商務數據集上實驗證明了在位置偏差基礎上引入上下文偏差的優勢。
6. Popularity-Opportunity Bias in Collaborative Filtering (WSDM2021)
關鍵詞:Popularity bias
這篇文章從理論和實驗角度證明了流行度-機會偏差(Popularity-Opportunity Bias)的存在,即當存在多個符合用戶偏好的物品時,更流行的物品相比于不流行的物品會有更大的機會被推薦(或排名更高),這種現象在用戶端和物品端都是存在的。
本文設計了兩種方法來減小這類偏差:一是后處理方法(Post-processing),即通過對物品進行流行度補償的方法更新用戶-物品偏好矩陣,目的是增大不太流行的物品的分數和排名位置,補償主要依據的原則的是,物品流行度越低,與用戶偏好越相關,得到的補償越大,且用戶間的評分差距也被考慮在內。二是基于正則化的內處理方法(In-processing),通過降低物品流行度和模型輸出分數之間的關聯來減小偏差,采用用戶-物品對的預測分數和物品對應的流行度之間的皮爾遜相關系數(Pearson correlation coefficient)作為正則項,通過最小化正則項和推薦誤差來消除偏差:
在四個數據集上的實驗探索了在去偏效果和推薦質量之間的權衡,并且驗證了本文方法效果優于處理傳統的流行度偏差的方法。
7. CausalIntervention for Leveraging Popularity Bias in Recommendation (SIGIR2021)
關鍵詞:Popularity bias
對于推薦系統普遍存在的流行度偏差,大多數研究都設法消除偏差帶來的影響。然而,本文認為不是所有的流行度偏差都是有害的,如某些商品受歡迎是源于該商品的高質量,某些服裝受歡迎是因為它符合當前的審美。因此,如果盲目的消除流行度偏差會丟失數據中的一些重要信息。
本文提出了要有效利用流行度偏差的觀點,首先從因果推斷的角度分析得出物品流行度是曝光物品和交互之間的一個混淆因子(Confounder),其混淆效應導致了流行度偏差不好的影響,因此要消除流行度對物品曝光度的影響,但是須保留流行度對交互(捕獲用戶的從眾心理)的影響,即利用流行度偏差。
其次,文章利用因果推斷中的do-calculus工具提出了名為Popularity-bias Deconfounding and Adjusting(PDA)的方法,在訓練階段消除流行度偏差帶來的消極影響,同時在推理階段嵌入所期望的流行度偏差,達到利用偏差的目的。實驗證明了去除混淆因子的訓練有助于發現用戶真實興趣,利用流行度偏差的推斷調整策略有助于提升推薦準確率。
8.FairRec:Fairness-aware News Recommendation with Decomposed Adversarial Learning(AAAI2021)
關鍵詞:Fairness
現有的新聞推薦模型通常從用戶的點擊行為中進行學習,有著相同敏感屬性(如性別、年齡)的用戶行為通常會有相似的模式。新聞推薦系統捕獲這種模式可能會在推薦結果中引入與敏感屬性相關的偏差,比如大多數男性會點擊體育新聞,于是總是推薦體育新聞給男性用戶,導致用戶不能接收多種新聞信息的不公平現象。
為了消除敏感屬性帶來的偏差,本文提出考慮公平的新聞推薦算法。首先,將用戶興趣模型分解成兩部分,一部分用來學習有偏差的用戶向量(Bias-aware user embedding)以此捕獲敏感用戶屬性的偏差信息,利用屬性預測任務來增強對偏差建模的能力;另一部分學習無偏差的用戶向量(Bias-free user embedding),只對敏感屬性之外的用戶信息進行編碼,使用屬性判別器通過對抗學習的方式移除偏差信息。其次,提出了正交性正則化方法使得無偏差用戶向量盡可能正交于有偏差用戶向量,達到更好區分二者的目的。最后,基于無偏差的用戶向量進行新聞推薦任務,達到了不錯的效果。
9.Debiasing Career Recommendations with Neural Fair CollaborativeFiltering(WWW2021)
關鍵詞:Fairness
越來越多的人類互動行為在社交媒體平臺被數字化,并受到決策算法的約束,確保這些算法的公平性是非常重要的,本文研究發現基于社交媒體數據訓練的協同過濾推薦算法具有一定的性別偏差。文章提出了一個神經公平協同過濾框架(Neural fair collaborative filtering, NFCF),來消除在推薦與職業相關的敏感事物(如工作崗位、大學專業)時的性別偏差。
首先,在大量涉及非敏感物品的隱式反饋數據上預訓練一個深度神經網絡解決敏感數據稀疏問題(如用戶通常只有一到兩個專業或崗位)。然后,采用前人工作中常用的去除詞向量偏差的方法減小上一步學習到的用戶向量的偏差。最后,使用敏感數據對神經網絡進行細調(Fine-tuning),并在目標函數上添加公平性懲罰項,達到敏感物品推薦的目的。
本文共做了兩種偏差糾正,一個是非敏感物品對輸入向量帶來的偏差,另一個是敏感物品對預測輸出帶來的偏差。在既包含敏感信息又包含非敏感信息的數據集上實驗證明了兩種偏差干預對于公平性推薦都是重要的。
10.AutoDebias:Learning to Debias for Recommendation (SIGIR2021)
關鍵詞:Mixed bias
現有的大多數研究推薦系統去偏的工作如傾向分數法、數據填充法都專注于某一種或兩種特定的偏差,缺乏考慮數據中混合偏差甚至未知偏差的普適能力。
針對這一問題,本文提出了一種基于元學習的普適的、自適應調整的去偏方法。首先,建立一個通用的去偏框架,該框架先采用重加權(Re-weighting)的方法對每個訓練集中的樣本加上特定權重,然后進一步采用了數據填充的方法處理訓練集未覆蓋的部分,即構造偽標簽數據,總的框架表示為:
在此框架下,將尋找最優去偏策略的問題轉為在框架中設置合適的去偏參數的問題,由于框架中的去偏參數量巨大,直接優化會導致過擬合問題,不具備泛化性能,文章用線性模型實例演示了用模型建模去偏參數的方法。由于訓練集中缺少信號表明數據是怎樣有偏的和什么數據是無偏的,因此本文提出了基于元學習的名為AutoDebias的參數學習方式,利用另一份少量的無偏數據作為監督信號來優化框架中的去偏參數,解決雙層優化(設置框架參數并且在無偏數據上取得最好效果)問題,進而實現自適應的去偏。
參考文獻
[1] Chen J, Dong H, Wang X, et al. Bias and Debias in RecommenderSystem: A Survey and Future Directions[J]. arXiv preprint arXiv:2010.03240,2020.?
[2] Schnabel T, Swaminathan A, Singh A, et al. Recommendations astreatments: Debiasing learning and evaluation[C]//international conference onmachine learning. PMLR, 2016: 1670-1679.?
[3] Wang X,Zhang R, Sun Y, et al. Doubly robust joint learning for recommendation on datamissing not at random[C]//International Conference on Machine Learning. PMLR,2019: 6638-6647.?
[4] Saito Y.Asymmetric Tri-training for Debiasing Missing-Not-At-Random ExplicitFeedback[C]//Proceedings of the 43rd International ACM SIGIR Conference onResearch and Development in Information Retrieval. 2020: 309-318.?
[5] Saito Y,Yaginuma S, Nishino Y, et al. Unbiased recommender learning frommissing-not-at-random implicit feedback[C]//Proceedings of the 13thInternational Conference on Web Search and Data Mining. 2020: 501-509.?
[6] Wu X,Chen H, Zhao J, et al. Unbiased Learning to Rank in Feeds Recommendation[C]//Proceedingsof the 14th ACM International Conference on Web Search and Data Mining. 2021:490-498.?
[7] Zhu Z,He Y, Zhao X, et al. Popularity-Opportunity Bias in CollaborativeFiltering[C]//Proceedings of the 14th ACM International Conference on WebSearch and Data Mining. 2021: 85-93.?
[8] Zhang Y,Feng F, He X, et al. Causal Intervention for Leveraging Popularity Bias inRecommendation[J]. arXiv preprint arXiv:2105.06067, 2021.?
[9] Wu C, WuF, Qi T, et al. FairRec: Fairness-aware News Recommendation with DecomposedAdversarial Learning[C]. AAAI, 2021.?
[10] IslamR, Keya K N, Zeng Z, et al. Debiasing Career Recommendations with Neural FairCollaborative Filtering[J]. UMBC Faculty Collection, 2021.?
[11] Chen J,Dong H, Qiu Y, et al. AutoDebias: Learning to Debias for Recommendation[J].arXiv preprint arXiv:2105.04170, 2021.
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的推荐系统去偏(Debiased Recommendation)研究进展概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 90度三刃倒角刀怎么打磨?
- 下一篇: 推荐系统入门必读:一文读懂推荐系统负采样