日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

浅谈数据中的偏差问题和推荐系统去偏最新研究进展

發(fā)布時(shí)間:2024/10/8 windows 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 浅谈数据中的偏差问题和推荐系统去偏最新研究进展 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


?作者?|?楊晨

來源?|?RUC AI Box

本文首先回顧了數(shù)據(jù)中的偏差問題,通俗易懂地做一個(gè)解釋和引入,并基于最近兩年發(fā)表在頂級(jí)會(huì)議(KDD、SIGIR、WWW、AAAI 等)的推薦系統(tǒng)去偏相關(guān)論文,介紹最新研究工作,梳理其背后的技術(shù)脈絡(luò),本文旨在幫助相關(guān)研究人員快速熟悉和理解偏差問題以及推薦系統(tǒng)去偏的最新研究進(jìn)展,如有遺漏或錯(cuò)誤,歡迎大家指正。

從辛普森悖論說起

看一個(gè)例子[1],一所美國高校的兩個(gè)學(xué)院,分別是法學(xué)院和商學(xué)院,新學(xué)期招生,人們懷疑這兩個(gè)學(xué)院有性別歧視(偏向男性),于是對招生人數(shù)做了統(tǒng)計(jì),如下:

好的,看起來是這樣的,接下來我們?nèi)ド罹恳幌逻@樣性別歧視出現(xiàn)的原因究竟在哪?

首先來看法學(xué)院:

嗯哼?看起來女生錄取率比男生要高,而且高的很顯著,那么顯然問題不在法學(xué)院,那就一定在商學(xué)院了。

再看商學(xué)院:

誒?奇怪,商學(xué)院這邊看起來也是女生錄取率要高一些。那這到底是怎么回事?法學(xué)院沒有性別歧視,商學(xué)院也沒有性別歧視,這個(gè)性別歧視是從哪里來的?

進(jìn)一步分析

聰明的讀者應(yīng)該能發(fā)現(xiàn),其實(shí)本質(zhì)上沒有性別歧視,只是統(tǒng)計(jì)數(shù)據(jù)使得其看起來像是學(xué)院招生時(shí)對性別有了偏向。進(jìn)一步分析這個(gè)問題,這個(gè)現(xiàn)象可以很簡單的進(jìn)行解釋,只需要注意到以下兩點(diǎn):

  • 法學(xué)院總體錄取率低,商學(xué)院總體錄取率高

  • 報(bào)名法學(xué)院的女生多,報(bào)名商學(xué)院的男生多

所以,女生錄取率低只是因?yàn)?strong>更多的女生報(bào)名了低錄取率的學(xué)院(因此拉低了女生總體錄取率),而不是學(xué)院招生時(shí)對性別有歧視。

辛普森悖論雖然叫做悖論,其實(shí)并不是一個(gè)悖論,只是一個(gè)數(shù)據(jù)偏差導(dǎo)致的認(rèn)知錯(cuò)誤。在這個(gè)問題的開始,我們關(guān)注的是錄取率,同時(shí)認(rèn)為影響錄取率的因子只有性別,這種情況下得到了錯(cuò)誤的結(jié)論。當(dāng)然,看到這里,原因顯而易見,是因?yàn)楹雎粤恕皩W(xué)院”這個(gè)因素,使得錯(cuò)誤地判斷了性別對于錄取率的影響。

類比到深度學(xué)習(xí)

在深度學(xué)習(xí)的框架下,模型學(xué)到的東西來源于訓(xùn)練數(shù)據(jù),如果數(shù)據(jù)存在偏差(比如上面的數(shù)據(jù)量不均衡,沒有消除混雜因素的影響等),也會(huì)給模型帶來偏差(bias),使得模型的預(yù)測出現(xiàn)偏向及不公平等現(xiàn)象。

后文中所涉及的偏差(bias)問題,本質(zhì)大同小異,而只是導(dǎo)致偏差的原因、解決的方法有所差異。

推薦系統(tǒng)偏差

接下來回顧一下推薦系統(tǒng)中的偏差問題,以下分類沿用之前推文(Debiased Recommendation: 推薦系統(tǒng)去偏研究進(jìn)展概述)中的分類方式,并給出一句話為讀者進(jìn)行總結(jié)和通俗解釋,以便更好的理解偏差類型和具體來源。

  • 選擇偏差:用戶的主觀選擇使數(shù)據(jù)帶有偏向

  • 一致性偏差:用戶打分會(huì)有從眾現(xiàn)象

  • 曝光偏差:未曝光的數(shù)據(jù)認(rèn)為不感興趣

  • 流行度偏差:流行度高的物品越來越流行

  • 公平性問題:對特定群體有偏袒,比如性別

  • 循環(huán)偏差:偏差的惡性循環(huán)

  • 歸納偏置:模型歸納的經(jīng)驗(yàn)(不算錯(cuò)誤/誤差)

淺談一下推薦系統(tǒng)對社會(huì)的影響

偏差問題不僅僅會(huì)影響推薦系統(tǒng)的效果,還會(huì)造成一定的社會(huì)效應(yīng),推薦系統(tǒng)不僅僅是信息搜索工具,還控制著資源如何在不同的各方之間分配,下面簡單地提了一些實(shí)際例子,來說明一下這種影響,以進(jìn)一步明確我們?yōu)槭裁葱枰P(guān)注以及研究偏差問題。

首先,為什么推薦系統(tǒng)需要公平?

  • 推薦曝光的位置有限,曝光哪些商品?

  • 社交平臺(tái)用戶注意力有限,曝光哪些資訊?

  • 打車軟件,用戶有限,哪些司機(jī)接單?

  • 面試機(jī)會(huì)有限,面試哪些候選人?

其次,推薦偏差是如何引入的?

  • 訓(xùn)練數(shù)據(jù)引入社會(huì)偏見

  • 模型本身可能會(huì)呼應(yīng)甚至強(qiáng)化數(shù)據(jù)中的偏差

上圖中訓(xùn)練數(shù)據(jù)引入了一些社會(huì)偏見(男性 = 軟件工程師 = 高收入,女性 = 護(hù)士 = 低收入),由此訓(xùn)練出的模型也帶有了偏見,因?yàn)锳I并不明白哪些是敏感屬性(性別)。這種不公平性會(huì)導(dǎo)致許多不良影響,例如信息不對等、馬太效應(yīng)、回音室等等[3]。

最新研究進(jìn)展

下面基于最近兩年發(fā)表在頂級(jí)會(huì)議(KDD、SIGIR、WWW、AAAI等)的推薦系統(tǒng)去偏的相關(guān)論文,介紹部分最新研究工作,簡單梳理其背后的技術(shù)脈絡(luò),也是在上一篇推文的基礎(chǔ)上做一個(gè)補(bǔ)充和更新。

Causal Intervention for Leveraging Popularity Bias in Recommendation. SIGIR 2021

這篇工作針對流行度偏差提出了一個(gè)新穎的角度:如何利用流行度偏差來提高推薦效果?并不是所有的數(shù)據(jù)偏差都是有害的,盲目地追求無偏學(xué)習(xí)可能會(huì)移除掉數(shù)據(jù)中一些有益的模式。本文主要針對以下兩個(gè)問題:

  • 訓(xùn)練階段如何移除流行度偏差的負(fù)面影響?

  • 推理階段如何利用流行度偏差?

該工作提出了一種新的訓(xùn)練和推理范式,在模型訓(xùn)練時(shí)移除混雜的流行度偏差,同時(shí)通過因果干預(yù)來利用流行度偏差對預(yù)測得分進(jìn)行調(diào)整。

在訓(xùn)練階段,繪制因果圖,將流行度定義為混雜因素并切斷其與物品之間的因果關(guān)系,利用do算子來計(jì)算交互概率,以此完成去混淆排名。

在推理階段,高效利用流行度偏差(比如希望推廣那些可能受歡迎的物品),使用簡單的時(shí)間序列預(yù)測方法來設(shè)置流行度,利用do算子干預(yù)來進(jìn)行模型推斷。

Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System. KDD 2021

關(guān)鍵詞:popular bias

現(xiàn)有研究大部分通過逆傾向權(quán)重(IPW)處理流行度偏差,但是IPW方法對加權(quán)策略高度敏感,難以調(diào)整。本文核心關(guān)注點(diǎn)在于從因果關(guān)系的角度來探討流行度偏差問題。

為了消除流行偏見,需要回答一個(gè)反事實(shí)的問題:如果模型只使用物品屬性,排名得分會(huì)是多少?該工作設(shè)計(jì)了一個(gè)模型不可知的反事實(shí)推理(MACR)框架,該框架通過多任務(wù)學(xué)習(xí)來訓(xùn)練推薦人,通過反事實(shí)推理來進(jìn)行去偏推薦。

該模型包含三個(gè)部分,用戶-物品匹配 / 物品模塊 / 用戶模塊,對應(yīng)三個(gè)優(yōu)化損失目標(biāo)同時(shí)優(yōu)化。消除流行度偏差的關(guān)鍵在于從排名分?jǐn)?shù)中去除路徑𝐼→𝑌的直接影響,按照以下目標(biāo)計(jì)算最終得分:

Dual Unbiased Recommender Learning for Implicit Feedback. SIGIR 2021

關(guān)鍵詞:popular bias

現(xiàn)有的研究主要處理正反饋中的偏差而沒有考慮缺失的反饋中的偏差,這篇短文提出一個(gè)雙重的推薦學(xué)習(xí)框架,核心關(guān)注點(diǎn)在于同時(shí)消除點(diǎn)擊和未點(diǎn)擊數(shù)據(jù)中的偏差

該研究提出的損失函數(shù)采用了兩種傾向加權(quán)方法,從點(diǎn)擊和未點(diǎn)擊數(shù)據(jù)中有效估計(jì)出真實(shí)的正和負(fù)偏好:

其使用了兩個(gè)無偏項(xiàng)來分別表示點(diǎn)擊和未點(diǎn)擊數(shù)據(jù),其中,propensity score 計(jì)算公式如下:

Controlling Fairness and Bias in Dynamic Learning-to-Rank. SIGIR 2020

關(guān)鍵詞:popular bias / Fairness

在雙邊市場(購物,音樂等)中,物品的排序不僅對用戶有效用,而且還決定了物品提供者(供應(yīng)商、工作室等)的效用(曝光、收入等),只針對用戶優(yōu)化排序算法會(huì)對物品提供者不公平。本文核心針對的兩個(gè)問題:

  • 馬太效應(yīng):流行的越來越流行(rich-get-richer)

  • 公平性:針對用戶的排序算法導(dǎo)致的對物品提供者不公平問題

論文中定義了兩種衡量公平性差異的指標(biāo):

基于曝光的公平性差異:

基于反饋的公平性差異:

其中,分母表示偏好,最終衡量的是單位偏好上的曝光/反饋差異,以此達(dá)到去偏的目的。融合以上指標(biāo),提出了 FairCo 的排名策略:

以上策略包括了一個(gè)無偏基數(shù)相關(guān)估計(jì)量,它既可以作為公平的無偏價(jià)值評估,也可以作為排名標(biāo)準(zhǔn),該算法采用控制器的形式,集成了公平性和效用的無偏估計(jì),在可用數(shù)據(jù)增多后可對兩者進(jìn)行動(dòng)態(tài)調(diào)整。

Popularity Bias in Dynamic Recommendation. KDD 2021

關(guān)鍵詞:popular bias / dynamic

流行度偏差是推薦系統(tǒng)中長期存在的挑戰(zhàn):受歡迎的物品被過度推薦,造成了用戶可能感興趣的不太受歡迎的物品被犧牲,這種偏差對用戶和物品提供者都產(chǎn)生了不利影響。大多數(shù)現(xiàn)有工作將流行度偏差置于靜態(tài)環(huán)境中,僅針對單輪推薦分析偏差,這些工作沒有考慮到現(xiàn)實(shí)推薦過程的動(dòng)態(tài)性,主要針對以下幾個(gè)問題:

  • 流行度偏差在動(dòng)態(tài)場景中如何演變?

  • 動(dòng)態(tài)推薦過程中的獨(dú)特因素對偏差有什么影響?

  • 如何在這個(gè)長期動(dòng)態(tài)過程中消除偏差?

這項(xiàng)工作將動(dòng)態(tài)推薦和流行偏好進(jìn)行形式化,利用基尼指數(shù)來定量衡量流行度偏差,提出影響流行度偏差主要有四個(gè)因素:內(nèi)在用戶規(guī)模不均衡 / 模型偏差 / 位置偏差 / 封閉反饋循環(huán),同時(shí)在半合成數(shù)據(jù)集中進(jìn)行了實(shí)驗(yàn)驗(yàn)證。

在其他工作的基礎(chǔ)上,進(jìn)一步提出了一個(gè)的假陽性校正 (FPC)方法進(jìn)行去偏,首先利用任意有偏的推薦模型獲取一個(gè)原始得分,然后利用歷史交互中多個(gè)時(shí)間點(diǎn)的假陽性信號(hào)對模型得分進(jìn)行修正:

通過上式可得到去偏后得分,并且,該方法可與其它方法進(jìn)行集成,以進(jìn)一步提高性能。

Maximizing Marginal Fairness for Dynamic Learning to Rank.?WWW 2021

關(guān)鍵詞:Fairness?/ Dynamic LTR

傳統(tǒng)的排名框架對文檔的相關(guān)性進(jìn)行排序不可避免地帶來不公平的結(jié)果曝光,現(xiàn)有的關(guān)于動(dòng)態(tài)學(xué)習(xí)排序公平性的研究,往往通過顯著犧牲排名前的結(jié)果的結(jié)果相關(guān)性和公平性的表現(xiàn)來實(shí)現(xiàn)排名列表中文件曝光的整體公平性。

這篇工作希望在在線排名系統(tǒng)中控制和平衡結(jié)果的相關(guān)性和公平性,其從理論上選擇top-k結(jié)果中相關(guān)和曝光不足的文檔,以最大化邊際相關(guān)性和公平性。

首先定義了一個(gè)衡量top-k總體公平性的指標(biāo),表示為列表中所有文檔對的平均視差:

MMF算法包括了三個(gè)子模塊:

1. 最大化邊際公平性:貪心地進(jìn)行的文檔選擇以最大化文檔邊際公平性。

2. 最大化相關(guān)性:基于文檔的相關(guān)性進(jìn)行文檔選擇。

3. 平衡top-k相關(guān)性和公平性的控制器:通過最大化邊際公平性和最大化相關(guān)性可以得到兩個(gè)文檔,隨后基于一個(gè)概率λ,從這兩個(gè)中選擇一個(gè)作為最終文檔。

Cross-Positional Attention for Debiasing Clicks.?WWW 2021

關(guān)鍵詞:position bias

現(xiàn)有的針對位置偏差的研究都把位置簡單看作一個(gè)排序列表,這難以捕捉復(fù)雜的現(xiàn)實(shí)世界的用戶行為,而且很難推廣到web應(yīng)用程序中的現(xiàn)代用戶界面(UI),這篇論文核心關(guān)注點(diǎn)在于具有UI界面的位置偏差

該論文假設(shè)一個(gè)項(xiàng)目的點(diǎn)擊概率不僅取決于他自己的位置,而且受到其他所有項(xiàng)目的位置和相關(guān)性影響。模型的輸入包括項(xiàng)目特征和項(xiàng)目位置,通過項(xiàng)目特征計(jì)算相關(guān)性得分,利用注意機(jī)制捕捉項(xiàng)目之間的交叉位置信號(hào),以計(jì)算點(diǎn)擊預(yù)測得分,最后融合兩個(gè)得分,得到預(yù)測點(diǎn)擊概率(下圖)。

Mitigating Sentiment Bias for Recommender Systems.?SIGIR 2021

關(guān)鍵詞:sentiment bias

本文首次提出推薦系統(tǒng)中一種新的偏差:情感偏差,具體表現(xiàn)為許多推薦模型對具有更多積極反饋的用戶/物品提供的推薦更準(zhǔn)確(相比于具有更多消極反饋的用戶/物品)。情感偏差給那些嚴(yán)厲的用戶以及小眾的物品(具有更多負(fù)面反饋)帶來了低質(zhì)量的推薦,并且這種偏差同流行度偏差存在區(qū)別。

如上圖所示,將用戶和物品分為積極和消極兩類,實(shí)驗(yàn)表明推薦系統(tǒng)在積極用戶(物品)上的明顯表現(xiàn)優(yōu)于消極用戶(物品)。

這項(xiàng)工作發(fā)現(xiàn),降低物品情感偏差很可能會(huì)同時(shí)降低用戶情感偏差,所以論文針對物品做分類處理,針對推薦系統(tǒng)提出了一個(gè)新的優(yōu)化損失目標(biāo)(下式),包括一個(gè)原始的推薦損失函數(shù)和三個(gè)額外的正則化項(xiàng),分別對應(yīng)物品偏差正則化 / 信息熵正則化 / 嵌入正則化。

參考文獻(xiàn)

[1]?https://zh.wikipedia.org/wiki/辛普森悖論?

[2] A survey on bias and fairness in machine learning.?

[3] Tutorial on Fairness of Machine Learning in Recommender Systems. SIGIR 2021.?

[4] Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System. KDD 2021?

[5] Causal Intervention for Leveraging Popularity Bias in Recommendation. SIGIR 2021?

[6] Dual Unbiased Recommender Learning for Implicit Feedback. SIGIR 2021?

[7] Controlling Fairness and Bias in Dynamic Learning-to-Rank. SIGIR 2020?

[8] Popularity Bias in Dynamic Recommendation. KDD 2021?

[9] Maximizing Marginal Fairness for Dynamic Learning to Rank. WWW 2021?

[10] Cross-Positional Attention for Debiasing Clicks. WWW 2021?

[11] Mitigating Sentiment Bias for Recommender Systems. SIGIR 2021

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時(shí)聯(lián)系方式(微信),以便我們在稿件選用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的浅谈数据中的偏差问题和推荐系统去偏最新研究进展的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。