《因果科学周刊》第2期:如何解决混淆偏差?
為了幫助大家更好地了解因果科學的最新科研進展和資訊,我們因果科學社區團隊本周整理了第2期《因果科學周刊》,從 Causality, Causal Inference, Causal AI 三個維度鳥瞰,推送近期因果科學值得關注的論文和資訊信息, 同時我們也將向大家介紹社區正在推進的活動——因果科學與Casual AI讀書會第6期中的主要報告內容、觀點。
本期作者:況琨,龔鶴揚,陳晗曦,陳天豪,張卓婧,楊雅程
本期周報中的論文推薦,將圍繞因果科學領域的“混淆偏差”問題展開,關于它的解釋,大家可以先看下面這個例子(熟悉的朋友也可以忽略這部分內容,直接閱讀下面的“論文推薦”)。
鍛煉能否降低膽固醇呢?如下圖1,從每個年齡層來看可以降低,但是如果不分層則會提高膽固醇。
圖1: 鍛煉是否有利于健康?
這個問題便涉及混淆偏差,回答它僅僅靠數據不夠,需要因果建模,轉化本期周刊關注的因果問題:在擁有治療變量 T,協變量 X 和結果變量 Y 的觀測數據下的因果效應估計。
圖2:因果之梯和因果推理引擎
推理引擎中,該問題屬于因果之梯干預層的 Query,而 Data 是觀測數據,Asumptions 則經常用潛結果框架(Potential Outcome) 來描述。
關于該因果問題如何回答,也就是去混淆偏差,浙江大學助理教授況琨向大家推薦了幾篇論文,我們根據“基于匹配方法”、“傾向評分方法”和“直接均衡方法”三個類別分別選擇兩篇論文進行了整理和解讀。
1. 論文推薦
前兩篇論文是基于匹配的方法(Matching based method),該方法基本思想是對比相似個體用藥和不用藥產生的效果差異。中間兩篇是以傾向評分為工具,給定傾向評分則類似于隨機化實驗,而最后兩篇是通過直接加權創造一個新的總體,使得混淆變量和治療變量獨立的方法。
1.1 基于匹配的方法(Matching based method) 一個前沿理論框架
Kallus, N. 2017. A Framework for Optimal Matching for Causal Inference. In Artificial Intelligence and Statistics, 372–381.? ??
論文標題:因果推斷的最優匹配框架框架
摘要:本文提出了一種從觀測數據中進行因果推斷的廣義最優匹配方法(generalized optimal matching, GOM),它涵蓋了 atching、covariate balancing 以及 doubly robust 等方法。這套框架是基于對最優匹配的一種新的泛函分析的推廣提出的,它產生了一類 GOM 的方法,本文提供了一套統一的理論框架來對它們進行可解性和一致性分析。許多已有的方法都可以被納入 GOM 的框架,利用GOM視角的解釋,可以將它們拓展成一種最優且自動的方差與性能之間的平衡策略。Kernel optimal matching (KOM) 作為GOM的一類子類,理論和經驗結論表明,可以將許多方法的優點匯集在這一類方法中。KOM可以轉化為求解線性約束的凸二次優化問題,在繼承了可解釋性與 model-free 的匹配一致性同時,還實現了在特定回歸問題下的、減少 bias 以及和 doubly robust 方法相當的魯棒性。在有限重疊(limited overlap)的設定下,KOM是一種對于部分識別和魯棒覆蓋問題的可移植的區間估計方法。文章在生成數據和真實數據下驗證了這點。
Kallus, N. 2019. Generalized optimal matching methods for causal inference. The Journal of Machine Learning Research (forthcoming)? ??
論文標題:因果推斷的廣義最優匹配方法
摘要:本文唯一作者 Nathan Kallus 也是上一篇推文“A framework for optimal matching for causal inference”的唯一作者,本文“Generalized Optimal Matching Methods for Causal Inference”是基于上一篇工作推廣的后續工作,整體上延續了先前的研究思路,但是給出了更詳盡的理論依據并提出了KOM++這種新的匹配策略。文章的理論性同樣十分強,但作者也在KOM章節給出了一些諸如 kernel 選擇等實踐化的建議與討論,十分推薦在因果推斷 matching 領域的研究者閱讀,也建議對因果推斷、機器學習理論感興趣的朋友進一步閱讀。
1.2 基于傾向評分的方法(Propensity score based method),一篇綜述和一篇前沿
Austin, P. C. 2011. An introduction to propensity score methods for reducing the effects of confounding in observational studies. Multivariate behavioral research 46(3): 399–424.? ?
論文標題:在觀測研究中用于減少混淆變量影響的傾向性評分方法簡介
摘要:傾向性評分是給定觀測特征條件下的接受治療概率賦值,它通過模仿隨機化實驗的一些特定特征來允許研究者進行觀測研究的設計和分析。具體而言,傾向性評分是一種平衡評分:在給定傾向性評分情況下,觀測到的協變量分布會近似于隨機化實驗的分布。本文討論了四種傾向性評分方法:基于傾向性評分的匹配法、基于傾向性評分的分層法、基于傾向性評分的 inverse probability of treatment
weighting(IPW) 法以及基于傾向性評分的協變量調整法。本文描述了一種平衡診斷程序,用于檢驗使用的傾向性評分方法是否合理。此外,本文還討論了基于回歸的方法和基于傾向性評分的方法在觀測數據分析上的區別。文章最后描述了不同的平均因果效應與傾向性評分分析的聯系。
Kun Kuang, Peng Cui, Hao Zou, Bo Li, Jianrong Tao, Fei Wu, and Shiqiang Yang. Data-Driven Variable Decomposition for Treatment Effect Estimation, IEEE Transaction on Knowledge and Data Engineering (TKDE) , 2020? ??
論文標題:數據驅動的變量分解用于因果效應估計
摘要:因果推斷的一個基本問題是觀察研究中存在混淆變量時的因果效應估計。傾向性評分常被用于混淆效應的控制。但它將所有觀察到的變量視為混淆變量,從而忽略了那些對處理沒有影響,但對于結果具有預測性的調整變量。最近研究證明,調整變量可以有效減少估計因果效應的方差。然而,如何自動分離混淆變量和調整變量依然是一個開放性問題。在這篇文章中,我們首次提出一種數據驅動的變量分解(Data-Driven Variable Decomposition, D2VD)算法,它可以自動將變量分離為混淆變量和調整變量,并同步地估計因果效應。在標準假設下,我們從理論上證明了D2VD 算法能以更低的方差給出因果效應的無偏估計。此外,為了解決非線性問題,我們提出了一種非線性的D2VD (Nonlinear-D2VD, N-D2VD)算法。為了驗證算法的有效性,我們在合成數據集和真實數據集上進行了大量的實驗。實驗結果表明,與現有的方法相比,D2VD 和 N-D2VD 算法能夠自動而精確地分離變量,更準確地估計因果效應,且方差更小。我們還表明,在一個在線廣告數據集中,我們的算法產生排名靠前的特征具有最好的預測性能。
1.3 直接混淆因子均衡方法(Directly confounder balancing)
K. Imai and M. Ratkovic. Covariate balancing propensity score. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 76(1):243–263, 2014.? ??
論文標題:協變量均衡的傾向評分
摘要:傾向評分在各種因果推斷中扮演著核心角色。特別地,在觀察性數據的分析中,基于傾向評分估計的匹配和加權方法愈發常見。盡管這些方法廣受歡迎,而且在理論上具有吸引力,但是它們實際困難主要是必須估計傾向評分。研究者已經發現,對傾向評分模型的微小誤判會導致因果效應估計的嚴重偏差。我們引入協變量均衡的傾向評分(Covariate Balancing Propensity Score, CBPS)方法,在對 Treatment 賦值進行建模的同時,優化協變量均衡性。也就是說 CBPS 同時利用傾向評分幫助協變量均衡和建模 Treatment 賦值條件概率。CBPS 的估計可以用廣義矩估計或者經驗似然框架實現。我們發現 CBPS 顯著改善了傾向評分匹配和加權方法在文獻報道中糟糕的實證表現。我們還表明,CBPS 可以推廣到其他重要的環境中,包括估計非二值處理的廣義傾向評分以及將實驗估計值推廣到目標人群。我們提供了一個開源軟件用于實現上述提出的方法。
Kun Kuang, Peng Cui, Bo Li, Meng Jiang, Fei Wu and Shiqiang Yang. Treatment Effect Estimation via Differentiated Confounder Balancing and Regression, Transactions on Knowledge Discovery from Data (TKDD) , 2019.
論文標題:通過區分性混淆變量均衡和回歸得到因果效應估計
摘要:因果效應在諸如社會營銷、醫療保健和公共政策等領域的決策中扮演著重要角色。在一般的觀察性研究中,估計因果效應的關鍵挑戰是控制由處理單元和對照單元之間混淆變量分布不均衡引起的混淆偏差。傳統的方法在無混淆性假設下,用假定是準確的傾向評分估計來重新加權單元,以消除混淆偏差??刂聘呔S變量可以使無混淆性假設更加可信,但卻在準確估計傾向評分上產生了新挑戰。最近的一系列文獻希望跳過傾向評分估計,直接優化權重來均衡混淆變量的分布。但是當前的均衡方法無法在大量潛在的混淆變量做出選擇和區分,導致在許多高維環境中可能表現不佳。在這篇文章中,我們提出了一個數據驅動的區分性混淆變量均衡(Differentiated Confounder Balancing, DCB)算法,來聯合選擇混淆變量、區分混淆變量權重和均衡混淆變量的分布,以在高維環境下實現因果效應估計。此外,在一些存在嚴重混淆偏差的情況下,為了進一步減小因果效應估計的偏差和方差,我們提出一種回歸校正的區分性混淆變量均衡(Regression Adjusted Differentiated Confounder Balancing, RA-DCB)算法,這種算法基于我們的DCB算法,并納入了結果回歸校正。我們提出的協同學習算法更能減少許多觀察性研究中的混淆偏差。為了驗證上述DCB算法和RA-DCB算法的有效性,我們在合成數據集和真實世界數據集中進行了大量實驗。實驗結果清楚表明我們的算法比當下流行的方法具有更好的表現。通過納入回歸校正,我們的RA-DCB算法估計得到的因果效應比DCB算法得到的具有更高的精確度,特別是在嚴重混淆偏差的情況下。最后,我們展示了由我們算法所產生的排名靠前的特征可以準確地預測在線廣告的效果。
本次推薦的論文主要屬于 Causal Inference for Data Science ,七個因果推斷工具中的第二個 The Control of Confounding 有關內容。? ?
圖3:七個因果推斷工具
2. 近期資訊推薦
我們本次的資訊推薦包括一門新出的因果課程,兩個 Causal AI 方面報告,一篇因果遷移學習的論文(正是我們讀書會本周周末的將要分享主題)。
2.1 Causal AI課程
課程名:Introduction to Causal Inference (ICI)?from a Machine Learning Perspective
這門課程由 Yoshua Bengio 高徒 Brady Neal 主講,主要講述因果推理相關知識。此外,該課程整合了來自許多不同領域的見解,如流行病學、經濟學、政治學和機器學習等,這些領域都利用到了因果推理。
課程鏈接:https://www.bradyneal.com/causal-inference-course#course-textbook
【內容標簽】Causality 因果推理基礎
2.2 Causal AI報告
報告名:Symbolic, Statistical and Causal Artificial Intelligence
在 MLSS2020 上,Bernhard Scholkopf 首先簡單介紹了該機器學習暑期學校,它將會涉及從基礎到 state-of-art 的現代機器學習核心主題。然后回顧了人工智能的歷史,指出 Causality 將會是下一代人工智能的關鍵。
Bernhard Scholkopf 講座 Causal AI
課程鏈接:https://www.youtube.com/watch?v=8staJlMbAig
【內容標簽】Causal AI 概覽
報告名:因果強化學習(Causal Reinforcement Learning)
在ICML2020上Elias Bareinboim教授組織了關于因果強化學習的 Tutorial, 介紹了因果和強化學習之間的聯系,并且總結了因果強化學習中的6個重要的任務:將在線學習和離線學習結合,在強化學習中加入合適的干預,反事實決策,使用強化學習提取因果模型,以及在 Reward 未知的情形下訓練強化學習模型。
見 ICML2020 https://crl.causalai.net/
【內容標簽】Causal AI 因果機器學習
2.3 因果遷移學習論文
Edmonds M, Ma X, Qi S, et al. Theory-Based Causal Transfer: Integrating Instance-Level Induction and Abstract-Level Structure Learning[C]//AAAI. 2020: 1283-1291.
論文標題:基于理論的因果遷移:實例級別的歸納及抽象級別的結構學習
摘要:在相近但不同的設定間學習可遷移的知識是通用智能的基本組成。本文從因果理論的視角來逼近遷移學習的挑戰。本文的智能體被賦予兩條基礎但一般性的理論來進行遷移學習:(i)跨域的任務間有一個不變的一般性抽象結構;(ii)環境表現出的特定特征在跨域時維持常數。本文采用了貝葉斯視角的因果理論進行歸納,并用這些理論在不同環境間來遷移知識。給定這些一般性理論,本文的目標是訓練一個可和問題空間交互并探索的智能體來:(i)發現、構建并遷移有用的抽象結構化知識;(ii)從環境中觀測到的實例級別屬性中歸納出有用的知識。貝葉斯結構的層級被用于建模抽象層面的結構化因果知識,實例級別的相關性學習機制通過交互來學習哪種特定目標可以被用于歸納狀態的改變。這種模型學習機制和一個基于模型的規劃器結合來完成“開鎖”環境中的任務,所謂的“開鎖”環境是指一個虛擬的“逃脫空間”,空間內有復雜的層級,要求智能體對抽象、泛化的因果結構進行推理。本文和先前一系列上佳的無模型強化學習算法進行了比較。強化學習智能體在不同的嘗試中顯示出較差的可遷移知識的學習能力。但是本文提出的模型展現出趨近人類學習者的性能,更重要的是,展現出在不同的嘗試和學習環境中展現出可遷移的行為。
【內容標簽】Causal AI 因果機器學習
3. 近期社區活動
2020年11月1日晚8點,因果科學與Casual AI讀書會第六期——“潛結果框架下的因果效應估計”如期進行,浙江大學助理教授況琨作了精彩分享。
因果問題存在于很多領域,如醫療健康、經濟、政治科學、數字營銷等。比如一種新的藥物是否比舊的藥物更有療效?一個新的策略是否能提升銷量?一個新的政策會給民眾、經濟和社會帶來多大的影響?所以這些問題都需要因果推理的技術來解決。
?
什么是因果,通俗來說,因果在生活中很普遍,“因”其實就是引起某種現象發生的原因,而“果”就是某種現象發生后產生的結果。但因果性卻很難直接觀測到,一般在觀測中會得到事件之間的相關性,而在觀察性研究中發展自動統計方法來推斷因果效應是非常困難的。況琨提出了一些在現實的大數據場景中面臨因果效應估計的一些挑戰,包括(1)高維和噪聲變量,(2)變量之間相互作用的未知模型結構,和(3)連續/復雜處理變量。為了應對這些挑戰,他們提出了以下的算法:
Data-Driven Variable Decomposition (D2VD) algorithm;
Decomposed Representation Counterfactual Regression (DeR-CFR) model;
Differentiated Confounder Balancing (DCB) algorithm;
Generative Adversarial De-confounding (GAD) algorithm.
相比于當前已有的方法,他們提出的這些算法在觀察性研究中可以對因果效應作出更精確和穩健的估計。了解更多詳情:
https://mp.weixin.qq.com/s/Yx5wtwl8efBNQ_S-grKxbA
了解讀書會具體規則、報名讀書會請點擊下方文章:因果科學與 Causal AI 系列讀書會 | 眾包出書
?
時間:9月20日起,每周日晚19:00-21:00,持續約2-3個月
模式:線上閉門讀書會;收費-退款的保證金模式;讀書會成員認領解讀論文
費用:299元/人
內容安排:? ?
?
圖注:針對讀書會的主題,由發起人龔鶴揚設置好了內容框架,每個主題下有一個負責人來負責維護組織相關內容,目前已經定好的如圖所示,歡迎對主題感興趣的聯系相關負責人,以及來認領相關主題。
因果科學社區簡介:它是由智源社區、集智俱樂部共同推動,面向因果科學領域的垂直型學術討論社區,目的是促進因果科學專業人士和興趣愛好者們的交流和合作,推進因果科學學術、產業生態的建設和落地,孕育新一代因果科學領域的學術專家和產業創新者。
???
因果科學社區歡迎您加入!
?
因果科學社區愿景:回答因果問題是各個領域迫切的需求,當前許多不同領域(例如 AI 和統計學)都在使用因果推理,但是他們所使用的語言和模型各不相同,導致這些領域科學家之間溝通交流困難。因此我們希望構建一個社區,通過組織大量學術活動,使得科研人員能夠掌握統計學的核心思想,熟練使用當前 AI 各種技術(例如 Pytorch/Pyro 搭建深度概率模型),促進各個領域的研究者交流和思維碰撞,從而讓各個領域的因果推理有著共同的范式,甚至是共同的工程實踐標準,推動剛剛成型的因果科學快速向前發展。具備因果推理能力的人類緊密協作創造了強大的文明,我們希望在未來社會中,因果推理融入到每個學科,尤其是緊密結合和提升 AI ,期待無數具備攀登因果之梯能力的 Agents (Causal AI) 和人類一起協作,共建下一代的人類文明!
?
如果您有適當的數學基礎和人工智能研究經驗,既有科學家的好奇心也有工程師思維,希望參與到“因果革命”中,教會機器因果思維,為因果科學作出貢獻,請加入我們微信群:掃描下面社區小助手二維碼加入(請備注“因果科學”)????
? ? ? ?
總結
以上是生活随笔為你收集整理的《因果科学周刊》第2期:如何解决混淆偏差?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数论杂谈(欧拉定理与费马小定理结论与应用
- 下一篇: android byteBuffer的使