倾向得分匹配的stata命令_计量方法的适用条件汇总(二):倾向得分匹配
獨家揭秘:
計量經濟學的魅力與激情:陳強老師的高級計量現場班側記(2019.5.1)
如何學好高級計量:探秘陳強老師的高級計量及Stata現場班(2019.10.1)
接上期推文,本期探討傾向得分匹配的適用條件。
傾向得分匹配(PSM)
傾向得分匹配(Propensity Score Matching,簡記PSM)是估計處理效應(treatment effects)的一種流行方法。考慮橫截面數據,其中為結果變量(outcome variable),為處理變量(treatment variable,表示是否得到政策處理),而為一系列控制變量或協變量(covariates)。
作為一種匹配估計量(matching estimator),PSM依然使用反事實分析(counterfactual analysis)進行因果推斷。考慮處理組的某位個體,我們希望找到控制組的某位個體,使得二者的特征最為接近,即;然后,將個體的結果變量作為個體若未受處理的反事實結果,故個體的處理效應可估計為(其中,為個體受處理的潛在結果)。
依次估計處理組每位個體的處理效應,然后進行簡單算術平均,即為“處理組平均處理效應”(Average Treatment Effects on the Treated,簡記ATT)。其中,在計算 與之間的距離時,由于受到量綱及變量波動幅度的影響,一般并不使用歐氏距離(Euclidean distance),而使用標準化的馬氏距離(Mahalanobis distance)。
然而,由于 的維度通常較高,故可能不易在高維空間找到足夠近的鄰居;這是“維度災難”(curse of dimensionality)的一種表現。而傾向得分匹配使用傾向得分(propensity score)作為一種降維工具。所謂“傾向得分”,就是每位個體進入處理組的概率,可通過將處理變量 對協變量 進行邏輯回歸(Logit)來獲得。
對于處理組的每位個體,尋找控制組中與其傾向得分最為接近的個體進行匹配,然后計算處理組的平均處理效應。在具體匹配方法上,可使用一對一或一對多,或在某個半徑(caliper)內進行匹配,以及使用核函數(kernel function)作為權重進行整體匹配(global matching),在此不再贅述。
PSM的適用條件主要包括以下兩個假定:
PSM1.1 可忽略性(Ignorability)。給定協變量,則潛在結果獨立于處理變量 。
可忽略性的含義是,給定?,則?對于分組變量 的影響可忽略。這意味著,在給定 的條件下,的取值可視為隨機決定(as good as randomly assigned, conditional on ),故類似于“條件隨機實驗”(conditionally randomized trial)。在文獻中,可忽略性的假定也稱為“無混淆性”(unconfoundedness),“條件獨立假定”(conditional independence assumption),或“依可測變量選擇”(selection on observables)。
本質上,“適用條件PSM1.1”是一個很強的外生性條件。它意味著不存在未度量的“混淆變量”(confounder);即使有遺漏變量,也不與處理變量相關,故沒有遺漏變量偏差。因此,原則上,也可以使用OLS估計平均處理效應。然而,若使用OLS,則不清楚是否應在回歸方程中加入平方項、交互項或其他非線性項。而傾向得分匹配則可視為一種更穩健的非參數估計,盡管在其第一階段使用Logit回歸估計傾向得分時依然使用了參數方法。
很遺憾,可忽略性假定并不可檢驗。退而求其次,通常要求 應包含較為豐富的一系列協變量,以增大“依可測變量選擇”成立的可能性。然而,即使包含很多變量,也仍可能遺漏某些關鍵變量,比如不可觀測的個體能力,而個體能力可能同時影響潛在結果與處理變量。如果在理論上懷疑存在這種情況,則可忽略性假定可能不成立,故無法使用PSM。此時,需要尋找其他合適的方法進行因果推斷,比如工具變量法、雙重差分法或斷點回歸等。
PSM1.2 共同支撐(Common Support)。共同支撐假定也稱為“重疊假定”(overlap assumption),即處理組與控制組的傾向得分取值有足夠多的重疊區域,參見下圖:
事實上,共同支撐假定只是進行PSM估計的最低要求。顯然,如果處理組與控制組的傾向得分取值無重疊區域,則無法進行匹配。在某種意義上,共同支撐假定類似于OLS的“無嚴格多重共線性”(no strict multicollinearity)假定,只是對于數據的最低要求。在實踐中,對于在共同支撐之外的觀測值,可以直接刪除。
PSM的Stata估計
在Stata中進行PSM估計,建議使用官方命令teffects psmatch,因為它可提供由Abadie and Imbens(2012)所提出的正確標準誤,稱為“AI Standard Errors”。早期流行的非官方命令psmatch2所提供的標準誤并不正確,故無法進行有效的統計推斷。有關PSM估計量的正確標準誤,詳見往期推文?傾向得分匹配:psmatch2 還是 teffects psmatch。
PSM的缺點及替代方法
傾向得分匹配將高維的協變量壓縮為一維的傾向得分(且取值介于0與1),無疑損失了不少信息。PSM雖然可能使處理組與控制組的協變量分布更為平衡,但并沒有保障;因為即使不同個體的傾向得分很接近,其協變量也可能相差較遠。
為此,實證研究者在進行PSM估計后,也常進行“數據平衡檢驗”(data balancing test),即考察協變量在兩組數據的均值是否在匹配后變得更為接近。在理論上,PSM的有效性并不依賴于匹配之后的數據平衡性;但若在匹配之后兩組數據變得更為平衡,無疑可增強實證研究者的信心。
由于PSM在壓縮數據時損失了信息(第一階段的Logit回歸設定也有一定主觀性),且無法保證數據的平衡性,故PSM近年來面臨越來越多的批評,以哈佛大學“大學教授”(university professor)政治學者Gary King為代表人物。
Gary King及其合作者提出另一匹配方法,即粗糙化精確匹配(Coarsen Exact Matching,簡記CEM)。該方法將連續變量離散化,比如將教育年限分為小學以下、小學、初中、高中、大學、碩士、博士,然后使用此粗糙化的教育年限進行精確匹配,以保證處理組的小學畢業生一定匹配控制組的小學畢業生(若使用PSM則無此保證),以此類推。與PSM相比,CEM可能更有效率(使用了更多協變量的信息),且能保證數據的平衡性(通過預先設定粗糙化的程度),故在政治學等社會科學領域越來越流行,本號將在未來另文介紹。
參考文獻
陳強,《高級計量經濟學及Stata應用》,第2版,高等教育出版社,2014年
陳強,《計量經濟學及Stata應用》,高等教育出版社,2015年(好評如潮的配套教學視頻,可在網易云課堂購買)
陳強,《機器學習及R應用》,高等教育出版社,2020年,即將出版。
陳強,《機器學習及Python應用》,高等教育出版社,2020年,即將出版。
Upcoming Events? ???
陳強老師親授“高級計量經濟學與Stata應用”2020年國慶節(10月1-6日)現場班占座開啟,詳情可點擊頁底“
魏老師
QQ:1143703950
Tel:010-68478566
Mail:vip@pinggu.org
We?chat:13581781541
陳強老師簡介
陳強,男,1971年出生,山東大學經濟學院教授,數量經濟學博士生導師。
分別于1992年、1995年獲北京大學經濟學學士、碩士學位,后留校任教。2007年獲美國Northern Illinois University數學碩士與經濟學博士學位。已獨立發表論文于Oxford Economic Papers?(lead article), ?Economica,?Journal of Comparative Economics,《經濟學(季刊)》、《世界經濟》等國內外期刊。著有暢銷研究生教材《高級計量經濟學及Stata應用》與本科教材《計量經濟學及Stata應用》,以及好評如潮的本科計量教學視頻(網易云課堂)。2010年入選教育部新世紀優秀人才支持計劃。
(c) 2020, 陳強,山東大學經濟學院
www.econometrics-stata.com
轉載請注明作者與出處
Our mission is to make econometrics easy, and facilitate convincing empirical works.
總結
以上是生活随笔為你收集整理的倾向得分匹配的stata命令_计量方法的适用条件汇总(二):倾向得分匹配的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 索尼 WF-C700N 耳机规格曝光,关
- 下一篇: x79主板bios设置中文_bios菜单