逻辑推理篇:数据分析中违背常理的悖论:辛普森悖论
在現實生活中,我們常常會遇到這樣一種現象,當嘗試研究兩個變量是否具有相關性的時候,會分別對此進行分組研究。
然而,在分組比較中都顯示非常有優勢的一方,在總評時卻成了失勢的一方。直到1951年,英國統計學家E.H.辛普森發表論文對此現象做了描述解釋,后來人們就以他的名字命名該現象,即辛普森悖論。
思考下,辛普森悖論為什么成立?
一、辛普森悖論的原理
下面給出辛普森悖論的數學原理:
從數學表達式上,我們可以看出,對a、b、c、d四個變量,分成1組和2組,在1組比率占優勢的情況下,總體占優勢卻不成立。
看一個例子:抖音6月與7月活躍人群得活躍時長對比,發現男性活躍時長上升,女性也上升,但是整體上7月活躍時長比6月降低是什么原因?
為了讓結果更直觀,我做了一個數據圖,不是很標準,但是足以解釋。
假設6月,活躍男生占比20%,使用平均時長 1.2h;活躍女生占比80%,使用平均時長1.5h,則可以計算6月整體使用時長為1.44h。同理,假設7月,活躍男生占比60%,使用平均時長 1.3h;活躍女生占比40%,使用平均時長1.6h,則可以計算7月整體使用時長為1.42h。
這樣就可以非常清晰的看出,7月比6月男女生的平均觀看時長確實增加了,但是整體的反而降低,問題出現在活躍男女生的比例上。
所以,上述抖音案例的解釋,應該是6月活躍人群女性占比較大,而七月男生占比較大,雖然7月男女生觀看時長都增長了,但是由于一天24小時,除掉工作吃飯睡覺時間,男女生活躍時長的提升幅度并不是很大,這樣就導致,雖然7月男女生活躍觀看時長都有提升,但是整體7月的活躍時長低于6月,本質還是活躍人群結構男女比例發生變化。
所以在運營的時候,在活躍時長增長幅度有限的條件下,如果想增加整體的時長,先保證人群結構中女生占較大比例,再引導男女行增長活躍時長。
二、如何避免出現辛普森悖論
關于如何避免出現辛普森悖論,我個人覺得,辛普森悖論無法完全避免的,很多問題,完全依靠統計學推導因果關系無法實現。就拿生產環境數據來說,雖然我們做了各種畫像,但是其他分類方式依然存在,理論上的潛在變量會無窮無盡。
我們能做的,就是仔細認真的研究各種影響因素,不要籠統概括的看問題,尤其數據分析問題,拆解的越細,最終得到的效果越好。
關于避免辛普森悖論的出現,目前比較流行的一種做法,就是需要斟酌個別分組的權重,以一定的系數去消除以分組資料基數差異所造成的影響,同時必須了解該情境是否存在其他潛在因素,需要進行綜合性考慮。
這段話看完有點暈圈,在實際中斟酌權重和判斷其他因素,大多數還是更多依賴經驗。
雖然不能根本上避免辛普森悖論,但我們至少應該明白:在因果關系里,量與質是不等價的,但是量比質更容易測量,所以人們總是習慣用量來評定好壞,而該數據卻不是重要的。
三、倒過來說辛普森悖論
前面講的辛普森悖論是:在每個分組中占優勢的一方,但整體總評卻成了失勢的一方。那倒過來說辛普森悖論,就是在總體中占優勢的一方,在每個分組比較中反而都占劣勢。
下面介紹一個案例,假設,某產品的推廣渠道有頭條和微信兩種,頭條整體的付費轉化率是3.1%%,微信整體的付費轉化率是1.38%,連頭條轉化率的一半都不到。于是有數據分析師得出結論:微信用戶付費轉化率較低,建議停止微信端的廣告投放。
你認為這個分析師做的對嗎?
我們先來看看,頭條和微信整體轉化率對比情況,頭條的確實比微信轉化率要高:
但是,正常情況下,微信的廣告包括微信公眾號和微信朋友圈兩部分,我們把微信的數據量拆開來對比:
這里,我們會驚奇的發現,原來朋友圈的轉化率是最高的4.12%,而微信公眾號的轉化率很低,但是展示量很大,把整個微信的值拉低了。也可以說,那個分析師失誤了,誤區產生的原因就在于將“值與量”兩個維度的數據,歸納成了“值”一個維度的數據,并進行了合并。
如果要避免“辛普森悖論”給我們帶來的誤區,就需要斟酌個別分組的權重,以一定的系數去消除因分組資料基數差異所造成的影響。
而在實際工作中,就需要盡量去拆解指標,采用MECE原則,指標維度互不重復,完全窮盡。
四、內容延伸
我們繼續理解一個概念:基本比率謬誤(base rate fallacy)。
先看一個例子,小易生病去醫院,做完檢查結果呈陽性,醫生告訴他可能是患上了XX疾病,嚇得他驚慌失措,冷靜之余,他趕忙到網上查詢資料,網上說檢查總是有誤差的,這種檢查有“百分之一的假陽性率和百分之一的假陰性率”。
這句話的意思是說,在得病的人中做實驗,有1%的人是假陽性,99%的人是真陽性。而在未得病的人中做實驗,有1%的人是假陰性,99%的人是真陰性。
于是,小易根據這種解釋,估計他自己得了XX疾病的可能性(即概率)為99%。可是,醫生卻告訴他,他被感染的概率只有0.09左右。這是怎么回事呢?
醫生說:你忘了一件事,XX病在人口中的得病基本比例(1/1000)這個事實。
醫生給出計算方法:因為測試的誤報率是1%,1000個人將有10個被報為“假陽性”,而根據X病在人口中的比例(1/1000=0.1%),真陽性只有1個。所以,大約11個測試為陽性的人中只有一個是真陽性(有病)的,因此,小易被感染的幾率是大約1/11,即0.09(9%)。
基本比率謬誤數學解釋,首先要回顧下貝葉斯定理:
P(A|B) = P(B∣A)P(B)P(B|A) \over {P(B)}P(B)P(B∣A)?P(A)
從貝葉斯定理的原理,解釋小易被感染的幾率就計較容易了。
- A:普通人群中的小易感染XX病
- B:陽性結果
- P(A):普通人群中感染X病的概率
- P(B|A):陽性結果的概率
- P(A|B):有了陽性結果條件下,小易感染XX病的概率
- P(B):結果為陽性的總可能性=檢查陽性中的真陽性+檢查陰性中的真陽性
類似的悖論,還有羅杰斯現象、伯克森悖論、生日悖論等。
總結:
本文介紹了數據分析容易犯的一個誤區,辛普森悖論。上面的例子也告訴我們,統計學中有不少陷阱,如果不提前進行了解,工作中很可能會被錯誤的統計方法迷惑,得出不正確的結論。
辛普森悖論讓我們明白了,在因果關系里,量與質是不等價的,但是量比質更容易測量,所以人們總是習慣用量來評定好壞,而該數據卻不是重要的。
辛普森悖論帶給我們的另外一個啟示是:如果我們在人生的抉擇上選擇了一條比較難走的路,就得具備可能不被賞識、懷才不遇的心理準備。
總結
以上是生活随笔為你收集整理的逻辑推理篇:数据分析中违背常理的悖论:辛普森悖论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 个人成长:2021年终记
- 下一篇: 思维模型篇:数据分析的本质是什么?