数据分析中的两种偏差
總第171篇/張俊紅
今天給大家介紹一下數據分析中常見的兩種偏差:選擇性偏差和幸存者偏差。
1.選擇性偏差
選擇性偏差指的是在研究過程中因樣本選擇的非隨機性而導致得到的結論存在偏差,是由于人為主觀的選擇而導致的數據偏差。
我們來看一個關于選擇性偏差的例子,現在有一個研究機構想要研究一個主題就是『醫院是否可以讓人變的更健康』。這個機構隨機挑選了10萬名群眾,測量這10萬名群眾的健康水平,然后根據最近一年是否有去過醫院將10萬名群眾分為兩組,最后得到的統計結果是最近一年沒去過醫院的群體的健康水平要比去過醫院的群體健康水平要好,我們能說明醫院讓人變的更加不健康嗎?
這就是一個很典型的選擇性偏差導致的一個結果,因為最近一年沒去過醫院的群體整體健康水平可能本來就要比去過的要好,所以測試出來的結果也是如此,并不能說明是醫院讓人的變得更加不健康。
我們在日常分析過程中要盡量避免這種偏差的發生,衡量有沒有選擇性偏差的一個很重要標準就是,被比較的兩組群體之間是否具有可比性。
2.幸存者偏差
幸存者偏差指的是只能看到經過某種篩選而產生的結果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵信息。
我們來看一個比較久遠的一個例子,二戰的時候美軍為了加強戰機的防護能力,所以就把參加過戰斗的飛機研究了一遍,發現飛機的彈孔大多集中在機翼和尾部,于是分析中心的工作人員認為建議將這些受損最嚴重的地方加固。
統計學家亞伯拉罕·沃爾德(Abraham Wald)卻得出一個跟直覺相反的結論。他發現參與調查的都是在戰斗中幸存下來的飛機,它們并未遭受致命的襲擊。相反,機艙和發動機等看似毫發無傷的地方反而比較危險,因為這些區域一旦被擊中,就會導致飛機失事墜毀。其實我們看到的飛機是被篩選過后的飛機,還有一部分已經墜毀的飛機我們是看不到的,這就是幸存者偏差。
再比如經常會在脈脈、知乎這樣的平臺上看到,仿佛人人都是年薪百萬,只有自己是個戰斗力不足五的渣渣。這其實都是屬于幸存者偏差,那些年薪百萬的人會主動展示自己,還有一大堆不是年薪百萬的都被過濾掉了。
這就和我們平常工作中遇到的情況一樣,你經常會遇到各種各樣的吐槽,比如抱怨你產品價格太高了,你如果直接把產品價格降低了能解決問題嗎?真正覺得你產品價格高的人可能壓根就不會去跟你抱怨。比如買千元機的人肯定不會跑去蘋果官網抱怨說,你們蘋果手機太貴了。
3.最后
我們在平常數據分析或者是工作中經常會不自覺的陷入上面的這兩種問題里面,那怎么樣才能避免上面的兩種偏差呢?方法就是多問幾個為什么?上面的偏差也是我們通過數據分析得出來的,通過分析得出來結論以后,多去問幾個為什么?為什么會出現這種情況,為什么這些飛機飛回來了,為什么這些人會抱怨價格高。你如果能找到數據背后發生的原因,你也就不會犯上面的錯了。
上面的兩種偏差比較類似,但又不同,前者是因為我們人為選擇研究對象不準確而導致的偏差,后者因為我們只看到了別人想要我們看到的部分而導致的偏差。兩者也有共同點,就是都是因為我們沒有看到數據的全貌而導致的偏差。
你還可以看:
你能分清比例和比率嗎?
你到底偏哪邊的?
總結
以上是生活随笔為你收集整理的数据分析中的两种偏差的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 保时捷管理咨询 CEO 文熠柏到访合肥,
- 下一篇: 10月碎碎念--谈如何做选择