日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

为什么相关性不等于因果性?终于有人讲明白了

發(fā)布時間:2025/3/15 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 为什么相关性不等于因果性?终于有人讲明白了 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

導(dǎo)讀:本文我們來討論有關(guān)相關(guān)性和因果性的話題。

作者:徐晟

來源:大數(shù)據(jù)DT(ID:hzdashuju)

相關(guān)性體現(xiàn)了兩個事物之間相互關(guān)聯(lián)的程度。比如房屋面積越大,房價就越高,改變其中一個變量(房屋面積)會引發(fā)另一個變量(房屋的價格)朝著同樣的方向變化,這兩個變量就存在正相關(guān)性。反之,如果一個變量的改變會讓另一個變量朝著相反方向變化,就表明它們有負相關(guān)性,比如海拔高度和大氣壓的關(guān)系。

不過,數(shù)據(jù)之間通常只能呈現(xiàn)關(guān)聯(lián)性,而很難直接體現(xiàn)因果性。人工智能就是一個典型代表,計算機只能發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系,它不負責(zé)解釋原因。

再來看看因果性。人其實特別喜歡歸因,一旦看到某種現(xiàn)象,就總喜歡把這個現(xiàn)象歸到某些原因上。這點也體現(xiàn)在人類語言中。比方說,家長常常告訴孩子:“你不好好學(xué)習(xí),就會掛科。”這個表述容易讓人誤以為“好好學(xué)習(xí)”和“掛科”具有因果關(guān)系。

可實際上,家長只是想表達,前者增加了后者發(fā)生的可能性,不是必然會讓后者發(fā)生。日常生活中人們已經(jīng)習(xí)慣使用大量口語化的因果句式,可它們并不一定都有因果關(guān)系。

處理統(tǒng)計學(xué)問題時,我們必須遵守一個基本原則:數(shù)據(jù)的相關(guān)性并不代表因果性。兩個變量存在相關(guān)關(guān)系,并不代表其中一個變量的改變是由另一個變量變化引起的。

舉例來說,20世紀(jì)50年代,人們觀察大氣層二氧化碳的含量和肥胖癥人口的數(shù)量變化,發(fā)現(xiàn)兩個數(shù)據(jù)都出現(xiàn)了明顯的增長。似乎二氧化碳含量的增加會導(dǎo)致人類的肥胖。

但實際原因是,那段時間汽車業(yè)開始發(fā)展,汽車尾氣排放增加,導(dǎo)致了大氣中二氧化碳濃度上升;同時越來越多的人使用汽車作為代步工具,人們走路活動的時間變少,自然也就越來越胖。

類似的案例還有很多。有人說喝啤酒會導(dǎo)致肚子變大,但我們不能證明喝酒是導(dǎo)致肥胖的原因,更有可能的是愛喝酒的人往往飲食不規(guī)律、不愛運動,導(dǎo)致肚子變大;公雞打鳴與日出高度相關(guān),但它顯然不是日出的原因;醫(yī)院的死亡率比其他地方都高,并不表示醫(yī)院是一個危險的地方。

有時,要從數(shù)據(jù)中挖掘和推斷出正確的結(jié)論很困難。其中的陷阱就在于,數(shù)據(jù)的相關(guān)性和因果性經(jīng)常容易混淆。

假設(shè)兩個變量A和B具有相關(guān)性,其中的原因有很多種,并非只有A→B或者B→A這樣的因果關(guān)系。很有可能是,A和B都是由另一個變量C造成的,即C→A且C→B,此時A和B會表現(xiàn)出明顯的相關(guān)性,但我們并不能說A和B存在因果關(guān)系。

比如,有統(tǒng)計數(shù)據(jù)表明,游泳死亡人數(shù)越高,冰糕賣得越多,游泳死亡人數(shù)和冰糕售出量之間存在強相關(guān)性,但我們并不能由此得出吃冰糕會增加游泳死亡風(fēng)險的結(jié)論。它們都是因為另一個原因?qū)е碌摹獨鉁厣吡恕3圆怀员馀c游泳死亡風(fēng)險沒有任何因果關(guān)系。

想要得出因果性,必須從理論上證明兩個變量之間確實有因果關(guān)系,并且排除所有其他隱含變量同時導(dǎo)致這兩個變量的可能性。只通過幾組數(shù)據(jù),不能輕率做出因果關(guān)系的結(jié)論。很多數(shù)據(jù)呈現(xiàn)出來的是表象,無法確認它們是否存在其他隱藏的內(nèi)部變量。

01 吸煙會致癌嗎

統(tǒng)計學(xué)在發(fā)展初期,曾經(jīng)爭論過一個著名的醫(yī)學(xué)問題:吸煙會導(dǎo)致肺癌嗎?這個問題成為20世紀(jì)統(tǒng)計學(xué)家和醫(yī)生討論最激烈的問題之一。

1957年,有兩位學(xué)者在《不列顛醫(yī)學(xué)雜志》上發(fā)表了一組數(shù)據(jù),指出吸煙和肺癌有著顯著的聯(lián)系。這件事驚動了當(dāng)時權(quán)威的統(tǒng)計學(xué)家費希爾。他立即表明了自己的立場:一是不贊成將此問題拿到公共媒體上渲染,認為這是一個嚴(yán)肅的科研問題;二是認為對于吸煙和肺癌是否有因果關(guān)系的理由還不充分。

費希爾駁斥吸煙致癌假說的一個重要科學(xué)主張是,可能存在某些不可觀測的因素,同時導(dǎo)致了人對尼古丁的渴求和患上肺癌。就像我們前面說的,可能存在著變量C,同時影響了變量A和變量B。

在費希爾看來,人的基因可能才是兩者的公共原因,為此他展開了很多研究和論證。不過這也使他陷入了一場醫(yī)學(xué)與統(tǒng)計學(xué)的長期爭論。在隨后幾十年的時間里,不斷有資料證明吸煙和肺癌有很強的關(guān)聯(lián),費希爾的主張失敗了。

醫(yī)學(xué)上很多杰出的發(fā)現(xiàn),存在一定的幸運和巧合,或許只是某位醫(yī)生恰巧找到了那個唯一的病因。比如糞便污水中含有霍亂桿菌,霍亂桿菌會引發(fā)霍亂,而且它碰巧又是引發(fā)霍亂的唯一原因。

但是關(guān)于癌癥和吸煙,人們并沒有找到直接的因果關(guān)系。許多人一輩子抽煙,但沒有患上肺癌;也有人從來不吸煙,卻被診斷出了肺癌。導(dǎo)致肺癌的原因可能是家族遺傳,也可能是人們接觸了某些致癌物質(zhì),因為在當(dāng)時汽車開始普及,無論是柏油道路的鋪設(shè),還是含鉛汽油尾氣的排放,都有可能使人們接觸致癌物質(zhì)。

統(tǒng)計學(xué)家無法給出確切證據(jù)的另一個原因是,這個案例無法用隨機對照實驗進行研究。統(tǒng)計學(xué)家無法隨機挑選一批人,讓他們吸上數(shù)十年煙,冒著可能損害身體健康的風(fēng)險,觀察他們患上肺癌的情況,這么做會存在職業(yè)道德風(fēng)險。但如果沒有做過嚴(yán)謹(jǐn)?shù)膶嶒?#xff0c;誰也無法說服像費希爾這樣的統(tǒng)計學(xué)家認同“吸煙致癌”這樣的因果性結(jié)論。

如今,我們知道“吸煙有害健康”,這句警示標(biāo)語被印在所有卷煙包裝上。但是,得到這個答案的過程比大多數(shù)人想象的艱難得多。

盡管在吸煙與肺癌的爭論中,費希爾的觀點被證明是錯的,但他的統(tǒng)計方法是正確的。費希爾想要表達的是,數(shù)據(jù)的相關(guān)性并不代表因果性,要找到因果關(guān)系就要有正確的方法。從這個角度來看,這正好體現(xiàn)了統(tǒng)計學(xué)本身的嚴(yán)謹(jǐn)性和科學(xué)性。

02 醫(yī)學(xué)上的解決方案

長久以來,人們習(xí)慣性地認為,連續(xù)相伴發(fā)生的兩件事存在因果關(guān)系,比如:烏云密布,傾盆大雨,所以烏云就是下雨的原因。傾盆大雨,道路泥濘,所以下雨是泥濘的原因。

醫(yī)學(xué)上,人們用這種現(xiàn)象來確定藥物療效,比如讓患者吃下某種藥物或進行某種治療,然后觀察患者是否痊愈,如果痊愈就認為治療是有效的。這屬于傳統(tǒng)臨床醫(yī)學(xué)。

18世紀(jì),英國哲學(xué)家休謨提出了一種懷疑主義觀點,他認為,人們從來沒有親身體驗或親眼證實過因果關(guān)系本身,人們看到的永遠是兩個相繼發(fā)生的現(xiàn)象。所以,一切被稱為因果關(guān)系的東西都是值得懷疑的,應(yīng)該重新審視。比如公雞鳴叫,太陽升起。這兩個事情是相繼發(fā)生的,但是公雞鳴叫并不是太陽升起的原因。

在醫(yī)學(xué)上,有些疾病無須治療也能自動痊愈,比如口腔潰瘍和感冒;有些疾病只要給病人吃一些安慰劑,再加上一些心理暗示就能治愈。而以上情況,醫(yī)生所進行的藥物治療都是多此一舉。

為了確認因果性,醫(yī)學(xué)上常用的實驗方法是大樣本隨機雙盲試驗。它的步驟是這樣的。

首先要選擇一定數(shù)量的病人。挑選時有兩個原則。一是大樣本,因為樣本越多,統(tǒng)計結(jié)果越能稀釋掉特例。二是隨機性,這樣能避免病人因病情輕重不同導(dǎo)致痊愈效果的差異。

接著可以把病人們隨機分成三組。第一組是對照組,不做任何治療,用來觀察病人在沒有治療情況下疾病的自愈效果。第二組是安慰劑組,給病人吃沒有治療成分的“假藥”,用來觀察病人的心理作用對疾病的影響。第三組是治療組,給病人服下真藥,觀察藥物真實的治療效果。

在整個治療過程中,病人們并不知道自己屬于哪一組。這種隨機化的好處是消除了混雜在其中的選擇性偏差。最終觀察治療結(jié)果,如果第三組的治療效果明顯高于前兩組,則說明該藥物或療法確實是有效的。

一開始,整個試驗過程只對病人盲測,醫(yī)生知道病人的分組。但在實踐過程中,人們發(fā)現(xiàn),有些醫(yī)生會自覺或不自覺地給病人暗示,他們的主觀判斷和偏見會對實驗結(jié)果產(chǎn)生影響。

于是,人們改進了盲測方法,整個試驗過程連醫(yī)生都不知道自己身處哪一組,病人和醫(yī)生是“雙盲”的,所有的統(tǒng)計工作交由第三方完成。這么做能很好地屏蔽來自醫(yī)生的主觀偏見,讓試驗結(jié)果變得更加客觀和公正。

大樣本隨機雙盲試驗是現(xiàn)今醫(yī)學(xué)界公認的可以確定藥物療效的實用方法。它主張的原則是:為了確認某個變量對實驗結(jié)果有什么影響,就做一組比照實驗,只嘗試改變這個單一變量,然后觀察實驗結(jié)果。

當(dāng)然,這個方法也有不完美的地方。有時,實驗中的相關(guān)變量很多,很難確定到底應(yīng)該控制和不控制哪些變量,以至于最終控制了真正想要測量的變量。但不管怎樣,大樣本隨機雙盲試驗仍然是一套可遵循的、有效的用于驗證因果性的數(shù)據(jù)統(tǒng)計方法。

關(guān)于作者:徐晟,某商業(yè)銀行IT技術(shù)主管,畢業(yè)于上海交通大學(xué),從事IT技術(shù)領(lǐng)域工作十余年,對科技發(fā)展、人工智能有自己獨到的見解,專注于智能運維(AIOps)、數(shù)據(jù)可視化、容量管理等方面工作。

本文摘編自《大話機器智能:一書看透AI的底層運行邏輯》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111696193)

《大話機器智能:一書看透AI的底層運行邏輯》

點擊上圖了解及購買

轉(zhuǎn)載請聯(lián)系微信:DoctorData

推薦語:AI是什么?機器如何擁有“智能”?“智能”如何起作用?本書以通俗易懂的方式,勾勒人工智能的全貌,展現(xiàn)AI的底層運行邏輯,即AI是如何工作的。

劃重點👇

干貨直達👇

  • 建議收藏!數(shù)據(jù)中臺行業(yè)發(fā)展概況及展望

  • 什么是元宇宙、新基建、賽博空間?7個最火科技名詞解釋,都在這里了

  • 詳解6G系統(tǒng)數(shù)據(jù)治理方案的設(shè)計要點和原則

  • 終于有人把監(jiān)督學(xué)習(xí)講明白了

更多精彩👇

在公眾號對話框輸入以下關(guān)鍵詞

查看更多優(yōu)質(zhì)內(nèi)容!

讀書?|?書單?|?干貨?|?講明白?|?神操作?|?手把手

大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?爬蟲?|?可視化

AI?|?人工智能?|?機器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP

5G?|?中臺?|?用戶畫像?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生

據(jù)統(tǒng)計,99%的大咖都關(guān)注了這個公眾號

👇

總結(jié)

以上是生活随笔為你收集整理的为什么相关性不等于因果性?终于有人讲明白了的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。