大数据时代,你应该知道的生活真相(下)
本文寫于2016年,由于未標注原創(chuàng),因此這里再發(fā)一次,寫得比較稚嫩,但一開始就是這樣的
正文開始
接著上期,繼續(xù)聊生活的真相,這次我們要談?wù)勊幤窓z驗造假、籃球中的手熱效應(yīng)、人人都是大胖子、單身漢約會法則、為什么高富帥總是很冷漠等有趣的話題,里面都蘊含著統(tǒng)計檢驗、線性思維、思維漏洞中的奇妙法則哦。
Part 1
顛覆統(tǒng)計檢驗
顯著性檢驗原理
很多科學(xué)問題都可以簡化為二選一的簡單形式:某件事情正在發(fā)生,是還是不是?針對某種疾病研發(fā)的新藥對改疾病確有療效,還是作用為零?這種“作用是零”的情況叫作“零假設(shè)”。所謂零假設(shè),指的是假設(shè)所研究的介入活動不起任何作用。那么,如何推翻零假設(shè)?我們可以借助某個標準框架-“顯著性檢驗”。下面舉個例子你就明白了:
我們需要做一個實驗,找到100個實驗對象,從中隨機選取50人,讓他們服用我們研發(fā)的新藥,剩下的50人則服用安慰劑。我們顯然希望服藥病人的死亡率低于服用安慰劑的病人。
但是,如果我們觀察到服藥病人的死亡率低于服用安慰劑的病人,我們也不能說藥物有效,僅僅證明數(shù)據(jù)和理論一致還不夠,還要證明數(shù)據(jù)與反理論不一致,也就是排除討厭的零假設(shè)。
這里的零假設(shè)就是:假設(shè)藥物沒有效果(即零假設(shè)為真),在觀察結(jié)果中是否會出現(xiàn)極端情況,比如極小概率事件的發(fā)生,如果這個事件發(fā)生的概率小于0.05(一般叫P值),則說明實驗結(jié)果具有統(tǒng)計顯著性,我們需要推翻零假設(shè);如果P值很大,則只能承認零假設(shè)沒有被推翻。
以上例為例,假定零假設(shè)成立,這就意味著服用新藥的50名病人與服用安慰劑的50名病人死亡率差不多(比如都是10%左右),即沒有效果,假設(shè)在測試過程中,服用安慰劑的有5人死亡,而服用新藥的病人無人死亡。則我們可以看看這種情況出現(xiàn)的概率,按照零假設(shè),所有50個服用新藥的病人全部存活的概率非常小,只有0.9*0.9*0.9…0.9=0.00515,即1/200,可能性這兒小(小于P=0.05),因此可以推翻零假設(shè),則說明藥物有效。
顯著性檢驗體現(xiàn)了我們對不確定性的直覺推理,因此人們普遍接受這個方法。但是,真得是這樣嗎?
精神分裂的基因藥靠譜嗎?
中藥的效用就不說了,其甚至一直沒有勇氣去進行顯著性檢驗測試,但當報紙上刊登了某種藥物通過了顯著性檢驗,你以為就對了,那我們可能還是太天真了,在臨床醫(yī)學(xué)基于顯著性檢驗不斷發(fā)明新藥的同時,“造假”也隨之而來。
現(xiàn)代研究表明,基因?qū)τ诰穹至寻Y是有影響的,由于這種疾病有遺傳的可能,人們幾乎可以肯定是基因在起作用,但是,起作用的基因位于基因序列的什么位置呢?研究人員可能會普遍撒網(wǎng),對10萬種基因進行檢驗,以期找出與精神分裂有關(guān)的基因,實際上,可能只有大約10種會對精神分裂產(chǎn)生影響。
但是,其余的99990種基因呢?這些基因與精神分裂沒有任何關(guān)系,但是,其中的1/20或者說5000種基因,會順利通過統(tǒng)計學(xué)顯著性檢驗,哈哈,只要次數(shù)足夠多,偶然性就會成為必然性,但是,當研究者將自己的論文發(fā)布出來的時候,除了介紹那次成功的基因?qū)嶒?#xff0c;誰會說那余下的94990次實驗?zāi)亍?/p>
上帝真得可以證明存在嗎?
很多人嘗試用顯著性檢驗來證明上帝存在,首次嘗試用數(shù)學(xué)語言做這個論斷的人是阿布斯諾特,他研究1629-1710年的倫敦人口出生記錄,發(fā)現(xiàn)了顯著的規(guī)律性,在這81年間,每年出生的男孩都多于女孩,于是,他提出了一個疑問:在上帝不存在、新生兒性別隨機分布這個零假設(shè)前提下,出現(xiàn)這個巧合情況的概率是多少呢?假設(shè)在任一年份,倫敦新生人口男孩多于女孩的概率為1/2,那么連續(xù)81年出現(xiàn)這種情況的概率幾乎等于0,阿布斯諾特根據(jù)這個發(fā)現(xiàn)撰寫了一篇論文,論文的題目為“神圣天意的論據(jù)-從新生兒性別研究中發(fā)現(xiàn)的永恒規(guī)律”。阿布斯諾特提出的這個論據(jù)受到了神學(xué)研究名流的普遍贊譽。
事實是這樣嗎,其它數(shù)學(xué)家迅速指出他的推理過程存在缺陷,主要是零假設(shè)不合理,即嬰兒性別是隨機確定的,生男孩女孩的概率相同嗎?如果我們將一枚硬幣拋82次,結(jié)果全部為正面,那么我們應(yīng)該認為“硬幣有問題”,而不是“上帝青睞硬幣的正面”。
Part 2
相關(guān)性悖論
吸煙是肺癌的結(jié)果嗎?
吸煙致癌現(xiàn)在基本已經(jīng)蓋棺定論了,因為兩者有強烈的相關(guān)性,但相關(guān)性有可能是某些尚未被人們發(fā)現(xiàn)的共同原因造成的,因此令人困惑,但是更加難以捉摸的是,相關(guān)性還有可能是某些共同結(jié)果造成的。這個現(xiàn)象叫作“柏克森悖論”,其強烈懷疑吸煙與肺癌之間存在聯(lián)系的觀點,疑點是這樣的:
人們發(fā)現(xiàn)吸煙不僅與肺癌存在相關(guān)性,而且會影響人體的所有系統(tǒng),與多種疾病之間都有相關(guān)性,這個事實有點難以理解,因為煙草的危害過于全面和徹底,“如果人們已經(jīng)確認某種藥物可以緩解普通感冒,而調(diào)查發(fā)現(xiàn)這種藥物不僅可以治療傷風(fēng),還可以治愈肺炎、癌癥等多種疾病,科學(xué)家就會認為“研究方法肯定出了問題”,與之相似,煙草業(yè)不可能危害人體的所有系統(tǒng)。
柏克森更傾向于“體質(zhì)假設(shè)”,即吸煙者與非吸煙者之間預(yù)先存在的某種差異,是非吸煙者相對健康的原因。
如果85-95%的人口都是吸煙者,那些不吸煙的少數(shù)人就代表了某種特殊體質(zhì)類型,我們不能確定這些人的平均壽命更長,但是這部分人的總體死亡率將相對低一些。煙草商無時不刻在勸誘我們吸煙,刺激我們的神經(jīng),但是,這一小部分人成功抵制住了誘惑,說明他們的意志力更強,既然他們可以抵制煙草商的誘惑,那么他們抵御肺癌的能力也應(yīng)該更強。
不管你信不信,筆者也有點動搖了,真得是這樣嗎?我們一直以為的確鑿事實真的值得懷疑嗎?
高富帥真得很冷漠嗎?
年輕女性可能注意到一個問題,在與你們約會的男性對象中,相貌英俊的往往不友善,而友善的又往往其貌不揚,難道因為男性五官端正而讓女性覺得討厭?還是因為友善導(dǎo)致男性相貌丑陋?來,用數(shù)學(xué)來幫你解釋。
假設(shè)男性分布于整個正方形中,供分成4種類型:友善且英俊的男性,友善但相貌丑陋的男性,態(tài)度惡劣但英俊的男性,態(tài)度惡劣且相貌丑陋的男性,而且各種類型的男性人數(shù)大致相等。
友善與英俊有一個相同作用,即都會讓女性注意到且具有該特點的男性。坦率地講,女性根本不會考慮與那些太多惡劣且相貌丑陋的男性約會,因此,在下面這個大正方形中含有一個“可接受的男性特征小三角形”。
現(xiàn)在,我們可以找到上述現(xiàn)象出現(xiàn)的原因了。三角形中的那些英俊男性具有從友善到態(tài)度惡劣的不同特征,越是英俊的男生,態(tài)度惡劣的可能性就越大,其相貌與性格之間必然存在負相關(guān)關(guān)系,如果女性刻意讓男性采取惡劣的態(tài)度以實現(xiàn)美化其相貌的目的,女性就會成為“柏克森悖論”的犧牲品。
Part 3
不要線性思維
人人都是大胖子
美國國家健康和營養(yǎng)調(diào)查選擇大量具有代表性的美國人作為樣本,跟蹤調(diào)查他們的健康數(shù)據(jù),內(nèi)容涉及聽力衰退、性傳播疾病等多個方面。該研究還給出了超重美國人的精確占比,毫無疑問,在最近幾十年內(nèi),美國人的超重現(xiàn)象越來越普遍,20世紀70年代初,體重指數(shù)超過25的美國人不足半數(shù),到90年代初,這個數(shù)字接近60%,到2008年,幾乎有3/4的美國人都超重了,據(jù)此我們可以進行線性回歸,其分析的結(jié)果大致為:到2048年,這條線會超過100%
觸目驚心數(shù)字游戲
中東矛盾有多嚴重?喬治敦大學(xué)反恐專家在《外交》雜志山給出了一些冰冷的數(shù)字:“以色列軍方報告,從2000年至2005年10月底,有1074個以色列人死亡,7520人受傷,對以色列這樣一個小國而言,這兩個數(shù)字已經(jīng)大得驚人,按照比例換算的話,相當于5萬美國人死亡,30萬美國人受傷”。摩爾不甘示弱,在《洛杉磯時報》上撰文指出:“在鑄鉛行動中,以色列人打死了1400個巴勒斯坦人,按比例換算,相當于殺死了30萬個美國人,但是新任總統(tǒng)奧巴馬對此保持沉默。
這是赤露露的“線性中心主義”,如果我們根據(jù)死亡人數(shù)在全國人口中所占比例來評判事件,那么在分析人口非常小的國家所發(fā)生的暴行時往往犯嚴重的錯誤,比如評判20世紀的暴行,排在前三位的是德國殖民者對納米比亞赫雷羅人的大屠殺,波爾布特對柬埔寨人的屠殺和利奧波德國王在剛果發(fā)起的殖民戰(zhàn)爭,而希特勒的暴行卻榜上無名。數(shù)學(xué)領(lǐng)域規(guī)避錯誤的一個重要原則是:實地測試某個數(shù)學(xué)方法時,可采用不同的方式進行計算,如果得到不同的結(jié)果,則說明我們使用的方法有問題。
Part 4
其它
單身漢如何成為女性心儀的約會對象
多頭絨泡菌是一種非常有趣的微生物,其沒有大腦,與所有生物一樣,多頭絨泡菌會做決策,當然,它作出的決策無非是“靠近我喜歡的東西(燕麥)”與“遠離我不喜歡的東西(明亮的陽光)”,出于某種原因,多頭絨泡菌在完成這類決策活動時效率極高。生物學(xué)家希望了解其決策機制。
在培養(yǎng)皿一側(cè)放置3克燕麥(黑暗),在另一側(cè)放置5克燕麥(明亮)并用紫外線照射燕麥,然后在中間放上多頭絨泡菌,多頭絨泡菌會怎么做?
他們發(fā)現(xiàn),在這種情況下,多頭絨泡菌選擇兩個方面的次數(shù)各占一半,更多的食物基本抵消了紫外線帶來的不舒服,對于多頭絨泡菌而言,黑暗中的一堆燕麥與明亮處的一大堆燕麥效用一樣。因此,它會左右為難。如果把5克燕麥換成10克,則多頭絨泡菌根本不在乎光線,每次都會朝10可燕麥靠近。從這個實驗看,多頭絨泡菌似乎相當理性。
但是,如果增加一種選擇,比如在黑暗處再放置1克燕麥(黑暗),那么會怎樣?令人驚奇的是,多頭絨泡菌的喜好發(fā)生了變化,選擇3克的燕麥(黑暗)是5克燕麥(明亮)的3倍。
有個波達計算方法為其做了解釋,實現(xiàn)了某種形式的“民主”,比如,我們可以假設(shè)多頭絨泡菌中的50%關(guān)心食物,而其余的50%優(yōu)先考慮光強度,假設(shè)排名第一的得2分,第二的得1分,最后一名得0分。
5克燕麥(明亮),3克燕麥(黑暗),1克燕麥(黑暗) | 50% |
3克燕麥(黑暗)與1克燕麥(黑暗)并列,5克燕麥(明亮) | 50% |
因此,5克燕麥(明亮)從關(guān)心食物的半數(shù)多頭絨泡菌那里得到2分,從優(yōu)先考慮陽光的半數(shù)多頭絨泡菌得到0分,因此總分為2*0.5+0*0.5=1,在并列第一時,我們給每個打1.5分,因此3克燕麥(黑暗)獲得1.25分,1克燕麥(黑暗)得0.75分,根據(jù)得分,3克燕麥(黑暗)排在第一位,5克燕麥(明亮)排在第二位,而1克燕麥(黑暗)則排在最末,與實驗結(jié)果一致。
本來,多頭絨泡菌對光線較暗的小堆燕麥與光線較亮的大堆燕麥的喜愛程度相當,但是,如果再加入更小的堆的光線較暗的燕麥供選擇時,經(jīng)過比較,光線較暗的小堆燕麥似乎更加誘人,以致于多頭絨泡菌幾乎每次都放棄光線較亮的大堆燕麥。
這種現(xiàn)象叫“非對稱性支配效應(yīng)”,其他生物也會受到該效應(yīng)的影響。生物學(xué)家發(fā)現(xiàn),人也是如此,所以,如果你是一位正在尋找真愛的單身漢,那么,在考慮與哪位朋友一起去赴心儀對象的約會時,應(yīng)該選擇條件與你相似但略微遜色于你的那位,千萬不要反過來哦。
在這個大數(shù)據(jù)時代,我們的身邊充滿了數(shù)據(jù),這為數(shù)學(xué)的應(yīng)用提供了無盡的想象,掌握了它,運用數(shù)學(xué)的邏輯,我們就可以透過現(xiàn)實世界錯綜復(fù)雜的表面現(xiàn)象,看清本質(zhì),從而更深入、跟準確地理解我們這個世界。
數(shù)據(jù)中的商機
大數(shù)據(jù)的過去、現(xiàn)在和未來:萬字長文解讀《大數(shù)據(jù)四十二條》
從吳軍的“算法的油水就那么多”說起!
《長安十二時辰》的大案牘術(shù)可不是什么“穿越版”的大數(shù)據(jù)!
大數(shù)據(jù)在5G時代會有什么不同?
從計劃到市場,精準營銷也許到了該改變的時候了!
有了大數(shù)據(jù)這個工具,“社會科學(xué)”也許可以變得更讓人信服!
如何進一步理解精準營銷的內(nèi)涵?
我如何用統(tǒng)計學(xué)指導(dǎo)自己的生活?
談?wù)劥髷?shù)據(jù)時代的《別被算法困在“信息繭房”》
從大數(shù)據(jù)變現(xiàn)出發(fā),如何清晰的理解新零售?
從吳恩達的“AI的壁壘非算法而是數(shù)據(jù)”說起!
大數(shù)據(jù),悟道2016
寶潔,沒必要去褻瀆精準營銷!
業(yè)務(wù)人員的革命:從大數(shù)據(jù)運營是一臺“戲”開始
傳統(tǒng)企業(yè)的模型最佳實踐為什么很難復(fù)制推廣?
一個大數(shù)據(jù)應(yīng)用是如何煉成的?
不忘初心,大數(shù)據(jù)不是IT的狂歡!
傳統(tǒng)企業(yè)大數(shù)據(jù)對內(nèi)運營變現(xiàn)如何破局?
決戰(zhàn)大數(shù)據(jù)的對內(nèi)運營
談?wù)勎业摹渡钊霚\出大數(shù)據(jù)系列講義課程》
重裝上陣-大數(shù)據(jù)管理的實踐和思考
“9·11”15年:致癌人數(shù)已超5400人,這個新聞靠譜嗎?
天龍八步:傳統(tǒng)企業(yè)大數(shù)據(jù)運營的一些思考
普及、開放與平臺:大數(shù)據(jù)價值運營之路(上)
普及、開放與平臺:大數(shù)據(jù)價值運營之路(中)
普及、開放與平臺:大數(shù)據(jù)價值運營之路(下)
大數(shù)據(jù)時代,你應(yīng)該知道的生活真相(上)
數(shù)據(jù)說謊的藝術(shù)
從“男人比女人孝順”和“百度醫(yī)療競價”說起,大數(shù)據(jù)需要科學(xué)和正直的品格
七劍下天山,談?wù)勎艺J識的精準營銷
總結(jié)
以上是生活随笔為你收集整理的大数据时代,你应该知道的生活真相(下)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾云忆想技术干货|TSF微服务治理实战系
- 下一篇: 【马三北漂记】之终章