终于有人把正态分布和二八法则讲明白了
導(dǎo)讀:在現(xiàn)實(shí)生活中,絕大多數(shù)的隨機(jī)不是均勻分布的。
作者:徐晟
來源:大數(shù)據(jù)DT(ID:hzdashuju)
如果你是一位程序員,編程時(shí)就一定用過隨機(jī)(random)函數(shù)。它的功能是在特定取值范圍內(nèi)隨機(jī)生成一些數(shù)。這個(gè)函數(shù)在很多編程語言中是預(yù)置的,可以直接調(diào)用。
例如,要從1到100之間隨機(jī)生成一個(gè)整數(shù),寫程序時(shí)就要事先定義一個(gè)1到100的取值范圍,然后調(diào)用隨機(jī)函數(shù),得到一個(gè)該取值范圍內(nèi)等概率的隨機(jī)數(shù),就是說這100個(gè)數(shù)中出現(xiàn)任何數(shù)字的概率都是1/100。
用慣了隨機(jī)函數(shù)的程序員會(huì)誤以為“隨機(jī)”就代表了均勻分布的數(shù)據(jù),即等概率事件。這是一個(gè)誤區(qū)。在現(xiàn)實(shí)生活中,絕大多數(shù)的隨機(jī)不是均勻分布的。
舉個(gè)例子,我們知道拋硬幣正反兩面朝上的概率各有一半,但如果你真的拋上10次硬幣,就會(huì)發(fā)現(xiàn)硬幣正好有5次正面朝上的概率既不是50%,也不是10%,而是在25%左右。因?yàn)樵谧匀唤缰?#xff0c;最普遍的“隨機(jī)”是正態(tài)分布(也稱為高斯分布),其分布曲線呈“鐘形”,如圖1-1所示。
▲圖1-1 正態(tài)分布數(shù)學(xué)函數(shù)圖
正態(tài)分布是一組數(shù)據(jù)在正常狀態(tài)下的概率分布。描述這種分布只需要兩個(gè)參數(shù):一是這組數(shù)據(jù)的平均值,通常用希臘字母μ來表示,它位于函數(shù)圖像正中間的坐標(biāo)位置。二是標(biāo)準(zhǔn)差,通常用希臘字母σ來表示,它代表了這組數(shù)據(jù)的離散程度。標(biāo)準(zhǔn)差越小,數(shù)據(jù)就越集中,反之說明數(shù)據(jù)越分散。
假如一組數(shù)據(jù)服從正態(tài)分布,根據(jù)分布特性,其中有68%的數(shù)會(huì)集中在平均值正負(fù)1個(gè)標(biāo)準(zhǔn)差區(qū)間內(nèi),有95%的數(shù)會(huì)集中在平均值正負(fù)2個(gè)標(biāo)準(zhǔn)差區(qū)間內(nèi),有99.7%的數(shù)會(huì)集中在平均值正負(fù)3個(gè)標(biāo)準(zhǔn)差區(qū)間內(nèi)。由于3個(gè)標(biāo)準(zhǔn)差的區(qū)間幾乎涵蓋了大部分?jǐn)?shù)據(jù),因此它在數(shù)學(xué)中有著非常廣泛的運(yùn)用,適用于很多場景下的推導(dǎo)和估計(jì)。
概括地講,正態(tài)分布說明了“一般的很多,極端的很少”的現(xiàn)象。這種現(xiàn)象生活中很常見。比如,大部分人的身高都在一個(gè)區(qū)間范圍內(nèi),太高或太矮的人不多。仔細(xì)觀察身邊的人,可以發(fā)現(xiàn)非常聰明或者非常愚笨的人很少。統(tǒng)計(jì)全社會(huì)范圍內(nèi)的收入,中檔次收入的人比較多,特別貧窮和特別富裕的人較少。
人們常說的二八法則(也稱帕累托法則),只是換種方式來描述正態(tài)分布現(xiàn)象。二八法則告訴我們,20%的富人擁有世界上80%的財(cái)富;只要掌握字典中20%的文字就能理解文章80%的內(nèi)容;20%的超大城市中居住了80%的人口,等等。
正態(tài)分布的特性還有其他廣泛應(yīng)用。我們知道,利用多次抽樣可以從相對(duì)較少的數(shù)據(jù)中得出令人信服的總體結(jié)論。比如只要調(diào)研100個(gè)人,就能大致了解人類普遍的心理認(rèn)知。只要抽查100件商品,就能得出這批次商品的質(zhì)量結(jié)論。
這些民意調(diào)查、商品抽樣,都在運(yùn)用抽樣樣本對(duì)總體進(jìn)行估計(jì),其背后的數(shù)學(xué)原理是中心極限定理。中心極限定理從理論上證明了,無論隨機(jī)變量總體呈現(xiàn)什么分布,只要抽樣次數(shù)足夠大,樣本的平均值將近似服從正態(tài)分布。
也就是說,雖然每個(gè)人或者每件商品都會(huì)受到大量隨機(jī)因素的影響,這些因素會(huì)對(duì)最終狀態(tài)產(chǎn)生一定影響,但我們不必關(guān)心這些因素的細(xì)節(jié),而只要把人或商品看成一個(gè)整體。該整體的統(tǒng)計(jì)規(guī)律服從正態(tài)分布。
而上述這些情況,才是真實(shí)世界中的“隨機(jī)”。
關(guān)于作者:徐晟,某商業(yè)銀行IT技術(shù)主管,畢業(yè)于上海交通大學(xué),從事IT技術(shù)領(lǐng)域工作十余年,對(duì)科技發(fā)展、人工智能有自己獨(dú)到的見解,專注于智能運(yùn)維(AIOps)、數(shù)據(jù)可視化、容量管理等方面工作。
本文摘編自《大話機(jī)器智能:一書看透AI的底層運(yùn)行邏輯》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:9787111696193)
《大話機(jī)器智能:一書看透AI的底層運(yùn)行邏輯》
點(diǎn)擊上圖了解及購買
轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData
推薦語:AI是什么?機(jī)器如何擁有“智能”?“智能”如何起作用?本書以通俗易懂的方式,勾勒人工智能的全貌,展現(xiàn)AI的底層運(yùn)行邏輯,即AI是如何工作的。
劃重點(diǎn)👇
干貨直達(dá)👇
vivo真實(shí)案例:中臺(tái)到底解決了什么問題?
這10個(gè)功能模塊,手把手教你從零設(shè)計(jì)電商系統(tǒng)
盤點(diǎn)Greenplum 6.0六大新特性及展望
未來 5 年,數(shù)據(jù)中臺(tái)將有這 5 個(gè)重要趨勢
更多精彩👇
在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
讀書?|?書單?|?干貨?|?講明白?|?神操作?|?手把手
大數(shù)據(jù)?|?云計(jì)算?|?數(shù)據(jù)庫?|?Python?|?爬蟲?|?可視化
AI?|?人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP
5G?|?中臺(tái)?|?用戶畫像?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生
據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個(gè)公眾號(hào)
👇
總結(jié)
以上是生活随笔為你收集整理的终于有人把正态分布和二八法则讲明白了的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 盘点Greenplum 6.0六大新特性
- 下一篇: 新手学Python, 如何从入门到入土变