正态分布的前世今生(一)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?正態(tài)分布的前世今生(一)
神說,要有正態(tài)分布,就有了正態(tài)分布。
神看正態(tài)分布是好的,就讓隨機誤差就服從了正態(tài)分布。
創(chuàng)世紀-數(shù)理統(tǒng)計
一、正態(tài)分布
學過基礎統(tǒng)計學的同學大都對正態(tài)分布非常熟悉。這個鐘型的分布曲線不但形狀優(yōu)雅,其密度函數(shù)寫成數(shù)學表達式
也非常具有數(shù)學的美感。其標準化后的概率密度函數(shù)
f(x)=12π???√e?x22
更加的簡潔漂亮,兩個最重要的數(shù)學常量?π,e? ? ?都出現(xiàn)在了公式之中。在我個人的審美之中,它也屬于 top-N 的最美麗的數(shù)學公式之一,如果有人問我數(shù)理統(tǒng)計領域哪個公式最能讓人感覺到上帝的存在,那我一定投正態(tài)分布的票。因為這個分布戴著神秘的面紗,在自然界中無處不在,讓你在紛繁蕪雜的數(shù)據(jù)背后看到隱隱的秩序。
正態(tài)分布又通常被稱為高斯分布,在科學領域,冠名權那是一個很高的榮譽。去過德國的兄弟們還會發(fā)現(xiàn),德國的鋼镚和10馬克的紙幣上都留有高斯的頭像和正態(tài)密度曲線。正態(tài)分布被冠名高斯分布,我們也容易認為是高斯發(fā)現(xiàn)了正態(tài)分布,其實不然,不過高斯對于正態(tài)分布的歷史地位的確立是起到了決定性的作用。
正態(tài)曲線雖然看上去很美,卻不是一拍腦袋就能想到的。我在本科學習數(shù)理統(tǒng)計的時候,課本一上來介紹正態(tài)分布就給出密度分布函數(shù),卻從來不說明這個分布函數(shù)是通過什么原理推導出來的。所以我一直搞不明白數(shù)學家當年是怎么找到這個概率分布曲線的,又是怎么發(fā)現(xiàn)誤差服從這個奇妙的分布的。直到我讀研究生的時候我的導師給我介紹了陳希儒院士的《數(shù)理統(tǒng)計簡史》這本書,看了之后才了解了正態(tài)分布曲線從發(fā)現(xiàn)到被人們重視進而廣泛應用,也是經(jīng)過了幾百年的歷史。
正態(tài)分布的這段歷史是很精彩的,我們通過講幾個故事來揭開她的神秘面紗。
二、邂逅,正態(tài)曲線的首次發(fā)現(xiàn)
第一個故事和概率論的發(fā)展密切相關,主角是棣莫弗(De Moivre) 和拉普拉斯(Laplace)。
拉普拉斯是個大科學家,被稱為法國的牛頓;棣莫弗名氣可能不算很大,不過大家應該應該都熟悉這個名字,因為我們在高中數(shù)學學復數(shù)的時候都學過棣莫弗定理(cosθ+isinθ)n=cos(nθ)+isin(nθ)。
古典概率論發(fā)源于賭博,惠更斯、帕斯卡、費馬、貝努力都是古典概率的奠基人,他們那會研究的概率問題大都來自賭桌上,最早的概率論問題是賭徒梅累在1654年向帕斯卡提出的如何分賭金的問題。統(tǒng)計學中的總體均值之所以被稱為期望(Expectation), 就是源自惠更斯、帕斯卡這些人研究平均情況下一個賭徒在賭桌上可以期望自己贏得多少錢。
有一天一個哥們,也許是個賭徒,向棣莫弗提了一個和賭博相關
的一個問題:A,B 兩人在賭場里賭博,A,B各自的獲勝概率是p,q=1?p,賭 n 局,若 A 贏的局數(shù)?X>np, 則 A 付給賭場?X?np?元,否則B 付給賭場?np?X?元。 問賭場掙錢的期望值是多少。
問題并不復雜, 本質上是一個二項分布,最后求出的理論結果是
其中?b(n,p,i)=(ni)piqn?i? ? ?是常見的二項概率。 但是對具體的?n, 要把這個理論結果實際計算出數(shù)值結果可不容易, 因為其中的二項公式中有組合數(shù).這就驅動 De Moivre尋找近似計算的方法計算。
與此相關聯(lián)的另一個問題,是遵從二項分布的隨機變量?X~B(n,p), 求X 落在二項分布中心點一定范圍的概率?Pd=P(|X–np|≤d)
對于 p=1/2 的情形, 棣莫弗 做了一些計算并得到了一些近似結果,但是還不夠漂亮,幸運的是 棣莫弗 和 Stirling 處在同一個時代, 而且二人之間有聯(lián)系,Stirling 公式是在數(shù)學分析中必學的一個重要公式(事實上Stirling 公式的形式其實是棣莫弗最先發(fā)現(xiàn)的,但是 Stirling 改進了公式)
n!~2πn????√(ne)n
1733 年,棣莫弗很快利用 Stirling 公式進行計算并取得了重要的進展。考慮 n 是偶數(shù)的情形,令二項概率
通過 Stirling 公式做一些簡單的計算容易得到,
b(n2)~2πn???√
b(n2+d)b(n2)~e?2d2n
于是有
使用上式的結果,并在二項概率累加求和的過程中近似的使用定積分代替求和,很容易就能得到
P(|Xn–12|≤cn√)~∫2c?2c12π???√e?x2/2dx
看,正態(tài)分布的密度函數(shù)的形式在積分公式中出現(xiàn)了!這也就是我們在數(shù)理統(tǒng)計課本上學到的二項分布的極限分布是正態(tài)分布。
以上只是討論了?p=1/2?的情形, 棣莫弗也對?p≠1/2做了一些計算,后來拉普拉斯對?p≠1/2?的情況做了更多的分析,并把二項分布的正態(tài)近似推廣到了任意?p?的情況。 這是第一次正態(tài)密度函數(shù)被數(shù)學家勾畫出來,而且是以二項分布的極限分布的形式被推導出來的。 熟悉基礎概率統(tǒng)計的同學們都知道這個結果其實叫棣莫弗-拉普拉斯中心極限定理。
[De Moivre-Laplace 中心極限定理]
設隨機變量?Xn(n=1,2,?)?服從參數(shù)為?p?的二項分布,則對任意的?x, 恒有
我們在大學學習數(shù)理統(tǒng)計的時候,學習的過程都是先學習了正態(tài)分布,然后才學習中心極限定理。而學習到正態(tài)分布的時候,直接就描述了其概率密度的數(shù)學形式,雖然數(shù)學上很漂亮,但是當時很容易困惑數(shù)學家們是如何憑空就找到這個分布的。讀了陳希孺的《數(shù)理統(tǒng)計學簡史》之后,我才明白正態(tài)分布的密度形式首次發(fā)現(xiàn)是在棣莫弗-拉普拉斯的中心極限定理中。數(shù)學家研究數(shù)學問題的進程很少是按照我們數(shù)學課本的安排順序推進的,現(xiàn)代的數(shù)學課本都是按照數(shù)學內在的邏輯進行組織編排的,雖然邏輯結構上嚴謹優(yōu)美,卻把數(shù)學問題研究的歷史痕跡抹得一干二凈。DNA 雙螺旋結構的發(fā)現(xiàn)者之一 Waston 在他的名著《DNA 雙螺旋》序言中說:“科學的發(fā)現(xiàn)很少會像門外漢所想象的一樣,按照直接了當合乎邏輯的方式進行的。”
棣莫弗 出他的發(fā)現(xiàn)后40年(大約是 1770), 拉普拉斯建立了中心極限定理較一般的形式,中心極限定理后續(xù)又被其它數(shù)學家們推廣到了其它任意分布的情形,而不限于二項分布。后續(xù)的統(tǒng)計學家發(fā)現(xiàn),一系列的重要統(tǒng)計量,在樣本量 N 趨于無窮的時候, 其極限分布都有正態(tài)的形式, 這構成了數(shù)理統(tǒng)計學中大樣本理論的基礎。
棣莫弗在二項分布的計算中瞥見了正態(tài)曲線的模樣,不過他并沒有能展現(xiàn)這個曲線的美妙之處。棣莫弗的這個工作當時并沒有引起人們足夠的重視,原因在于棣莫弗 不是個統(tǒng)計學家,從未從統(tǒng)計學的角度去考慮其工作的意義。 正態(tài)分布(當時也沒有被命名為正態(tài)分布) 在當時也只是以極限分布的形式出現(xiàn),并沒有在統(tǒng)計學,尤其是誤差分析中發(fā)揮作用。這也就是正態(tài)分布最終沒有被冠名 棣莫弗分布的重要原因。 那高斯做了啥工作導致統(tǒng)計學家把正態(tài)分布的這頂桂冠戴在了他的頭上呢?這先得從最小二乘法的發(fā)展說起。下回分解:-)
總結
以上是生活随笔為你收集整理的正态分布的前世今生(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 斯坦福大学机器学习第三课“多变量线性回归
- 下一篇: 斯坦福大学机器学习第四课“逻辑回归(Lo