正态分布的前世今生(一)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?正態分布的前世今生(一)
神說,要有正態分布,就有了正態分布。
神看正態分布是好的,就讓隨機誤差就服從了正態分布。
創世紀-數理統計
一、正態分布
學過基礎統計學的同學大都對正態分布非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函數寫成數學表達式
也非常具有數學的美感。其標準化后的概率密度函數
f(x)=12π???√e?x22
更加的簡潔漂亮,兩個最重要的數學常量?π,e? ? ?都出現在了公式之中。在我個人的審美之中,它也屬于 top-N 的最美麗的數學公式之一,如果有人問我數理統計領域哪個公式最能讓人感覺到上帝的存在,那我一定投正態分布的票。因為這個分布戴著神秘的面紗,在自然界中無處不在,讓你在紛繁蕪雜的數據背后看到隱隱的秩序。
正態分布又通常被稱為高斯分布,在科學領域,冠名權那是一個很高的榮譽。去過德國的兄弟們還會發現,德國的鋼镚和10馬克的紙幣上都留有高斯的頭像和正態密度曲線。正態分布被冠名高斯分布,我們也容易認為是高斯發現了正態分布,其實不然,不過高斯對于正態分布的歷史地位的確立是起到了決定性的作用。
正態曲線雖然看上去很美,卻不是一拍腦袋就能想到的。我在本科學習數理統計的時候,課本一上來介紹正態分布就給出密度分布函數,卻從來不說明這個分布函數是通過什么原理推導出來的。所以我一直搞不明白數學家當年是怎么找到這個概率分布曲線的,又是怎么發現誤差服從這個奇妙的分布的。直到我讀研究生的時候我的導師給我介紹了陳希儒院士的《數理統計簡史》這本書,看了之后才了解了正態分布曲線從發現到被人們重視進而廣泛應用,也是經過了幾百年的歷史。
正態分布的這段歷史是很精彩的,我們通過講幾個故事來揭開她的神秘面紗。
二、邂逅,正態曲線的首次發現
第一個故事和概率論的發展密切相關,主角是棣莫弗(De Moivre) 和拉普拉斯(Laplace)。
拉普拉斯是個大科學家,被稱為法國的牛頓;棣莫弗名氣可能不算很大,不過大家應該應該都熟悉這個名字,因為我們在高中數學學復數的時候都學過棣莫弗定理(cosθ+isinθ)n=cos(nθ)+isin(nθ)。
古典概率論發源于賭博,惠更斯、帕斯卡、費馬、貝努力都是古典概率的奠基人,他們那會研究的概率問題大都來自賭桌上,最早的概率論問題是賭徒梅累在1654年向帕斯卡提出的如何分賭金的問題。統計學中的總體均值之所以被稱為期望(Expectation), 就是源自惠更斯、帕斯卡這些人研究平均情況下一個賭徒在賭桌上可以期望自己贏得多少錢。
有一天一個哥們,也許是個賭徒,向棣莫弗提了一個和賭博相關
的一個問題:A,B 兩人在賭場里賭博,A,B各自的獲勝概率是p,q=1?p,賭 n 局,若 A 贏的局數?X>np, 則 A 付給賭場?X?np?元,否則B 付給賭場?np?X?元。 問賭場掙錢的期望值是多少。
問題并不復雜, 本質上是一個二項分布,最后求出的理論結果是
其中?b(n,p,i)=(ni)piqn?i? ? ?是常見的二項概率。 但是對具體的?n, 要把這個理論結果實際計算出數值結果可不容易, 因為其中的二項公式中有組合數.這就驅動 De Moivre尋找近似計算的方法計算。
與此相關聯的另一個問題,是遵從二項分布的隨機變量?X~B(n,p), 求X 落在二項分布中心點一定范圍的概率?Pd=P(|X–np|≤d)
對于 p=1/2 的情形, 棣莫弗 做了一些計算并得到了一些近似結果,但是還不夠漂亮,幸運的是 棣莫弗 和 Stirling 處在同一個時代, 而且二人之間有聯系,Stirling 公式是在數學分析中必學的一個重要公式(事實上Stirling 公式的形式其實是棣莫弗最先發現的,但是 Stirling 改進了公式)
n!~2πn????√(ne)n
1733 年,棣莫弗很快利用 Stirling 公式進行計算并取得了重要的進展??紤] n 是偶數的情形,令二項概率
通過 Stirling 公式做一些簡單的計算容易得到,
b(n2)~2πn???√
b(n2+d)b(n2)~e?2d2n
于是有
使用上式的結果,并在二項概率累加求和的過程中近似的使用定積分代替求和,很容易就能得到
P(|Xn–12|≤cn√)~∫2c?2c12π???√e?x2/2dx
看,正態分布的密度函數的形式在積分公式中出現了!這也就是我們在數理統計課本上學到的二項分布的極限分布是正態分布。
以上只是討論了?p=1/2?的情形, 棣莫弗也對?p≠1/2做了一些計算,后來拉普拉斯對?p≠1/2?的情況做了更多的分析,并把二項分布的正態近似推廣到了任意?p?的情況。 這是第一次正態密度函數被數學家勾畫出來,而且是以二項分布的極限分布的形式被推導出來的。 熟悉基礎概率統計的同學們都知道這個結果其實叫棣莫弗-拉普拉斯中心極限定理。
[De Moivre-Laplace 中心極限定理]
設隨機變量?Xn(n=1,2,?)?服從參數為?p?的二項分布,則對任意的?x, 恒有
我們在大學學習數理統計的時候,學習的過程都是先學習了正態分布,然后才學習中心極限定理。而學習到正態分布的時候,直接就描述了其概率密度的數學形式,雖然數學上很漂亮,但是當時很容易困惑數學家們是如何憑空就找到這個分布的。讀了陳希孺的《數理統計學簡史》之后,我才明白正態分布的密度形式首次發現是在棣莫弗-拉普拉斯的中心極限定理中。數學家研究數學問題的進程很少是按照我們數學課本的安排順序推進的,現代的數學課本都是按照數學內在的邏輯進行組織編排的,雖然邏輯結構上嚴謹優美,卻把數學問題研究的歷史痕跡抹得一干二凈。DNA 雙螺旋結構的發現者之一 Waston 在他的名著《DNA 雙螺旋》序言中說:“科學的發現很少會像門外漢所想象的一樣,按照直接了當合乎邏輯的方式進行的?!?/p>
棣莫弗 出他的發現后40年(大約是 1770), 拉普拉斯建立了中心極限定理較一般的形式,中心極限定理后續又被其它數學家們推廣到了其它任意分布的情形,而不限于二項分布。后續的統計學家發現,一系列的重要統計量,在樣本量 N 趨于無窮的時候, 其極限分布都有正態的形式, 這構成了數理統計學中大樣本理論的基礎。
棣莫弗在二項分布的計算中瞥見了正態曲線的模樣,不過他并沒有能展現這個曲線的美妙之處。棣莫弗的這個工作當時并沒有引起人們足夠的重視,原因在于棣莫弗 不是個統計學家,從未從統計學的角度去考慮其工作的意義。 正態分布(當時也沒有被命名為正態分布) 在當時也只是以極限分布的形式出現,并沒有在統計學,尤其是誤差分析中發揮作用。這也就是正態分布最終沒有被冠名 棣莫弗分布的重要原因。 那高斯做了啥工作導致統計學家把正態分布的這頂桂冠戴在了他的頭上呢?這先得從最小二乘法的發展說起。下回分解:-)
總結
以上是生活随笔為你收集整理的正态分布的前世今生(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 斯坦福大学机器学习第三课“多变量线性回归
- 下一篇: 斯坦福大学机器学习第四课“逻辑回归(Lo