从高斯分布的导出讲起——为什么概率密度函数长成这个样子?
正態分布(德語:Normalverteilung;英語:normal distribution)又名高斯分布(德語:Gau?-Verteilung;英語:Gaussian distribution, 以德國數學家卡爾·弗里德里希·高斯的姓冠名)。想必這個大名鼎鼎的分布,跟高斯這個名字一樣,如雷貫耳,只要稍有數學常識,都應該不陌生吧,即便你已經記不太清楚它的密度函數具體長什么樣子了,沒關系,密度函數長這樣:
?
“對對對”,想必你立刻就會說:“我就記得長這個樣子!”
?
確實,正態分布太有名了,也確實有用的很,本質上講正態分布是整個概率論與數理統計的核心,講的廣一點呢,也是現代科學,包括迄今為止被廣泛應用在各類工程中的公式,定理,模型的基石。說的徹底一點呢,若是沒有這樣完美的正態分布,或許說不定這個世界現在你所看到的美好也就蕩然無存了。
比如,“什么?”,“對,說你的呢,你的Dota中最鐘愛的混沌騎士CK妥妥是沒有了,混沌的世界,電腦真的好難懂啊!”
再比如,“什么?”,“沒錯,說的就是你,你的美圖你的PS都沒有了,濾波器都找不到了,你還想要美顏?小心分分鐘變貞子哦!”
?
當然我還是比較相信,大多數的你們還是對這個正態分布分布的重要是還是略知一二的,不過你們可曾細細的了解過正態分布呢?下面先來看這個所謂的高斯分布正態分布的前世今生吧。
正態分布的前世今生
正態分布最早是由一個叫亞伯拉罕·棣莫弗(Abraham de Moivre,簡稱棣莫弗,法語發音為(IPA)[d? mwav?])(1667年5月26日-1754年11月27日)的法國人在其對二項分布的研究中提出的。
什么?棣莫弗,這是誰,怎么那么陌生呢?想想你學過的復數,想想三角函數!哦,好像,好像記得上學的時候有學過什么棣莫弗公式,貌似它把三角函數跟復數聯系起來了。
對,就是這個棣莫弗。準確的來講,正是他給出了復數的三角表達式,這個東西的對后世基于復變函數的各種學科的發展來說,這個意義那大大的!
當然或許你關注的點并不是,這個叫棣莫弗的人,而是二項分布,正在腦海中苦苦搜尋什么是二項分布。想想那個無聊的投硬幣游戲,想想那個一次兩次的數數經歷。對,就是這個n次重復投硬幣游戲里面傻傻地數出現k次正面的,這個概率分布就是服從所謂的二項分布[2]。
當然這里還有有趣的二項式系數的,國人也叫楊輝三角的東西哦!
?
東西好像扯的有點遠了,回來回來!回到正題,這個所謂的二項分布跟正態分布有什么關系呢?這就是棣莫弗這人的主要成就之一啦,他1734年發表的一篇關于二項分布文章中提出的,當二項隨機變數的位置參數n很大及形狀參數p為1/2時,則所推導出二項分布的近似分布函數就是正態分布。當然這個其實就是個極限問題,有興趣之后我們可以具體討論。但是這個結果確實是我們直觀上可以相像的,當然你還是無法想像,那我們來看看這個計算機的模擬試驗。
clc clear close allR3 = binornd(100,0.5,100,1); #第一二個參數是二項分布的參數,用拋硬幣來理解,第一個參數是拋硬幣 #的次數,第二個參數是概率,第三個和第四個參數是代表樣本的維度,每個樣本都是基于二項分布產生的,## #共產生了100*1個樣本。即重復100次相同實驗,而每次實驗是將硬幣丟100次,樣本值是1出現的次數;即總 #共仍了100*100次硬幣 R4 = binornd(1000,0.5,1000,1); R5 = binornd(10000,0.5,10000,1);figure subplot(1,3,1) histfit(R3) title('N = 100') subplot(1,3,2) histfit(R4) title('N = 1000') subplot(1,3,3) histfit(R5) title('N = 10000')?
我們的R3,R4,R5分別是從N=100,1000,10000次二項分布中生成的,清晰的看到隨著N的增加,這個分布越來越接近我們這個具有代表性的的這個正態分布了。
事實上,這個東西的嚴格的講還有特別厲害的名字,中心極限定理,?wiki上有一段有趣的歷史。Tijms (2004, p.169) 寫到:
中心極限定理有著有趣的歷史。這個定理的第一版被法國數學家棣莫弗發現,他在1733年發表的卓越論文中使用正態分布去估計大量拋擲硬幣出現正面次數的分布。這個超越時代的成果險些被歷史遺忘,所幸著名法國數學家拉普拉斯在1812年發表的巨著?Théorie Analytique des Probabilités中拯救了這個默默無名的理論。拉普拉斯擴展了棣莫弗的理論,指出二項分布可用正態分布逼近。但同棣莫弗一樣,拉普拉斯的發現在當時并未引起很大反響。直到十九世紀末中心極限定理的重要性才被世人所知。1901年,俄國數學家里雅普諾夫用更普通的隨機變量定義中心極限定理并在數學上進行了精確的證明。如今,中心極限定理被認為是(非正式地)概率論中的首席定理。
?
然而,正態分布真正走入人們視線的并不是由這個無聊的投硬幣試驗所得的二項分布的逼近,而是實實在在的工程誤差分析中應用。據說wiki說,拉普拉斯在誤差分析試驗中使用了正態分布。勒讓德于1805年引入最小二乘法這一重要方法;而高斯則宣稱他早在1794年就使用了該方法,并通過假設誤差服從正態分布給出了嚴格的證明。(看來大牛們為了版權也是的撕厲害,不過事實似乎表明,最后還是高斯贏了,畢竟現在也叫高斯分布)
?
第一張圖是據說被誤用了200多年的勒讓德的肖像,而第二張圖才是真身,哎,滿滿的怒氣,似乎在嘲笑也在責怪世人的愚昧,不光研究結果被搶先一步,連肖像也能用錯,這能不憤怒嗎?至于,第三張毫無疑問就是大名鼎鼎的數學王子高斯啦!
之前我們說到高斯對測量誤差研究中發現了正態分布,并且這項研究也成為了當代統計學的中重要的思想--最大似然發的源頭。下面我們來仔細看看,他是如何導出這個完美的分布的。
首先我們要解釋幾個概念,第一個是似然(Likelihood)。什么是似然,簡單通俗的來講就是,一系列的概率密度函數的乘積,說白了也就是還是一種特別的復合的“概率”。比如對于正態分布,如果有獨立同分布的觀察值,則其的似然為:
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的从高斯分布的导出讲起——为什么概率密度函数长成这个样子?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字典树的作用
- 下一篇: L1正则化与数据分布的关系