从高斯分布的导出讲起——为什么概率密度函数长成这个样子?
正態(tài)分布(德語:Normalverteilung;英語:normal distribution)又名高斯分布(德語:Gau?-Verteilung;英語:Gaussian distribution, 以德國數(shù)學(xué)家卡爾·弗里德里?!じ咚沟男展诿?#xff09;。想必這個(gè)大名鼎鼎的分布,跟高斯這個(gè)名字一樣,如雷貫耳,只要稍有數(shù)學(xué)常識,都應(yīng)該不陌生吧,即便你已經(jīng)記不太清楚它的密度函數(shù)具體長什么樣子了,沒關(guān)系,密度函數(shù)長這樣:
?
“對對對”,想必你立刻就會(huì)說:“我就記得長這個(gè)樣子!”
?
確實(shí),正態(tài)分布太有名了,也確實(shí)有用的很,本質(zhì)上講正態(tài)分布是整個(gè)概率論與數(shù)理統(tǒng)計(jì)的核心,講的廣一點(diǎn)呢,也是現(xiàn)代科學(xué),包括迄今為止被廣泛應(yīng)用在各類工程中的公式,定理,模型的基石。說的徹底一點(diǎn)呢,若是沒有這樣完美的正態(tài)分布,或許說不定這個(gè)世界現(xiàn)在你所看到的美好也就蕩然無存了。
比如,“什么?”,“對,說你的呢,你的Dota中最鐘愛的混沌騎士CK妥妥是沒有了,混沌的世界,電腦真的好難懂啊!”
再比如,“什么?”,“沒錯(cuò),說的就是你,你的美圖你的PS都沒有了,濾波器都找不到了,你還想要美顏?小心分分鐘變貞子哦!”
?
當(dāng)然我還是比較相信,大多數(shù)的你們還是對這個(gè)正態(tài)分布分布的重要是還是略知一二的,不過你們可曾細(xì)細(xì)的了解過正態(tài)分布呢?下面先來看這個(gè)所謂的高斯分布正態(tài)分布的前世今生吧。
正態(tài)分布的前世今生
正態(tài)分布最早是由一個(gè)叫亞伯拉罕·棣莫弗(Abraham de Moivre,簡稱棣莫弗,法語發(fā)音為(IPA)[d? mwav?])(1667年5月26日-1754年11月27日)的法國人在其對二項(xiàng)分布的研究中提出的。
什么?棣莫弗,這是誰,怎么那么陌生呢?想想你學(xué)過的復(fù)數(shù),想想三角函數(shù)!哦,好像,好像記得上學(xué)的時(shí)候有學(xué)過什么棣莫弗公式,貌似它把三角函數(shù)跟復(fù)數(shù)聯(lián)系起來了。
對,就是這個(gè)棣莫弗。準(zhǔn)確的來講,正是他給出了復(fù)數(shù)的三角表達(dá)式,這個(gè)東西的對后世基于復(fù)變函數(shù)的各種學(xué)科的發(fā)展來說,這個(gè)意義那大大的!
當(dāng)然或許你關(guān)注的點(diǎn)并不是,這個(gè)叫棣莫弗的人,而是二項(xiàng)分布,正在腦海中苦苦搜尋什么是二項(xiàng)分布。想想那個(gè)無聊的投硬幣游戲,想想那個(gè)一次兩次的數(shù)數(shù)經(jīng)歷。對,就是這個(gè)n次重復(fù)投硬幣游戲里面傻傻地?cái)?shù)出現(xiàn)k次正面的,這個(gè)概率分布就是服從所謂的二項(xiàng)分布[2]。
當(dāng)然這里還有有趣的二項(xiàng)式系數(shù)的,國人也叫楊輝三角的東西哦!
?
東西好像扯的有點(diǎn)遠(yuǎn)了,回來回來!回到正題,這個(gè)所謂的二項(xiàng)分布跟正態(tài)分布有什么關(guān)系呢?這就是棣莫弗這人的主要成就之一啦,他1734年發(fā)表的一篇關(guān)于二項(xiàng)分布文章中提出的,當(dāng)二項(xiàng)隨機(jī)變數(shù)的位置參數(shù)n很大及形狀參數(shù)p為1/2時(shí),則所推導(dǎo)出二項(xiàng)分布的近似分布函數(shù)就是正態(tài)分布。當(dāng)然這個(gè)其實(shí)就是個(gè)極限問題,有興趣之后我們可以具體討論。但是這個(gè)結(jié)果確實(shí)是我們直觀上可以相像的,當(dāng)然你還是無法想像,那我們來看看這個(gè)計(jì)算機(jī)的模擬試驗(yàn)。
clc clear close allR3 = binornd(100,0.5,100,1); #第一二個(gè)參數(shù)是二項(xiàng)分布的參數(shù),用拋硬幣來理解,第一個(gè)參數(shù)是拋硬幣 #的次數(shù),第二個(gè)參數(shù)是概率,第三個(gè)和第四個(gè)參數(shù)是代表樣本的維度,每個(gè)樣本都是基于二項(xiàng)分布產(chǎn)生的,## #共產(chǎn)生了100*1個(gè)樣本。即重復(fù)100次相同實(shí)驗(yàn),而每次實(shí)驗(yàn)是將硬幣丟100次,樣本值是1出現(xiàn)的次數(shù);即總 #共仍了100*100次硬幣 R4 = binornd(1000,0.5,1000,1); R5 = binornd(10000,0.5,10000,1);figure subplot(1,3,1) histfit(R3) title('N = 100') subplot(1,3,2) histfit(R4) title('N = 1000') subplot(1,3,3) histfit(R5) title('N = 10000')?
我們的R3,R4,R5分別是從N=100,1000,10000次二項(xiàng)分布中生成的,清晰的看到隨著N的增加,這個(gè)分布越來越接近我們這個(gè)具有代表性的的這個(gè)正態(tài)分布了。
事實(shí)上,這個(gè)東西的嚴(yán)格的講還有特別厲害的名字,中心極限定理,?wiki上有一段有趣的歷史。Tijms (2004, p.169) 寫到:
中心極限定理有著有趣的歷史。這個(gè)定理的第一版被法國數(shù)學(xué)家棣莫弗發(fā)現(xiàn),他在1733年發(fā)表的卓越論文中使用正態(tài)分布去估計(jì)大量拋擲硬幣出現(xiàn)正面次數(shù)的分布。這個(gè)超越時(shí)代的成果險(xiǎn)些被歷史遺忘,所幸著名法國數(shù)學(xué)家拉普拉斯在1812年發(fā)表的巨著?Théorie Analytique des Probabilités中拯救了這個(gè)默默無名的理論。拉普拉斯擴(kuò)展了棣莫弗的理論,指出二項(xiàng)分布可用正態(tài)分布逼近。但同棣莫弗一樣,拉普拉斯的發(fā)現(xiàn)在當(dāng)時(shí)并未引起很大反響。直到十九世紀(jì)末中心極限定理的重要性才被世人所知。1901年,俄國數(shù)學(xué)家里雅普諾夫用更普通的隨機(jī)變量定義中心極限定理并在數(shù)學(xué)上進(jìn)行了精確的證明。如今,中心極限定理被認(rèn)為是(非正式地)概率論中的首席定理。
?
然而,正態(tài)分布真正走入人們視線的并不是由這個(gè)無聊的投硬幣試驗(yàn)所得的二項(xiàng)分布的逼近,而是實(shí)實(shí)在在的工程誤差分析中應(yīng)用。據(jù)說wiki說,拉普拉斯在誤差分析試驗(yàn)中使用了正態(tài)分布。勒讓德于1805年引入最小二乘法這一重要方法;而高斯則宣稱他早在1794年就使用了該方法,并通過假設(shè)誤差服從正態(tài)分布給出了嚴(yán)格的證明。(看來大牛們?yōu)榱税鏅?quán)也是的撕厲害,不過事實(shí)似乎表明,最后還是高斯贏了,畢竟現(xiàn)在也叫高斯分布)
?
第一張圖是據(jù)說被誤用了200多年的勒讓德的肖像,而第二張圖才是真身,哎,滿滿的怒氣,似乎在嘲笑也在責(zé)怪世人的愚昧,不光研究結(jié)果被搶先一步,連肖像也能用錯(cuò),這能不憤怒嗎?至于,第三張毫無疑問就是大名鼎鼎的數(shù)學(xué)王子高斯啦!
之前我們說到高斯對測量誤差研究中發(fā)現(xiàn)了正態(tài)分布,并且這項(xiàng)研究也成為了當(dāng)代統(tǒng)計(jì)學(xué)的中重要的思想--最大似然發(fā)的源頭。下面我們來仔細(xì)看看,他是如何導(dǎo)出這個(gè)完美的分布的。
首先我們要解釋幾個(gè)概念,第一個(gè)是似然(Likelihood)。什么是似然,簡單通俗的來講就是,一系列的概率密度函數(shù)的乘積,說白了也就是還是一種特別的復(fù)合的“概率”。比如對于正態(tài)分布,如果有獨(dú)立同分布的觀察值,則其的似然為:
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
與50位技術(shù)專家面對面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的从高斯分布的导出讲起——为什么概率密度函数长成这个样子?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字典树的作用
- 下一篇: L1正则化与数据分布的关系