當前位置：首頁 >

转载：概率与梳理统计||数学基础

發布時間：2025/3/13 38 豆豆

生活随笔收集整理的這篇文章主要介紹了转载：概率与梳理统计||数学基础小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

導言：本文從微積分相關概念，梳理到概率論與數理統計中的相關知識，但本文之壓軸戲在本文第4節（徹底顛覆以前讀書時大學課本灌輸給你的觀念，一探正態分布之神秘芳蹤，知曉其前后發明歷史由來），相信，每一個學過概率論與數理統計的朋友都有必要了解數理統計學簡史，因為，只有了解各個定理.公式的發明歷史,演進歷程.相關聯系，才能更好的理解你眼前所見到的知識，才能更好的運用之。

前言

? ??一個月余前，在微博上感慨道，不知日后是否有無機會搞DM，微博上的朋友只看不發的圍脖評論道：算法研究領域，那里要的是數學，你可以深入學習數學，將算法普及當興趣。想想，甚合我意。自此，便從rickjin寫的“正態分布的前世今生”開始研習數學。

? ? 如之前微博上所說，“今年5月接觸DM，循序學習決策樹.貝葉斯，SVM.KNN，感數學功底不足，遂補數學，從‘正態分布的前后今生’中感到數學史有趣，故買本微積分概念發展史讀，在嘆服前人偉大的創造之余，感微積分概念模糊，復習高等數學上冊，完后學概率論與數理統計，感概道：微積分是概數統計基礎，概數統計則是DM&ML之必修課。”包括讀者相信也已經感覺到，我在寫這個Top 10 Algorithms in Data Mining系列的時候，其中涉及到諸多的數學概念與基礎知識(例如此篇SVM文章內諸多max.s.t.對偶.KKT條件.拉格朗日.松弛因子等問題則皆屬于數學內一分支：最優化理論與算法范疇內)，特別是概率論與數理統計部分。更進一步，在寫上一篇文章的時候，看到機器學習中那么多距離度量的表示法，發現連最起碼的期望，方差，標準差等基本概念都甚感模糊，于此，便深感數學之重要性。

? ? 很快，我便買了一本高等教育出版社出版的概率論與數理統計一書，此書“從0-1分布、到二項分布、正態分布，概率密度函數，從期望到方差、標準差、協方差，中心極限定理，樣本和抽樣，從最大似然估計量到各種置信區間，從方差分析到回歸分析，bootstrap方法，最后到馬爾可夫鏈，以前在學校沒開概率論與數理統計這門課，現在有的學有的看了”。且人類發明計算機，是為了輔助人類解決現實生活中遇到的問題，然計算機科學畢竟只發展了數十年，可在數學.統計學中，諸多現實生活問題已經思考了數百年甚至上千年，故，計算機若想更好的服務人類解決問題，須有效借鑒或參考數學.統計學。世間萬事萬物，究其本質乃數學，于變化莫測中尋其規律謂之統計學。

? ? 話休絮煩。本文結合高等數學上下冊、微積分概念發展史，概率論與數理統計、數理統計學簡史等書，及rickjin寫的“正態分布的前世今生”系列(此文亦可看作讀書筆記或讀后感)與wikipedia整理而成，對數據挖掘中所需的概率論與數理統計相關知識概念作個總結梳理，方便你我隨時查看復習相關概念，而欲深入學習研究的課后還需參看相關專業書籍.資料。同時，本文篇幅會比較長，簡單來說：

第一節、介紹微積分中極限、導數，微分、積分等相關概念；

第二節、介紹隨機變量及其分布；

第三節、介紹數學期望.方差.協方差.相關系數.中心極限定理等概念；

第四節、依據數理統計學簡史介紹正態分布的前后由來；

第五節、論道正態，介紹正態分布的4大數學推導。

? ? 5部分起承轉合，彼此依托，層層遞進。且在本文中，會出現諸多并不友好的大量各種公式，但基本的概念.定理是任何復雜問題的根基，所以，你我都有必要硬著頭皮好好細細閱讀。最后，本文若有任何問題或錯誤，懇請廣大讀者朋友們不吝批評指正，謝謝。

第一節、微積分的基本概念

? ? 開頭前言說，微積分是概數統計基礎，概數統計則是DM&ML之必修課”，是有一定根據的，包括后續數理統計當中，如正態分布的概率密度函數中用到了相關定積分的知識，包括最小二乘法問題的相關探討求證都用到了求偏導數的等概念，這些都是跟微積分相關的知識。故咱們第一節先復習下微積分的相關基本概念。

? ? 事實上，古代數學中，單單無窮小、無窮大的概念就討論了近200年，而后才由無限發展到極限的概念。

1.1、極限

? ? 極限又分為兩部分：數列的極限和函數的極限。

1.1.1、數列的極限

? ? 定義??如果數列{xn}與常a?有下列關系:對于任意給定的正數e?(不論它多么小),?總存在正整數N?,?使得對于n?>N?時的一切xn,?不等式?|xn-a?|<e都成立,?則稱常數a?是數列{xn}的極限,?或者稱數列{xn}收斂于a?,?記為或

? ? 也就是說，

1.1.2、函數的極限

? ? 設函數f(x)在點x0的某一去心鄰域內有定義.?如果存在常數A,?對于任意給定的正數e?(不論它多么小),?總存在正數d,?使得當x滿足不等式0<|x-x0|<d 時,?對應的函數值f(x)都滿足不等式?????|f(x)-A|<e?, 那么常數A就叫做函數f(x)時的極限,?記為

? ? 也就是說，

? ? 幾乎沒有一門新的數學分支是某個人單獨的成果，如笛卡兒和費馬的解析幾何不僅僅是他們兩人研究的成果，而是若干數學思潮在16世紀和17世紀匯合的產物，是由許許多多的學者共同努力而成。

? ? 甚至微積分的發展也不是牛頓與萊布尼茨兩人之功。在17世紀下半葉，數學史上出現了無窮小的概念，而后才發展到極限，到后來的微積分的提出。然就算牛頓和萊布尼茨提出了微積分，但微積分的概念尚模糊不清，在牛頓和萊布尼茨之后，后續經過一個多世紀的發展，諸多學者的努力，才真正清晰了微積分的概念。

? ? 也就是說，從無窮小到極限，再到微積分定義的真正確立，經歷了幾代人幾個世紀的努力，而課本上所呈現的永遠只是冰山一角。

1.2、導數

設有定義域和取值都在實數域中的函數。若在點的某個鄰域內有定義，則當自變量在處取得增量（點仍在該鄰域內）時，相應地函數取得增量；如果與之比當時的極限存在，則稱函數在點處可導，并稱這個極限為函數在點處的導數，記為。即：

? ? 也可記為：，或。

1.3、微分

設函數在某區間內有定義。對于內一點，當變動到附近的（也在此區間內）時。如果函數的增量可表示為（其中是不依賴于的常數），而是比高階的無窮小，那么稱函數在點是可微的，且稱作函數在點相應于自變量增量的微分，記作，即，是的線性主部。通常把自變量的增量稱為自變量的微分，記作，即。?實際上，前面講了導數，而微積分則是在導數的基礎上加個后綴，即為：。

1.4、積分?

積分是微積分學與數學分析里的一個核心概念。通常分為定積分和不定積分兩種。不定積分的定義一個函數的不定積分，也稱為原函數或反導數，是一個導數等于的函數，即不定積分的有換元積分法，分部積分法等求法。定積分的定義直觀地說，對于一個給定的正實值函數，在一個實數區間上的定積分：定積分與不定積分區別在于不定積分便是不給定區間，也就是說，上式子中，積分符號沒有a、b。下面，介紹定積分中值定理。如果函數f(x)在閉區間[a,b]上連續,?則在積分區間[a,b]上至少存在一個點,使下式成立：這個公式便叫積分中值公式。
牛頓-萊布尼茨公式接下來，咱們講介紹微積分學中最重要的一個公式：牛頓-萊布尼茨公式。如果函數F?(x)是連續函數f(x)在區間[a,?b]上的一個原函數,?則此公式稱為牛頓-萊布尼茨公式,?也稱為微積分基本公式。這個公式由此便打通了原函數與定積分之間的聯系，它表明：一個連續函數在區間[a,?b]上的定積分等于它的任一個原函數在區間[a,?b]上的增量，如此，便給定積分提供了一個有效而極為簡單的計算方法，大大簡化了定積分的計算手續。下面，舉個例子說明如何通過原函數求取定積分。如要計算，由于是的一個原函數，所以。

1.5、偏導數

對于二元函數z = f(x，y) 如果只有自變量x 變化，而自變量y固定這時它就是x的一元函數，這函數對x的導數，就稱為二元函數z = f(x，y)對于x的偏導數。
? ? 定義 ?設函數z = f(x，y)在點(x0，y0)的某一鄰域內有定義，當y固定在y0而x在x0處有增量時，相應地函數有增量，
如果極限存在，則稱此極限為函數z = f(x，y)在點(x0，y0)處對 x 的偏導數，記作：例如。類似的，二元函數對y求偏導，則把x當做常量。此外，上述內容只講了一階偏導，而有一階偏導就有二階偏導，這里只做個簡要介紹，具體應用具體分析，或參看高等數學上下冊相關內容。接下來，進入本文的主題，從第二節開始。

第二節、離散.連續.多維隨機變量及其分布

2.1、幾個基本概念點

(一)樣本空間

定義：隨機試驗E的所有結果構成的集合稱為E的樣本空間，記為S={e}，
稱S中的元素e為樣本點，一個元素的單點集稱為基本事件．

(二)條件概率

條件概率就是事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示為P（A|B），讀作“在B條件下A的概率”。

聯合概率表示兩個事件共同發生的概率。A與B的聯合概率表示為或者。

邊緣概率是某個事件發生的概率。邊緣概率是這樣得到的：在聯合概率中，把最終結果中不需要的那些事件合并成其事件的全概率而消失（對離散隨機變量用求和得全概率，對連續隨機變量用積分得全概率）。這稱為邊緣化（marginalization）。A的邊緣概率表示為P（A），B的邊緣概率表示為P（B）。?

在同一個樣本空間Ω中的事件或者子集A與B，如果隨機從Ω中選出的一個元素屬于B，那么這個隨機選擇的元素還屬于A的概率就定義為在B的前提下A的條件概率。從這個定義中，我們可以得出P(A|B)?=?|A∩B|/|B|分子、分母都除以|Ω|得到有時候也稱為后驗概率。同時，P（A|B）與P（B|A）的關系如下所示：? ? 。?

(三)全概率公式和貝葉斯公式

1、全概率公式假設{?Bn?:?n?=?1,?2,?3,?...?}?是一個概率空間的有限或者可數無限的分割，且每個集合Bn是一個可測集合，則對任意事件A有全概率公式：

又因為

所以，此處Pr(A?|?B)是B發生后A的條件概率，所以全概率公式又可寫作：

在離散情況下，上述公式等于下面這個公式：。但后者在連續情況下仍然成立：此處N是任意隨機變量。這個公式還可以表達為："A的先驗概率等于A的后驗概率的先驗期望值。?2、貝葉斯公式貝葉斯定理（Bayes' theorem），是概率論中的一個結果，它跟隨機變量的條件概率以及邊緣概率分布有關。在有些關于概率的解說中，貝葉斯定理（貝葉斯更新）能夠告知我們如何利用新證據修改已有的看法。
? ? 通常，事件A在事件B（發生）的條件下的概率，與事件B在事件A的條件下的概率是不一樣的；然而，這兩者是有確定的關系，貝葉斯定理就是這種關系的陳述。如此篇blog第二部分所述“據維基百科上的介紹，貝葉斯定理實際上是關于隨機事件A和B的條件概率和邊緣概率的一則定理。如上所示，其中P(A|B)是在B發生的情況下A發生的可能性。在貝葉斯定理中，每個名詞都有約定俗成的名稱：

P(A)是A的先驗概率或邊緣概率。之所以稱為"先驗"是因為它不考慮任何B方面的因素。
P(A|B)是已知B發生后A的條件概率（直白來講，就是先有B而后=>才有A），也由于得自B的取值而被稱作A的后驗概率。
P(B|A)是已知A發生后B的條件概率（直白來講，就是先有A而后=>才有B），也由于得自A的取值而被稱作B的后驗概率。
P(B)是B的先驗概率或邊緣概率，也作標準化常量（normalized?constant）。

? ? 按這些術語，Bayes定理可表述為：后驗概率?=?(相似度*先驗概率)/標準化常量，也就是說，后驗概率與先驗概率和相似度的乘積成正比。另外，比例P(B|A)/P(B)也有時被稱作標準相似度（standardised?likelihood），Bayes定理可表述為：后驗概率?=?標準相似度*先驗概率。”綜上，自此便有了一個問題，如何從從條件概率推導貝葉斯定理呢？

? ? ?根據條件概率的定義，在事件B發生的條件下事件A發生的概率是

? ? 同樣地，在事件A發生的條件下事件B發生的概率

? ? ?整理與合并這兩個方程式，我們可以找到

? ? ?這個引理有時稱作概率乘法規則。上式兩邊同除以P(B)，若P(B)是非零的，我們可以得到貝葉斯?定理：

2.2、隨機變量及其分布

2.2.1、何謂隨機變量

? ? 何謂隨機變量？即給定樣本空間，其上的實值函數稱為(實值)隨機變量。

如果隨機變量的取值是有限的或者是可數無窮盡的值,則稱為離散隨機變量(用白話說，此類隨機變量是間斷的)。

如果由全部實數或者由一部分區間組成，則稱為連續隨機變量，連續隨機變量的值是不可數及無窮盡的(用白話說，此類隨機變量是連續的，不間斷的)：

? ? 也就是說，隨機變量分為離散型隨機變量，和連續型隨機變量，當要求隨機變量的概率分布的時候，要分別處理之，如：

針對離散型隨機變量而言，一般以加法的形式處理其概率和；
而針對連續型隨機變量而言，一般以積分形式求其概率和。

? ? 再換言之，對離散隨機變量用求和得全概率，對連續隨機變量用積分得全概率。這點包括在第4節中相關期望.方差.協方差等概念會反復用到，望讀者注意之。

2.2.2、離散型隨機變量的定義

定義：取值至多可數的隨機變量為離散型的隨機變量。概率分布(分布律)為且

(一)（0-1）分布

若X的分布律為：同時，p+q=1,p>0,q>0，則則稱X服從參數為p的0-1分布，或兩點分布。此外，（0-1）分布的分布律還可表示為：或我們常說的拋硬幣實驗便符合此（0-1）分布。

(二)、二項分布

二項分布是n個獨立的是/非試驗中成功的次數的離散概率分布，其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗。舉個例子就是，獨立重復地拋n次硬幣，每次只有兩個可能的結果：正面，反面，概率各占1/2。
設A在n重貝努利試驗中發生X次，則并稱X服從參數為p的二項分布，記為：與此同時，

(三)、泊松分布(Poisson分布)

Poisson分布（法語：loi de Poisson，英語：Poisson distribution），即泊松分布，是一種統計與概率學里常見到的離散概率分布，由法國數學家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年時發表。若隨機變量X的概率分布律為稱X服從參數為λ的泊松分布，記為：有一點提前說一下，泊松分布中，其數學期望與方差相等，都為參數λ。?泊松分布的來源在二項分布的伯努力試驗中，如果試驗次數n很大，二項分布的概率p很小，且乘積λ= n p比較適中，則事件出現的次數的概率可以用泊松分布來逼近。事實上，二項分布可以看作泊松分布在離散時間上的對應物。證明如下。首先，回顧e的定義：二項分布的定義：如果令，趨于無窮時的極限：上述過程表明：Poisson(λ) 分布可以看成是二項分布 B(n,p) 在 np=λ,n→∞ 條件下的極限分布。最大似然估計給定n個樣本值ki，希望得到從中推測出總體的泊松分布參數λ的估計。為計算最大似然估計值,?列出對數似然函數：對函數L取相對于λ的導數并令其等于零：解得λ從而得到一個駐點（stationary?point）：檢查函數L的二階導數，發現對所有的λ?與ki大于零的情況二階導數都為負。因此求得的駐點是對數似然函數L的極大值點：證畢。OK，上面內容都是針對的離散型隨機變量，那如何求連續型隨機變量的分布律呢？請接著看以下內容。

2.2.3、隨機變量分布函數定義的引出

實際中，如上2.2.2節所述，

對于離散型隨機變量而言，其所有可能的取值可以一一列舉出來，
可對于非離散型隨機變量，即連續型隨機變量X而言，其所有可能的值則無法一一列舉出來，

故連續型隨機變量也就不能像離散型隨機變量那般可以用分布律來描述它，那怎么辦呢(事實上，只有因為連續，所以才可導，所以才可積分，這些東西都是相通的。當然了，連續不一定可導，但可導一定連續)？既然無法研究其全部，那么我們可以轉而去研究連續型隨機變量所取的值在一個區間（x1，x2] 的概率：P{x1 < X <=x2 }，同時注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1}，故要求P{x1 < X <=x2 } ，我們只需求出P{X <=x2} 和 P{X <=x1} 即可。針對隨機變量X，對應變量x，則P(X<=x) 應為x的函數。如此，便引出了分布函數的定義。定義：隨機變量X，對任意實數x，稱函數F(x) = P(X <=x ) 為X 的概率分布函數，簡稱分布函數。F(x)的幾何意義如下圖所示：且對于任意實數x1，x2（x1<x2），有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。同時，F(X)有以下幾點性質：

2.2.4、連續型隨機變量及其概率密度

定義：對于隨機變量X的分布函數F(x)，若存在非負的函數f(x)，使對于任意實數x，有：則稱X為連續型隨機變量，其中f(x)稱為X的概率密度函數，簡稱概率密度。連續型隨機變量的概率密度f(x)有如下性質：

；

（針對上述第3點性質，我重點說明下：

在上文第1.4節中，有此牛頓-萊布尼茨公式：如果函數F?(x)是連續函數f(x)在區間[a,?b]上的一個原函數,?則；

在上文2.2.3節，連續隨機變量X 而言，對于任意實數a，b（a<b），有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a)；

故結合上述兩點，便可得出上述性質3）
且如果概率密度函數在一點上連續，那么累積分布函數可導，并且它的導數：。如下圖所示：接下來，介紹三種連續型隨機變量的分布，由于均勻分布及指數分布比較簡單，所以，一圖以概之，下文會重點介紹正態分布。(一)、均勻分布若連續型隨機變量X具有概率密度則稱X 在區間(a，b)上服從均勻分布，記為X~U（a，b）。易知，f(x) >= 0，且其期望值為（a + b）/ 2。(二)、指數分布若連續型隨機變量X 的概率密度為其中λ>0為常數，則稱X服從參數為λ的指數分布。記為(三)、正態分布在各種公式紛至沓來之前，我先說一句：正態分布沒有你想的那么神秘，它無非是研究誤差分布的一個理論，因為實踐過程中，測量值和真實值總是存在一定的差異，這個不可避免的差異即誤差，而誤差的出現或者分布是有規律的，而正態分布不過就是研究誤差的分布規律的一個理論。OK，若隨機變量服從一個位置參數為、尺度參數為的概率分布，記為：?則其概率密度函數為
我們便稱這樣的分布為正態分布或高斯分布，記為：正態分布的數學期望值或期望值等于位置參數，決定了分布的位置；其方差的開平方，即標準差等于尺度參數，決定了分布的幅度。正態分布的概率密度函數曲線呈鐘形，因此人們又經常稱之為鐘形曲線。它有以下幾點性質，如下圖所示：正態分布的概率密度曲線則如下圖所示：
當固定尺度參數，改變位置參數的大小時，f(x)圖形的形狀不變，只是沿著x軸作平移變換，如下圖所示：而當固定位置參數，改變尺度參數的大小時，f(x)圖形的對稱軸不變，形狀在改變，越小，圖形越高越瘦，越大，圖形越矮越胖。如下圖所示：故有咱們上面的結論，在正態分布中，稱μ為位置參數(決定對稱軸位置)，而?σ為尺度參數(決定曲線分散性)。同時，在自然現象和社會現象中，大量隨機變量服從或近似服從正態分布。而我們通常所說的標準正態分布是位置參數,?尺度參數的正態分布，記為：相關內容如下兩圖總結所示(來源：大嘴巴漫談數據挖掘)：

2.2.5、各種分布的比較

上文中，從離散型隨機變量的分布：（0-1）分布、泊松分布、二項分布，講到了連續型隨機變量的分布：均勻分布、指數分布、正態分布，那這么多分布，其各自的期望.方差(期望方差的概念下文將予以介紹)都是多少呢？雖說，還有不少分布上文尚未介紹，不過在此，提前總結下，如下兩圖所示(摘自盛驟版的概率論與數理統計一書后的附錄中)：本文中，二維.多維隨機變量及其分布不再論述。

第三節、從數學期望、方差、協方差到中心極限定理

3.1、數學期望、方差、協方差

3.1.1、數學期望

如果X是在概率空間（Ω,?P）中的一個隨機變量，那么它的期望值E[X]的定義是：并不是每一個隨機變量都有期望值的，因為有的時候這個積分不存在。如果兩個隨機變量的分布相同，則它們的期望值也相同。在概率論和統計學中，數學期望分兩種(依照上文第二節相關內容也可以得出)，一種為離散型隨機變量的期望值，一種為連續型隨機變量的期望值。

一個離散性隨機變量的期望值（或數學期望、或均值，亦簡稱期望）是試驗中每次可能結果的概率乘以其結果的總和。換句話說，期望值是隨機試驗在同樣的機會下重復多次的結果計算出的等同“期望”的平均值。

例如，擲一枚六面骰子，得到每一面的概率都為1/6，故其的期望值是3.5，計算如下：承上，如果X?是一個離散的隨機變量，輸出值為x1,?x2,?...，?和輸出值相應的概率為p1,?p2,?...（概率和為1），若級數絕對收斂，那么期望值E[X]是一個無限數列的和：上面擲骰子的例子就是用這種方法求出期望值的。?

而對于一個連續型隨機變量來說，如果X的概率分布存在一個相應的概率密度函數f（x），若積分絕對收斂，那么X?的期望值可以計算為：?

實際上，此連續隨機型變量的期望值的求法與離散隨機變量的期望值的算法同出一轍，由于輸出值是連續的，只不過是把求和改成了積分。

3.1.2、方差與標準差

方差?? ?在概率論和統計學中，一個隨機變量的方差（Variance）描述的是它的離散程度，也就是該變量離其期望值的距離。一個實隨機變量的方差也稱為它的二階矩或二階中心動差，恰巧也是它的二階累積量。方差的算術平方根稱為該隨機變量的標準差。其定義為：如果是隨機變量X的期望值（平均數）?設為服從分布的隨機變量，則稱為隨機變量或者分布的方差：其中，μ為平均數，N為樣本總數。?分別針對離散型隨機變量和連續型隨機變量而言，方差的分布律和概率密度如下圖所示：標準差標準差（Standard Deviation），在概率統計中最常使用作為統計分布程度（statistical dispersion）上的測量。標準差定義為方差的算術平方根，反映組內個體間的離散程度。簡單來說，標準差是一組數值自平均值分散開來的程度的一種測量觀念。一個較大的標準差，代表大部分的數值和其平均值之間差異較大；一個較小的標準差，代表這些數值較接近平均值。例如，兩組數的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ，但第二個集合具有較小的標準差。前面說過，方差的算術平方根稱為該隨機變量的標準差，故一隨機變量的標準差定義為：須注意并非所有隨機變量都具有標準差，因為有些隨機變量不存在期望值。?如果隨機變量為具有相同概率，則可用上述公式計算標準差。?上述方差.標準差等相關內容，可用下圖總結之：樣本標準差在真實世界中，除非在某些特殊情況下，找到一個總體的真實的標準差是不現實的。大多數情況下，總體標準差是通過隨機抽取一定量的樣本并計算樣本標準差估計的。說白了，就是數據海量，想計算總體海量數據的標準差無異于大海撈針，那咋辦呢？抽取其中一些樣本作為抽樣代表唄。而從一大組數值當中取出一樣本數值組合，進而，我們可以定義其樣本標準差為：樣本方差是對總體方差的無偏估計。??中分母為 n-1?是因為的自由度為n-1(且慢，何謂自由度？簡單說來，即指樣本中的n個數都是相互獨立的，從其中抽出任何一個數都不影響其他數據，所以自由度就是估計總體參數時獨立數據的數目，而平均數是根據n個獨立數據來估計的，因此自由度為n)，這是由于存在約束條件。?

3.1.3、協方差與相關系數

協方差下圖即可說明何謂協方差，同時，引出相關系數的定義：
相關系數?

? ? 如上篇kd樹blog所述相關系數?(?Correlation?coefficient?)的定義是：

(其中，E為數學期望或均值，D為方差，D開根號為標準差，E{ [X-E(X)] [Y-E(Y)]}稱為隨機變量X與Y的協方差，記為Cov(X,Y)，即Cov(X,Y) =?E{ [X-E(X)] [Y-E(Y)]}，而兩個變量之間的協方差和標準差的商則稱為隨機變量X與Y的相關系數，記為)
? ? 相關系數衡量隨機變量X與Y相關程度的一種方法，相關系數的取值范圍是[-1,1]。相關系數的絕對值越大，則表明X與Y相關度越高。當X與Y線性相關時，相關系數取值為1（正線性相關）或-1（負線性相關）。
? ? 具體的，如果有兩個變量：X、Y，最終計算出的相關系數的含義可以有如下理解：

當相關系數為0時，X和Y兩變量無關系。

當X的值增大（減小），Y值增大（減小），兩個變量為正相關，相關系數在0.00與1.00之間。

當X的值增大（減小），Y值減小（增大），兩個變量為負相關，相關系數在-1.00與0.00之間。

? ?根據相關系數，相關距離可以定義為：

這里只對相關系數做個簡要介紹，欲了解機器學習中更多相似性距離度量表示法，可以參看上篇kd樹blog第一部分內容。自此，已經介紹完期望方差協方差等基本概念，但一下子要讀者接受那么多概念，怕是有難為讀者之嫌，不如再上幾幅圖鞏固下上述相關概念吧(來源：大嘴巴滿談數據挖掘)：

3.1.4、協方差矩陣與主成成分分析

協方差矩陣

? ? 由上，我們已經知道：協方差是衡量兩個隨機變量的相關程度。且隨機變量_?之間的協方差可以表示為

????? ??????????????????????? ??? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ?故根據已知的樣本值可以得到協方差的估計值如下：

??????????????????? ???????????? ? ? ? ? ? ? ??

????可以進一步地簡化為：

_{?????????????????????????????????}????? ? ? ? ? ? ? ? ? ? ? ??

? ? 如此，便引出了所謂的協方差矩陣：?

主成成分分析

? ? 盡管從上面看來，協方差矩陣貌似很簡單，可它卻是很多領域里的非常有力的工具。它能導出一個變換矩陣，這個矩陣能使數據完全去相關(decorrelation)。從不同的角度看，也就是說能夠找出一組最佳的基以緊湊的方式來表達數據。這個方法在統計學中被稱為主成分分析(principal components analysis，簡稱PCA)，在圖像處理中稱為Karhunen-Loève 變換(KL-變換)。

? ? 根據wikipedia上的介紹，主成分分析PCA由卡爾·皮爾遜于1901年發明，用于分析數據及建立數理模型。其方法主要是通過對協方差矩陣進行特征分解，以得出數據的主成分（即特征矢量）與它們的權值（即特征值）。PCA是最簡單的以特征量分析多元統計分布的方法。其結果可以理解為對原數據中的方差做出解釋：哪一個方向上的數據值對方差的影響最大。

? ? 然為何要使得變換后的數據有著最大的方差呢？我們知道，方差的大小描述的是一個變量的信息量，我們在講一個東西的穩定性的時候，往往說要減小方差，如果一個模型的方差很大，那就說明模型不穩定了。但是對于我們用于機器學習的數據（主要是訓練數據），方差大才有意義，不然輸入的數據都是同一個點，那方差就為0了，這樣輸入的多個數據就等同于一個數據了。

簡而言之，主成分分析PCA，留下主成分，剔除噪音，是一種降維方法，限高斯分布，n維眏射到k維，

減均值，

求特征協方差矩陣，

求協方差的特征值和特征向量，

取最大的k個特征值所對應的特征向量組成特征向量矩陣，

投影數據=原始樣本矩陣x特征向量矩陣。其依據為最大方差，最小平方誤差或坐標軸相關度理論，及矩陣奇異值分解SVD（即SVD給PCA提供了另一種解釋）。

也就是說，高斯是0均值，其方差定義了信噪比，所以PCA是在對角化低維表示的協方差矩陣，故某一個角度而言，只需要理解方差、均值和協方差的物理意義，PCA就很清晰了。

? ? 再換言之，PCA提供了一種降低數據維度的有效辦法；如果分析者在原數據中除掉最小的特征值所對應的成分，那么所得的低維度數據必定是最優化的（也即，這樣降低維度必定是失去訊息最少的方法）。主成分分析在分析復雜數據時尤為有用，比如人臉識別。

3.2、中心極限定理

本節先給出現在一般的概率論與數理統計教材上所介紹的2個定理，然后簡要介紹下中心極限定理的相關歷史。

3.2.1、獨立同分布的中心極限定理

獨立中心極限定理如下兩圖所示：

3.2.2、棣莫弗-拉普拉斯中心極限定理

? ? 此外，據wikipedia上的介紹，包括上面介紹的棣莫弗-拉普拉斯定理在內，歷史上前后發展了三個相關的中心極限定理，它們得出的結論及內容分別是：

棣莫弗－拉普拉斯（de Movire - Laplace）定理是中心極限定理的最初版本，討論了服從二項分布的隨機變量序列。

其內容為：若是n次伯努利實驗中事件A出現的次數，，則對任意有限區間：
(i)當及時，一致地有

(ii)當時，一致地有，?，其中。它指出，參數為n, p的二項分布以np為均值、np(1-p)為方差的正態分布為極限。 ? ?

林德伯格－列維（Lindeberg-Levy）定理，是棣莫佛－拉普拉斯定理的擴展，討論獨立同分布隨機變量序列的中心極限定理。

其內容為：設隨機變量獨立同分布，?且具有有限的數學期望和方差，。記，，則，其中是標準正態分布的分布函數。?它表明，獨立同分布、且數學期望和方差有限的隨機變量序列的標準化和以標準正態分布為極限。

林德伯格－費勒定理，是中心極限定理的高級形式，是對林德伯格－列維定理的擴展，討論獨立，但不同分布的情況下的隨機變量和。

其內容為：記隨機變量序列（獨立但不一定同分布，且有有限方差）部分和為記，如果對每個，序列滿足則稱它滿足林德伯格（Lindeberg）條件。
? ? 滿足此條件的序列趨向于正態分布，即與之相關的是李雅普諾夫（Lyapunov）條件：滿足李雅普諾夫條件的序列必滿足林德伯格條件。?

? ??它表明，滿足一定條件時，獨立，但不同分布的隨機變量序列的標準化和依然以標準正態分布為極限。

3.2.3、歷史

1776年，拉普拉斯開始考慮一個天文學中的彗星軌道的傾角的計算問題，最終的問題涉及獨立隨機變量求和的概率計算，也就是計算如下的概率值
? ? 令?Sn=X1+X2+?+Xn,?那么在這個問題的處理上，拉普拉斯充分展示了其深厚的數學分析功底和高超的概率計算技巧，他首次引入了特征函數(也就是對概率密度函數做傅立葉變換)來處理概率分布的神妙方法，而這一方法經過幾代概率學家的發展，在現代概率論里面占有極其重要的位置。基于這一分析方法，拉普拉斯通過近似計算，在他的1812年的名著《概率分析理論》中給出了中心極限定理的一般描述：[定理Laplace，1812]設?ei(i=1,?n)為獨立同分布的測量誤差，具有均值μ和方差σ2。如果λ1,?,λn為常數，a>0,則有這已經是比棣莫弗-拉普拉斯中心極限定理更加深刻的一個結論了，在現在大學本科的教材上，包括包括本文主要參考之一盛驟版的概率論與數理統計上，通常給出的是中心極限定理的一般形式：?[Lindeberg-Levy中心極限定理]?設X1,?,Xn獨立同分布，且具有有限的均值μ和方差σ2，則在n→∞時,有
多么奇妙的性質，隨意的一個概率分布中生成的隨機變量，在序列和(或者等價的求算術平均)的操作之下，表現出如此一致的行為，統一的規約到正態分布。概率學家們進一步的研究結果更加令人驚訝，序列求和最終要導出正態分布的條件并不需要這么苛刻，即便X1,?,Xn并不獨立，也不具有相同的概率分布形式，很多時候他們求和的最終歸宿仍然是正態分布。在正態分布、中心極限定理的確立之下，20世紀之后，統計學三大分布χ2分布、t分布、F分布也逐步登上歷史舞臺：

? ? 如上所述，中心極限定理的歷史可大致概括為：

中心極限定理理的第一版被法國數學家棣莫弗發現，他在1733年發表的卓越論文中使用正態分布去估計大量拋擲硬幣出現正面次數的分布；

1812年，法國數學家拉普拉斯在其巨著 Théorie Analytique des Probabilités中擴展了棣莫弗的理論，指出二項分布可用正態分布逼近；

1901年，俄國數學家李雅普諾夫用更普通的隨機變量定義中心極限定理并在數學上進行了精確的證明。

? ? 如今，中心極限定理被認為是(非正式地)概率論中的首席定理。

第四節、從數理統計簡史中看正態分布的歷史由來

? ? 本節將結合數理統計學簡史一書，從早期概率論的發展、棣莫弗的二項概率逼近講到貝葉斯方法、最小二乘法、誤差與正態分布等問題，有詳有略，其中，重點闡述正態分布的歷史由來。

相信，你我可以想象得到，我們現在眼前所看到的正態分布曲線雖然看上去很美，但數學史上任何一個定理的發明幾乎都不可能一蹴而就，很多往往經歷了幾代人的持續努力。因為在科研上諸多觀念的革新和突破是有著很多的不易的，或許某個定理在某個時期由某個人點破了，現在的我們看來一切都是理所當然，但在一切沒有發現之前，可能許許多多的頂級學者畢其功于一役，耗盡一生，努力了幾十年最終也是無功而返。如上文前三節所見，現在概率論與數理統計的教材上，一上來介紹正態分布，然后便給出其概率密度分布函數，卻從來沒有說明這個分布函數是通過什么原理推導出來的。如此，可能會導致你我在內的很多人一直搞不明白數學家當年是怎么找到這個概率分布曲線的，又是怎么發現隨機誤差服從這個奇妙的分布的。我們在實踐中大量的使用正態分布，卻對這個分布的來龍去脈知之甚少。本文接下來的第四節將結合陳希儒院士的《數理統計學簡史》及“正態分布的前世今生”為你揭開正態分布的神秘面紗。

4.1、正態分布的定義

上文中已經給出了正態分布的相關定義，咱們先再來回顧下。如下兩圖所示（來源：大嘴巴漫談數據挖掘）：
相信，經過上文諸多繁雜公式的轟炸，讀者或有些許不耐其煩，咱們接下來講點有趣的內容：歷史。下面，咱們來結合數理統計簡史一書，即正態分布的前世今生系列，從古至今論述正態分布的歷史由來。

4.2、早期概率論：從萌芽到推測術

4.2.1、惠更新的三個關于期望的定理

(一)惠更新的論賭博的計算所謂概率，即指一個事件發生，一種情況出現的可能性大小的數量指標，介于0和1之間，這個概念最初形成于16世紀，說來可能令你意想不到，凡事無絕對，早期很多概率論中的探討卻與擲骰子等當今看來是違法犯罪的賭博活動有著不可分割的聯系，可以說，這些賭博活動反而推動了概率論的早期發展。歷史是紛繁多雜的，咱們從惠更斯的機遇的規律一書入手，此人指導過微積分的奠基者之一的萊布尼茲學習數學，與牛頓等人也有交往，終生未婚。如諸多歷史上有名的人物一般，他們之所以被后世的人們記住，是因為他們在某一個領域的杰出貢獻，這個貢獻可能是提出了某一個定理或者公式，換句話來說，就是現今人們口中所說的代表作，一個意思。而惠更新為當代人們所熟知的應該是他在《擺式時鐘或用于時鐘上的擺的運動的幾何證明》、《擺鐘》等論文中提出了物理學史上鐘擺擺動周期的公式：。?(二)創立數學期望與此同時，惠更斯1657年發表了《論賭博中的計算》，被認為是概率論誕生的標志。同時對二次曲線、復雜曲線、懸鏈線、曳物線、對數螺線等平面曲線都有所研究。《論賭博中的計算》中，惠更斯先從關于公平賭博值的一條公理出發，推導出有關數學期望的三個基本定理，如下述內容所示：

公理：每個公平博弈的參與者愿意拿出經過計算的公平賭注冒險而不愿拿出更多的數量。即賭徒愿意押的賭注不大于其獲得賭金的數學期望數。

? ? 對這一公理至今仍有爭議。所謂公平賭注的數額并不清楚,它受許多因素的影響。但惠更斯由此所得關于數學期望的3 個命題具有重要意義。這是數學期望第一次被提出,由于當時概率的概念還不明確,后被拉普拉斯( Laplace ,1749 —1827) 用數學期望來定義古典概率。在概率論的現代表述中,概率是基本概念,數學期望則是二級概念,但在歷史發展過程中卻順序相反。
關于數學期望的三個命題為:

命題1 　若某人在賭博中以等概率1/2獲得賭金a元、b元，則其數學期望值為：a*1/2+b*1/2，即為( a + b)/2；
命題2 　若某人在賭博中以等概率1/3獲得賭金a 、b 元和c元，則其數學期望值為( a + b + c)/3元；
命題3 　若某人在賭博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 獲得賭金a元、b元，則獲得賭金的數學期望值為p*a + q*b 元。

? ? 這些今天看來都可作為數學期望定義，不準確的說，數學期望來源于取平均值。同時，根據上述惠更斯的3個命題不難證明：若某人在賭博中分別以概率p1...，pk（p1+..+pk=1）分別贏得a1，..ak元，那么其期望為p1*a1+...+pk*ak，這與本文第一節中關于離散型隨機變量的期望的定義完全一致(各值與各值概率乘積之和)。但惠更新關于概率論的討論局限于賭博中，而把概率論由局限于對賭博機遇的討論擴展出去的則得益于伯努利，他在惠更新的論賭博中的計算一書出版的56年，即1733年出版了劃時代的著作：推測術。伯努利在此書中，不僅對惠更斯的關于擲骰子等賭博活動中出現的額各種情況的概率進行了計算，而且還提出了著名的“大數定律”，這個定律在歷史上甚至到今天，影響深遠，后續諸多的統計方法和理論都是建立在大數定律的基礎上。(三) 伯努利的大數定律及其如何而來同樣，咱們在讀中學的時候，之所以記住了伯努利這個人，恐怕是因為物理課上，老師所講的伯努利方程C，(C為常量)。我當時的物理老師叫劉新見，記得他在講伯努利方程的時候，曾開玩笑說，“’伯努利‘好記好記，‘白努力‘嘛”。當然，伯努利的貢獻不僅在此，而在于他的大數定律。那何謂伯努利大數定律呢？設在n次獨立重復試驗中，事件X發生的次數為。事件X在每次試驗中發生的概率為P。則對任意正數，下式成立：定理表明事件發生的頻率依概率收斂于事件的概率。定理以嚴格的數學形式表達了頻率的穩定性。就是說當n很大時，事件發生的頻率于概率有較大偏差的可能性很小。?這個定理如何而來的呢？咱們來看一個簡單的袋中抽球的模型，袋中有a個白球，b個黑球，則從袋中取出白球的概率為p=a/(a+b)，有放回的充袋中抽球N次(每次抽取時保證袋中a+b個球的每一個都有同等機會被抽出)，記得抽到的白球的次數為X，然后以X/N 這個值去估計p，這個估計方法至今仍是數理統計學中最基本的方法之一。伯努利試圖證明的是：用X/N 估計p 可以達到事實上的確定性，即：任意給定兩個數ε>0和η>0，取足夠大的抽取次數N，使得事件的概率不超過η，這意思是，表面估計誤差未達到制定的接近程度η。換句話說，我們需要證明的是當N充分無限大時，X/N 無限逼近于p，用公式表達即為：（N趨于無窮大）盡管現在我們看來，上述這個結論毫無疑問是理所當然的，但直到1909年才有波萊爾證明。此外，此伯努利大數定律是我們今天所熟知的契比雪夫不等式的簡單推論，但須注意的是在伯努利那個時代，并無“方差”這個概念，更不用說從這個不等式而推論出伯努利大數定律了。此外，常用的大數定律除了伯努利大數定律之外，還有辛欽大數定律、柯爾莫哥洛夫強大數定律和重對數定律等定律。這里稍微提下辛欽大數定律，如下圖所示。在1733年，棣莫弗發展了用正態分布逼近二項分布的方法，這對于當時而言，是一實質性的深遠改進。

4.3、棣莫弗的二項概率逼近

同上文中的惠更新，伯努利一樣，人們熟悉棣莫弗，想必是因為著名的棣莫弗公式，如下：據數理統計學簡史一書上的說明，棣莫弗之所以投身到二項概率的研究，非因伯努利之故，而又是賭博問題(賭博貢獻很大丫哈)。有一天一個哥們，也許是個賭徒，向棣莫弗提了一個和賭博相關的一個問題：A,B兩人在賭場里賭博，A,B各自的獲勝概率是p和q=1?p，賭n局，若A贏的局數X>np，則A付給賭場X?np元，否則B付給賭場np?X元。問賭場掙錢的期望值是多少？按定義可知，此期望值為：上式的b(N，平，i)為二項概率，棣莫弗最終在Np為整數的條件下得到：當m=N/2時，N趨于無窮，也就是說上述問題的本質上是上文第一節中所講的一個二項分布。雖然從上述公式可以集結此問題，但在N很大時，計算不易，故棣莫弗想找到一個更方便于計算的近似公式。
棣莫弗后來雖然做了一些計算并得到了一些近似結果，但是還不夠，隨后有人講棣莫弗的研究工作告訴給了斯特林，于是，便直接催生了在數學分析中必學的一個重要公式斯特林公式(斯特林公式最初發表于1730年，而后棣莫弗改進了斯特林公式)：
（其中，m= N/2）1733年，棣莫弗有了一個決定性意義的舉動，他證明了當N趨于去窮時，有下列式子成立：
不要小瞧了這個公式。當它與上面給出的這個公式結合后，便有了：根據上面式子，近似地以定積分代替和，得到下式：不知道，當讀者讀到這里的時候，是否從上式看出了些許端倪，此式可隱藏了一個我們習以為常卻極其重要的概念。OK，或許其形式不夠明朗，借用rickjin的式子轉化下：沒錯，正態分布的概率密度(函數)在上述的積分公式中出現了！于此，我們得到了一個結論，原來二項分布的極限分布便是正態分布。與此同時，還引出了統計學史上占據重要地位的中心極限定理。「棣莫弗-拉普拉斯定理」：設隨機變量Xn(n=1,2...)服從參數為p的二項分布，則對任意的x，恒有下式成立：我們便稱此定理為中心極限定理。而且還透露著一個極為重要的信息：1730年，棣莫弗用二項分布逼近竟然得到了正太密度函數，并首次提出了中心極限定理。還沒完，隨后，在1744年，拉普拉斯證明了：最終，1780年，拉普拉斯建立了中心極限定理的一般形式(也就是上文3.2節中所講的中心極限定理的一般形式)：「Lindeberg-Levy中心極限定理」設X1,?,Xn獨立同分布，且具有有限的均值μ和方差σ2，則在n→∞時,有
棣莫弗的工作對數理統計學有著很大的影響，棣莫弗40年之后，拉普拉斯建立中心極限定理的一般形式，20世紀30年代最終完成獨立和中心極限定理最一般的形式，在中心極限定理的基礎之上，統計學家們發現當樣本量趨于無窮時，一系列重要統計量的極限分布如二項分布，都有正態分布的形式，也就是說，這也構成了數理統計學中大樣本方法的基礎。此外，從上面的棣莫弗-拉普拉斯定理，你或許還沒有看出什么蹊蹺。但我們可以這樣理解：若取c充分大，則對足夠大的N，事件|的概率可任意接近于1，由于，故對于任意給定的ε>0，有下式成立：而這就是上文中所講的伯努利大數定律(注：上面討論的是對稱情況，即p=1/2的情況)。我之所以不厭其煩的要論述這個棣莫弗的二項概率逼近的相關過程，是想說明一點：各個定理.公式彼此之前是有著緊密聯系的，要善于發現其中的各種聯系。同時，還有一個問題，相信讀者已經意識到了，如本文第一節內容所述，咱們的概率論與數理統計教材講正態分布的時候，一上來便給出正態分布的概率密度(函數)，然后告訴我們說，符合這個概率密度(函數)的稱為正態分布，緊接著闡述和證明相關性質，最后說了一句：”在自然現象和社會現象中，大量隨機變量都服從或近似服從正態分布，如人的身高，某零件長度的誤差，海洋波浪的高度“，然后呢？然后什么也沒說了。連正態分布中最基本的兩個參數為、和的的意義都不告訴我們(位置參數即為數學期望，尺度參數為即為方差，換句話說，有了期望和方差，即可確定正態分布)。隨后，教材上便開始講數學期望，方差等概念，最后才講到中心極限定理。或許在讀者閱讀本文之后，這些定理的先后發明順序才得以知曉。殊不知：正態分布的概率密度(函數)形式首次發現于棣莫弗-拉普拉斯中心極限定理中，即先有中心極限定理，而后才有正態分布(通過閱讀下文4.6節你將知道，高斯引入正太誤差理論，才成就了正態分布，反過來，拉普拉斯在高斯的工作之上用中心極限定理論證了正態分布)。如rickjin所言：’‘學家研究數學問題的進程很少是按照我們數學課本的安排順序推進的，現代的數學課本都是按照數學內在的邏輯進行組織編排的，雖然邏輯結構上嚴謹優美，卻把數學問題研究的歷史痕跡抹得一干二凈。DNA雙螺旋結構的發現者之一James Waston在他的名著《DNA雙螺旋》序言中說：‘科學的發現很少會像門外漢所想象的一樣，按照直接了當合乎邏輯的方式進行的。’ ’‘

4.4、貝葉斯方法

前面，介紹了惠更斯、伯努利和棣莫弗等人的重大成果，無疑在這些重要發明中，二項分布都占據著舉重輕重的地位。這在早期的概率統計史當中，也是唯一一個研究程度很深的分布。但除了伯努利的大數定律及棣莫弗的二項逼近的研究成果外，在18世紀中葉，為了解決二項分布概率的估計問題，出現了一個影響極為廣泛的貝葉斯方法，貝葉斯方法經過長足的發展，如今已經成為數理統計學中的兩個主要學派之一：貝葉斯學派，牢牢占據數理統計學領域的半壁江山。據數理統計學簡史一書，托馬斯.貝葉斯，此人在18世紀上半葉的歐洲學術界，并不算得上很知名，在提出貝葉斯定理之前，也未發表過片紙只字的科學論著，套用當今的話來說，他便是活生生一個民間學術屌絲。未發表過任何科學著作，但一個人如果熱愛研究，喜好學術的話，必找人交流。于此，諸多重大發明定理都出現在學者之間的一些書信交流中。奇怪的是，貝葉斯這方面的書信材料也不多。或許讀者讀到此處，已知我意，會說這一切在他提出貝葉斯定理之后有了改變，但讀者朋友只猜對了一半。貝葉斯的確發表了一篇題為An essay towards solving a problem in the doctrine of chances(機遇理論中一個問題的解)的遺作，此文在他發表后很長一段時間起，在學術界沒有引起什么反響，直到20世紀以來，突然受到人們的重視，此文也因此成為貝葉斯學派最初的奠基石(又一個梵高式的人物)。有人說貝葉斯發表此文的動機是為了解決伯努利和棣莫弗未能解決的二項分布概率P的“逆概率”問題。所謂逆概率，顧名思義，就是求概率問題的逆問題：已知時間的概率為P，可由之計算某種觀察結果的概率如何；反過來，給定了觀察結果，問由之可以對概率P作何推斷。也就是說，正概率是由原因推結果，稱之為概率論；而逆概率是結果推原因，稱之為數理統計。由于本文中，重點不在貝葉斯定理，而本文第一節之2.1小節已對其做簡要介紹，再者，此文從決策樹學習談到貝葉斯分類算法、EM、HMM第二部分也詳細介紹過了貝葉斯方法，故為本文篇幅所限，不再做過多描述。

4.5、最小二乘法，數據分析的瑞士軍刀

事實上，在成百上千的各式各樣的攻擊方法中，取算術平均恐怕是最廣為人知使用也最為廣泛的方法，因為可能一個小學生都知道使用算術平均來計算自己每天平均花了多少零花錢而以此作為向爸媽討要零花錢的依據。而我們大多數成年人也經常把“平均說來”掛在嘴邊。故此節要講的最小二乘法其實并不高深，它的本質思想即是來源于此算術平均的方法。不太精確的說，一部數理統計學的歷史，就是從縱橫兩個方向對算術平均進行不斷深入研究的歷史，

縱的方面指平均值本身，諸如伯努利及其后眾多的大數定律，棣莫弗-拉普拉斯中心極限定理，高斯的正太誤差理論，這些在很大程度上都可以視為對算術平均的研究成果，甚至到方差，標準差等概念也是由平均值發展而來；
橫的方面中最為典型的就是此最小二乘法。

而算術平均也是解釋最小二乘法的最簡單的例子。使誤差平方和達到最小以尋求估計值的方法，則稱為最小二乘估計(當然，取平方和作為目標函數知識眾多可取的方法之一，例如也可以取誤差4次方或絕對值和，取平方和是人類千百年實踐中被證實行之有效的方法，因此被普遍采用)。何謂最小二乘法？實踐中，常需尋找兩變量之間的函數關系，比如測定一個刀具的磨損速度，也就是說，隨著使用刀具的次數越多，刀具本身的厚度會逐漸減少，故刀具厚度與使用時間將成線性關系，假設符合f（t）=at + b（t代表時間，f(t)代表刀具本身厚度），a，b是待確定的常數，那么a、b如何確定呢？最理想的情形就是選取這樣的a、b，能使直線y = at + b 所得到的值與實際中測量到的刀具厚度完全符合，但實際上這是不可能的，因為誤差總是存在難以避免的。故因誤差的存在，使得理論值與真實值存在偏差，為使偏差最小通過偏差的平方和最小確定系數a、b，從而確定兩變量之間的函數關系f（t）= at + b。這種通過偏差的平方和為最小的條件來確定常數a、b的方法，即為最小二乘法。最小二乘法的一般形式可表述為：在此，說點后話，最小二乘法是與統計學有著密切聯系的，因為觀測值有隨機誤差，所以它同正態分布一樣與誤差論有著密切聯系(說實話，最小二乘法試圖解決的是誤差最小的問題，而正態分布則是試圖尋找誤差分布規律的問題，無論是最小二乘法，還是正態分布的研究工作，至始至終都圍繞著誤差進行)。那么，最小二乘法是如何發明的呢？據史料記載，最小二乘法最初是由法國數學家勒讓德于1805年發明的。那勒讓德發明它的動機來源于哪呢？18世紀中葉，包括勒讓德、歐拉、拉普拉斯、高斯在內的許多天文學家和數學家都對天文學上諸多問題的研究產生了濃厚的興趣。比如以下問題：

土星和木星是太陽系中的大行星，由于相互吸引對各自的運動軌道產生了影響，許多大數學家，包括歐拉和拉普拉斯都在基于長期積累的天文觀測數據計算土星和木星的運行軌道。
勒讓德承擔了一個政府給的重要任務，測量通過巴黎的子午線的長度。
海上航行經緯度的定位。主要是通過對恒星和月面上的一些定點的觀測來確定經緯度。

這些問題都可以用如下數學模型描述：我們想估計的量是β0,?,βp，另有若干個可以測量的量x1,?,xp,y，這些量之間有線性關系如何通過多組觀測數據求解出參數β0,?,βp呢？歐拉和拉普拉斯采用的都是求解線性方程組的方法。但是面臨的一個問題是，有n組觀測數據，p+1個變量，如果n>p+1，則得到的線性矛盾方程組，無法直接求解。所以歐拉和拉普拉斯采用的方法都是通過一定的對數據的觀察，把n個線性方程分為p+1組，然后把每個組內的方程線性求和后歸并為一個方程，從而就把n個方程的方程組化為p+1個方程的方程組，進一步解方程求解參數。這些方法初看有一些道理，但是都過于經驗化，無法形成統一處理這一類問題的一個通用解決框架。
? ? 以上求解線性矛盾方程的問題在現在的本科生看來都不困難，就是統計學中的線性回歸問題，直接用最小二乘法就解決了，可是即便如歐拉、拉普拉斯這些數學大牛，當時也未能對這些問題提出有效的解決方案。可見在科學研究中，要想在觀念上有所突破并不容易。有效的最小二乘法是勒讓德在1805年發表的，基本思想就是認為測量中有誤差，所以所有方程的累積誤差為：
我們求解出導致累積誤差最小的參數即可。上面我們已經看到，是勒讓德最初發明的最小二乘法，那為何歷史上人們常常把最小二乘法的發明與高斯的名字聯系起來呢？(注：勒讓德時期的最小二乘法還只是作為一個處理測量數據的代數方法來討論的，實際上與統計學并無多大關聯，只有建立在了測量誤差分布的概率理論之后，這個方法才足以成為一個統計學方法。盡管拉普拉斯用他的中心極限定理定理也可以推導出最小二乘法，但無論是之前的棣莫弗，還是當時的勒讓德，還是拉普拉斯，此時他們這些研究成果都還只是一個數學表達式而非概率分布)。因為1829年，高斯提供了最小二乘法的優化效果強于其他方法的證明，即為高斯-馬爾可夫定理。也就是說勒讓德最初提出了最小二乘法，而卻是高斯讓最小二乘法得以鞏固而影響至今。且高斯對最小二乘法的最大貢獻在于他是建立在正太誤差分布的理論基礎之上的(后續更是導出了誤差服從正態分布的結論)，最后，1837年，統計學家們正式確立誤差服從正態分布，自此，人們方才真正確信：觀測值與理論值的誤差服從正態分布。

4.6、誤差分布曲線的建立

十八世紀，天文學的發展積累了大量的天文學數據需要分析計算，應該如何來處理數據中的觀測誤差成為一個很棘手的問題。我們在數據處理中經常使用平均的常識性法則，千百年來的數據使用經驗說明算術平均能夠消除誤差，提高精度。平均有如此的魅力，道理何在，之前沒有人做過理論上的證明。算術平均的合理性問題在天文學的數據分析工作中被提出來討論：測量中的隨機誤差應該服從怎樣的概率分布？算術平均的優良性和誤差的分布有怎樣的密切聯系？伽利略在他著名的《關于兩個主要世界系統的對話》中，對誤差的分布做過一些定性的描述，主要包括：

誤差是對稱分布的分布在0的兩側；
大的誤差出現頻率低，小的誤差出現頻率高。

用數學的語言描述，也就是說誤差分布函數f(x)關于0對稱分布，概率密度隨|x|增加而減小，這兩個定性的描述都很符合常識。

4.6.1、辛普森的工作

許多天文學家和數學家開始了尋找誤差分布曲線的嘗試。托馬斯?辛普森(Thomas Simpson,1710-1761)先走出了有意義的一步。

設真值為θ，而為n次測量值，現在用測量值去估計真值，那么每次測量的誤差為，
但若用算術平均去估計θ呢，則其誤差為。

Simpson證明了，對于如下的一個概率分布，Simpson的誤差態分布曲線有這樣的估計：也就是說，相比于取小值的機會更大。辛普森的這個工作很粗糙，但是這是第一次在一個特定情況下，從概率論的角度嚴格證明了算術平均的優良性。

4.6.2、拉普拉斯的工作

? ? 在1772-1774年間，拉普拉斯也加入到了尋找誤差分布函數的隊伍中。與辛普森不同，拉普拉斯不是先假定一種誤差分后去設法證明平均值的優良性，而是直接射向應該去怎么的分布為誤差分布，以及在確定了誤差分布之后，如何根據觀測值去估計真值。拉普拉斯假定誤差密度函數f(x)滿足如下性質：m>0，且為常數，上述方程解出，C>0且為常數，由于，得。故當x<0，結合概率密度的性質之一(參看上文2.2.4節)：，解得c=m/2。由此，最終1772年，拉普拉斯求得的分布密度函數為：這個概率密度函數現在被稱為拉普拉斯分布：以這個函數作為誤差密度，拉普拉斯開始考慮如何基于測量的結果去估計未知參數的值，即用什么方法通過觀測值去估計真值呢？要知道咱們現今所熟知的所謂點估計方法、矩估計方法，包括所謂的極大似然估計法之類的，當時可是都還沒有發明。拉普拉斯可以算是一個貝葉斯主義者，他的參數估計的原則和現代貝葉斯方法非常相似：假設先驗分布是均勻的，計算出參數的后驗分布后，取后驗分布的中值點，即1/2分位點，作為參數估計值。可是基于這個誤差分布函數做了一些計算之后，拉普拉斯發現計算過于復雜，最終沒能給出什么有用的結果，故拉普拉斯最終還是沒能搞定誤差分布的問題。至此，整個18世紀，可以說，尋找誤差分布的問題，依舊進展甚微，下面，便將輪到高斯出場了，歷史總是出人意料，高斯以及其簡單的手法，給了這個誤差分布的問題一個圓滿的解決，其結果也就成為了數理統計發展史上的一塊重要的里程碑。

4.6.3、高斯導出誤差正態分布

事實上，棣莫弗早在1730年~1733年間便已從二項分布逼近的途徑得到了正態密度函數的形式，到了1780年后，拉普拉斯也推出了中心極限定理的一般形式，但無論是棣莫弗，還是拉普拉斯，此時他們這些研究成果都還只是一個數學表達式而非概率分布，也就是壓根就還沒往誤差概率分布的角度上去思索，而只有到了1809年，高斯提出“正太誤差”的理論之后，它正太理論才得以“概率分布“的身份進入科學殿堂，從而引起人們的重視。追本溯源，正態分布理論這條大河的源頭歸根結底是測量誤差理論。那高斯到底在正態分布的確立做了哪些貢獻呢？請看下文。1801年1月，天文學家Giuseppe Piazzi發現了一顆從未見過的光度8等的星在移動，這顆現在被稱作谷神星（Ceres）的小行星在夜空中出現6個星期，掃過八度角后在就在太陽的光芒下沒了蹤影，無法觀測。而留下的觀測數據有限，難以計算出他的軌道，天文學家也因此無法確定這顆新星是彗星還是行星，這個問題很快成了學術界關注的焦點。高斯當時已經是很有名望的年輕數學家了，這個問題也引起了他的興趣。高斯一個小時之內就計算出了行星的軌道，并預言了它在夜空中出現的時間和位置。1801年12月31日夜，德國天文愛好者奧伯斯(Heinrich Olbers)在高斯預言的時間里，用望遠鏡對準了這片天空。果然不出所料，谷神星出現了！高斯為此名聲大震，但是高斯當時拒絕透露計算軌道的方法直到1809年高斯系統地完善了相關的數學理論后，才將他的方法公布于眾，而其中使用的數據分析方法，就是以正態誤差分布為基礎的最小二乘法。那高斯是如何推導出誤差分布為正態分布的呢？請看下文。
? ? 跟上面一樣，還是設真值為，而為n次獨立測量值，每次測量的誤差為，假設誤差ei的密度函數為f(e)，則測量值的聯合概率為n個誤差的聯合概率，記為
到此為止，高斯的作法實際上與拉普拉斯相同，但在繼續往下進行時，高斯提出了兩個創新的想法。第一個創新的想法便是：高斯并沒有像前面的拉普拉斯那樣采用貝葉斯的推理方式，而是直接取L(θ)達到最小值的作為的估計值，這也恰恰是他解決此問題采用的創新方法，即
現在我們把L(θ)稱為樣本的似然函數，而得到的估計值θ?稱為極大似然估計。高斯首次給出了極大似然的思想，這個思想后來被統計學家R.A.Fisher系統地發展成為參數估計中的極大似然估計理論。
? ? 高斯的第二點創新的想法是：他把整個問題的思考模式倒過來，既然千百年來大家都認為算術平均是一個好的估計，那么就直接先承認算術平均就是極大似然估計(換言之，極大似然估計導出的就應該是算術平均)，所以高斯猜測：
然后高斯再去尋找相應的誤差密度函數以迎合這一點。即尋找這樣的概率分布函數,使得極大似然估計正好是算術平均。通過應用數學技巧求解這個函數f,高斯證明了所有的概率密度函數中，唯一滿足這個性質的就是（記為(11)式）：
? ?而這恰巧是我們所熟知的正態分布的密度函數，就這樣，誤差的正態分布就被高斯給推導出來了！但，高斯是如何證明的呢？也就是說，高斯是如何一下子就把上面(11)式所述的概率密度函數給找出來的呢？如下圖所示（摘自數理統計學簡史第127頁注2，圖中開頭所說的高斯的第2原則就是上面所講的高斯的第二點創新的想法，而下圖最后所說的(11)式就是上面推導出來的概率密度函數）：進一步，高斯基于這個誤差分布函數對最小二乘法給出了一個很漂亮的解釋。對于最小二乘公式中涉及的每個誤差ei,有，則結合高斯的第一個創新方法：極大似然估計及上述的概率密度，(e1,?,en)的聯合概率分布為
要使得這個概率最大，必須使得取最小值，這正好就是最小二乘法的要求。高斯的這項工作對后世的影響極大，它使正態分布同時有了”高斯分布“的名稱，不止如此，后世甚至也把最小二乘法的發明權也歸功于他，由于他的這一系列突出貢獻，人們 ? ?采取了各種形式紀念他，如現今德國10馬克的鈔票上便印有這高斯頭像及正態分布的密度曲線，借此表明在高斯的一切科學貢獻中，尤以此”正太分布“的確立對人類文明的進程影響最大。至此，咱們來總結下：

如你所見，相比于勒讓德1805給出的最小二乘法描述，高斯基于誤差正態分布的最小二乘理論顯然更高一籌，高斯的工作中既提出了極大似然估計的思想，又解決了誤差的概率密度分布的問題，由此我們可以對誤差大小的影響進行統計度量了。

但事情就完了么？沒有。高斯設定了準則“最大似然估計應該導出優良的算術平均”，并導出了誤差服從正態分布，推導的形式上非常簡潔優美。但是高斯給的準則在邏輯上并不足以讓人完全信服，因為算術平均的優良性當時更多的是一個經驗直覺，缺乏嚴格的理論支持。高斯的推導存在循環論證的味道：因為算術平均是優良的，推出誤差必須服從正態分布；反過來，又基于正態分布推導出最小二乘和算術平均，來說明最小二乘法和算術平均的優良性，故其中無論正反論點都必須借助另一方論點作為其出發點，可是算術平均到并沒有自行成立的理由。

也就是上面說到的高斯的第二點創新的想法“他把整個問題的思考模式倒過來：既然千百年來大家都認為算術平均是一個好的估計，那么就直接先承認算術平均就是極大似然估計(換言之，極大似然估計導出的就應該是算術平均)”存在著隱患，而這一隱患的消除又還得靠咱們的老朋友拉普拉斯解決了。受高斯啟發，拉普拉斯將誤差的正態分布理論和中心極限定理聯系起來，提出了元誤差解釋。他指出如果誤差可以看成許多微小量的疊加，則根據他的中心極限定理，隨機誤差理應當有高斯分布(換言之，按中心極限定理來說，正態分布是由大量的但每一個作用較小的因素的作用導致而成)。而20世紀中心極限定理的進一步發展，也給這個解釋提供了更多的理論支持。至此，誤差分布曲線的尋找塵埃落定，正態分布在誤差分析中確立了自己的地位。在整個正態分布被發現與應用的歷史中，棣莫弗、拉普拉斯、高斯各有貢獻，拉普拉斯從中心極限定理的角度解釋它，高斯把它應用在誤差分析中，殊途同歸。不過因為高斯在數學家中的名氣實在是太大，正態分布的桂冠還是更多的被戴在了高斯的腦門上，目前數學界通行的用語是正態分布、高斯分布，兩者并用。

4.6.4、正態分布的時間簡史

至此，正態分布從首次出現到最終確立，其時間簡史為：

1705年，伯努力的著作推測術問世，提出伯努利大數定律；

1730-1733年，棣莫弗從二項分布逼近得到正態密度函數，首次提出中心極限定理；

1780年，拉普拉斯建立中心極限定理的一般形成；

1805年，勒讓德發明最小二乘法；

1809年，高斯引入正態誤差理論，不但補充了最小二乘法，而且首次導出正態分布；

1811年，拉普拉斯利用中心極限定理論證正態分布；

1837年，海根提出元誤差學說，自此之后，逐步正式確立誤差服從正態分布。

如上所見，是先有的中心極限定理，而后才有的正態分布(當然，最后拉普拉斯用中心極限定理論證了正態分布)，能了解這些歷史，想想，都覺得是一件無比激動的事情。所以，我們切勿以為概率論與數理統計的教材上是先講的正態分布，而后才講的中心極限定理，而顛倒原有歷史的發明演進過程。

第五節、論道正態，正態分布的4大數學推導

如本blog內之前所說：凡是涉及到要證明的東西.理論，便一般不是怎么好惹的東西。絕大部分時候，看懂一個東西不難，但證明一個東西則需要點數學功底，進一步，證明一個東西也不是特別難，難的是從零開始發明創造這個東西的時候，則更顯艱難(因為任何時代，大部分人的研究所得都不過是基于前人的研究成果，前人所做的是開創性工作，而這往往是最艱難最有價值的，他們被稱為真正的先驅。牛頓也曾說過，他不過是站在巨人的肩上。你，我則更是如此)。上述第4節已經介紹了正態分布的歷史由來，但尚未涉及數學推導或證明，下面，參考概率論沉思錄，引用“正態分布的前世今生”等相關內容，介紹推導正太分布的4種方法，曲徑通幽，4條小徑，殊途同歸，進一步領略正態分布的美妙。「注：本節主要整編自rickjin寫的"正態分布的前后今生"系列」

5.1、高斯的推導(1809)

? ? 第一條小徑是高斯找到的，高斯以如下準則作為小徑的出發點
誤差分布導出的極大似然估計 = 算術平均值設真值為，而為次獨立測量值，每次測量的誤差為，假設誤差的密度函數為，則測量值的聯合概率為n個誤差的聯合概率，記為
為求極大似然估計，令
整理后可以得到
令，由上式可以得到
由于高斯假設極大似然估計的解就是算術平均，把解帶入上式，可以得到
在上式中取，有
由于此時有，并且是任意的，由此得到：.再在(6)式中取，并且要求，且，則有，并且
所以得到而滿足上式的唯一的連續函數就是，從而進一步可以求解出
由于是概率分布函數，把正規化一下就得到正態分布密度函數

5.2、Herschel(1850)和麥克斯韋(1860)的推導

? ? 第二條小徑是天文學家John Hershcel和物理學家麥克斯韋(Maxwell)發現的。1850年，天文學家Herschel在對星星的位置進行測量的時候，需要考慮二維的誤差分布，為了推導這個誤差的概率密度分布f(x,y)，Herschel設置了兩個準則：

x軸和y軸的誤差是相互獨立的，即誤差的概率在正交的方向上相互獨立；

誤差的概率分布在空間上具有旋轉對稱性，即誤差的概率分布和角度沒有關系。

這兩個準則對于Herschel考慮的實際測量問題看起來都很合理。由準則1，可以得到應該具有如下形式
把這個函數轉換為極坐標，在極坐標下的概率密度函數設為，有
由準則2,具有旋轉對稱性，也就是應該和無關，所以，綜合以上，我們可以得到
取,得到,所以上式可以轉換為
令,則有
從這個函數方程中可以解出,從而可以得到的一般形式如下
而就是正態分布，而就是標準二維正態分布函數。

1860年，我們偉大的物理學家麥克斯韋在考慮氣體分子的運動速度分布的時候，在三維空間中基于類似的準則推導出了氣體分子運動的分布是正態分布。這就是著名的麥克斯韋分子速率分布定律。大家還記得我們在普通物理中學過的麥克斯韋-波爾茲曼氣體速率分布定律嗎？
? ? 所以這個分布其實是三個正態分布的乘積。你的物理老師是否告訴過你其實這個分布就是三維正態分布？反正我是一直不知道，直到今年才明白。
? ? Herschel-Maxwell推導的神妙之處在于，沒有利用任何概率論的知識，只是基于空間幾何的不變性，就推導出了正態分布。美國諾貝爾物理學獎得主費曼(Feymann)每次看到一個有的數學公式的時候，就會問：圓在哪里？這個推導中使用到了，也就是告訴我們正態分布密度公式中有個，其根源來在于二維正態分布中的等高線恰好是個圓。

5.3、Landon的推導(1941)

? ? 第三條道是一位電氣工程師，Vernon D. Landon 給出的。1941年，Landon 研究通信電路中的噪聲電壓，通過分析經驗數據他發現噪聲電壓的分布模式很相似，不同的是分布的層級，而這個層級可以使用方差來刻畫。因此他推理認為噪聲電壓的分布函數形式是。現在假設有一個相對于而言很微小的誤差擾動，且的分布函數是,那么新的噪聲電壓是。Landon提出了如下的準則

隨機噪聲具有穩定的分布模式

累加一個微小的隨機噪聲，不改變其穩定的分布模式，只改變分布的層級(用方差度量)

? ? 用數學的語言描述：如果
則有.現在我們來推導函數應該長成啥樣。按照兩個隨機變量和的分布的計算方式，的分布函數將是的分布函數和的分布函數的卷積，即有
把在x′處做泰勒級數展開(為了方便，展開后把自變量由x′替換為x)，上式可以展開為
記,則有
對于微小的隨機擾動,我們認為他取正值或者負值是對稱的，所以。所以有
(8)對于新的噪聲電壓是x′=x+e，方差由增加為,所以按照Landon的分布函數模式不變的假設，新的噪聲電壓的分布函數應該為。把在處做泰勒級數展開，得到
(9)比較(8)和(9)這兩個式子，可以得到如下偏微分方程
而這個方程就是物理上著名的擴散方程(diffusion equation)，求解該方程就得到

又一次，我們推導出了正態分布！
? ? 概率論沉思錄作者E.T.Jaynes對于這個推導的評價很高，認為Landon的推導本質上給出了自然界的噪音形成的過程。他指出這個推導基本上就是中心極限定理的增量式版本，相比于中心極限定理來說，是一次性累加所有的因素，Landon的推導是每次在原有的分布上去累加一個微小的擾動。而在這個推導中，我們看到，正態分布具有相當好的穩定性；只要數據中正態的模式已經形成，他就容易繼續保持正態分布，無論外部累加的隨機噪聲是什么分布，正態分布就像一個黑洞一樣把這個累加噪聲吃掉。

5.4、正態分布和最大熵

? ? 還有一條小徑是基于最大熵原理的，物理學家E.T.Jaynes在最大熵原理上有非常重要的貢獻，他在《概率論沉思錄》里面對這個方法有描述和證明，沒有提到發現者，不過難以確認這條道的發現者是否是Jaynes本人。
? ? 熵在物理學中由來已久，信息論的創始人香農(Claude Elwood Shannon)把這個概念引入了信息論，讀者中很多人可能都知道目前機器學習中有一個非常好用的分類算法叫最大熵分類器。要想把熵和最大熵的來龍去脈說清楚可不容易，不過這條道的風景是相當獨特的，E.T.Jaynes對這條道也是偏愛有加。
? ? 對于一個概率分布,我們定義它的熵為
如果給定一個分布函數的均值和方差(給定均值和方差這個條件，也可以描述為給定一階原點矩和二階原點矩，這兩個條件是等價的)則在所有滿足這兩個限制的概率分布中，熵最大的概率分布就是正態分布。
? ? 這個結論的推導數學上稍微有點復雜，不過如果已經猜到了給定限制條件下最大熵的分布是正態分布，要證明這個猜測卻是很簡單的，證明的思路如下。
? ? 考慮兩個概率分布和，使用不等式,得
于是
（讀者注意：經好友白石指正，上述等式，右邊的第一項p(x)之后，1/p(x)?之前少畫了個log符號）所以

熟悉信息論的讀者都知道，這個式子是信息論中的很著名的結論：一個概率分布的熵總是小于相對熵。上式要取等號只有取。
? ? 對于，在給定的均值和方差下，我們取，則可以得到
由于的均值方差有如下限制:,于是
而當的時候，上式可以取到等號，這就證明了結論。
? ? E.T.Jaynes顯然對正態分布具有這樣的性質極為贊賞，因為這從信息論的角度證明了正態分布的優良性。而我們可以看到，正態分布熵的大小，取決于方差的大小。這也容易理解，因為正態分布的均值和密度函數的形狀無關，正態分布的形狀是由其方差決定的，而熵的大小反應概率分布中的信息量，顯然和密度函數的形狀相關。所謂橫看成嶺側成峰，遠近高低各不同，正態分布給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數學家龐加萊對正態分布說過一段有意思的話，引用來作為這個小節的結束：
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré

? ? OK，雖然上文已經花了如此多的篇幅講了那么多的概念，然事實上，在概率論與數理統計中，上文所講的概念尚不到1/3，限于篇幅，還有諸多概念沒有闡述完畢(這些知識將放于數據挖掘中所需的概率論與數理統計知識、下中介紹)，如下圖所示：

? ??So，如上，之前微博上http://weibo.com/1580904460/z9htU9VzT?說要寫的概率論與數理統計的科普blog、上部分已經初步整理完成(當然，后續一個星期之內會繼續修補完善)。從前天晚上開始，連續寫了兩天，花了半身力氣，文章若有任何問題，歡迎指正，尤能給出批評修訂意見，則倍感榮幸，謝謝。.同時，但所有以上這些絕大部分都只是概率論與數理統計的基礎知識，因此本文只能作個科普之效，若要深入學習，還是煩請讀者朋友們閱讀相關書籍，或加以動手實踐。

參考文獻及推薦閱讀

高等數學第六版上下冊，同濟大學數學系編；

微積分概念發展史，[美]?卡爾·B·波耶著，唐生譯；

概率論與數理統計，高教版，盛驟等編；

浙大版概率論與數理統計電子PPT課件；

數理統計學簡史，陳希孺院士著；
(極力推薦上書，相信每一個學概率統計的朋友都有必要看一看，同時，此書也是正態分布的前后今生這一系列的主要參考)

rickjin，正態分布的前后今生：http://t.cn/zlH3Ygc?；

正態分布的前后今生系列集成版上：http://t.cn/zjJStYq，下：http://t.cn/zjoAtUQ；

大嘴巴漫談數據挖掘：http://vdisk.weibo.com/s/bUbzJ；

誤差論與最小平方法 & 數學傳播，蔡聰明；

正態分布進入統計學的歷史演化，吳江霞；

Probability Theory &?The Logic of Science (概率論沉思錄)，E.T. Jaynes 著；?

手寫數學公式編輯器：http://webdemo.visionobjects.com/equation.html?locale=zh_CN；

wikipedia上標準差：http://zh.wikipedia.org/wiki/%E6%A0%87%E5%87%86%E5%B7%AE；

泊松分布與概率分布：http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88；

wikipedia上一堆概念；

....

總結

以上是生活随笔為你收集整理的转载：概率与梳理统计||数学基础的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：原创：pta做题笔记：注意数组大小大一点
下一篇：转载：vs配置opencv教程