数学学习笔记--概率论
2. 概率論
2.1 概率分布與隨機(jī)變量
2.1.1 機(jī)器學(xué)習(xí)為什么要使用概率
事件的概率是衡量該事件發(fā)生的可能性的量度。雖然在一次隨機(jī)試驗(yàn)中某個(gè)事件的發(fā)生是帶有偶然性的,但那些可在相同條件下大量重復(fù)的隨機(jī)試驗(yàn)卻往往呈現(xiàn)出明顯的數(shù)量規(guī)律。
機(jī)器學(xué)習(xí)通常必須處理不確定量,有時(shí)候也需要處理隨機(jī)量。幾乎所有的活動(dòng)都需要一些在不確定性存在的情況下進(jìn)行推理的能力。
不確定性和隨機(jī)性可能來(lái)自多個(gè)方面,不確定性有 3 種可能的來(lái)源:
在很多情況下,采用簡(jiǎn)單而不確定的規(guī)則要比復(fù)雜而確定的規(guī)則更加的實(shí)用。
可以使用概率論來(lái)量化不確定性。 用概率來(lái)表示一種信任度,概率直接和事件發(fā)生的頻率相聯(lián)系的被稱(chēng)為頻率派概率,比如說(shuō)某件事發(fā)生的概率是 p,這表示如果反復(fù)試驗(yàn)無(wú)限次,有 p 的比例是發(fā)生這件事情;而涉及確定性水平的稱(chēng)為貝葉斯概率,比如說(shuō)醫(yī)生在對(duì)一個(gè)病人的診斷中判斷其患某個(gè)病的概率是 p。
概率論在機(jī)器學(xué)習(xí)中扮演著一個(gè)核心角色,因?yàn)闄C(jī)器學(xué)習(xí)算法的設(shè)計(jì)通常依賴(lài)于對(duì)數(shù)據(jù)的概率假設(shè)。
例如在機(jī)器學(xué)習(xí)(Andrew Ng)的課中,會(huì)有一個(gè)樸素貝葉斯假設(shè)就是條件獨(dú)立的一個(gè)例子。該學(xué)習(xí)算法對(duì)內(nèi)容做出假設(shè),用來(lái)分辨電子郵件是否為垃圾郵件。假設(shè)無(wú)論郵件是否為垃圾郵件,單詞x出現(xiàn)在郵件中的概率條件獨(dú)立于單詞y。很明顯這個(gè)假設(shè)不是不失一般性的,因?yàn)槟承﹩卧~幾乎總是同時(shí)出現(xiàn)。然而,最終結(jié)果是,這個(gè)簡(jiǎn)單的假設(shè)對(duì)結(jié)果的影響并不大,且無(wú)論如何都可以讓我們快速判別垃圾郵件。
2.1.2 變量與隨機(jī)變量有什么區(qū)別
隨機(jī)變量(random variable)是可以隨機(jī)地取不同數(shù)值的變量。
它表示隨機(jī)現(xiàn)象(在一定條件下,并不總是出現(xiàn)相同結(jié)果的現(xiàn)象稱(chēng)為隨機(jī)現(xiàn)象)中各種結(jié)果的實(shí)值函數(shù)(一切可能的樣本點(diǎn))。例如某一時(shí)間內(nèi)公共汽車(chē)站等車(chē)乘客人數(shù),電話(huà)交換臺(tái)在一定時(shí)間內(nèi)收到的呼叫次數(shù)等,都是隨機(jī)變量的實(shí)例。
隨機(jī)變量與模糊變量的不確定性的本質(zhì)差別在于,后者的測(cè)定結(jié)果仍具有不確定性,即模糊性。
變量與隨機(jī)變量的區(qū)別:
當(dāng)變量的取值的概率不是1時(shí),變量就變成了隨機(jī)變量;當(dāng)隨機(jī)變量取值的概率為1時(shí),隨機(jī)變量就變成了變量。
比如:
當(dāng)變量xxx值為100的概率為1的話(huà),那么x=100x=100x=100就是確定了的,不會(huì)再有變化,除非有進(jìn)一步運(yùn)算.
當(dāng)變量xxx的值為100的概率不為1,比如為50的概率是0.5,為100的概率是0.5,那么這個(gè)變量就是會(huì)隨不同條件而變化的,是隨機(jī)變量,取到50或者100的概率都是0.5,即50%。
2.1.3 隨機(jī)變量與概率分布的聯(lián)系
一個(gè)隨機(jī)變量?jī)H僅表示一個(gè)可能取得的狀態(tài),還必須給定與之相伴的概率分布來(lái)制定每個(gè)狀態(tài)的可能性。用來(lái)描述隨機(jī)變量或一簇隨機(jī)變量的每一個(gè)可能的狀態(tài)的可能性大小的方法,就是概率分布(probability distribution)**.
隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。
相應(yīng)的描述其概率分布的函數(shù)是:
-
概率質(zhì)量函數(shù)(Probability Mass Function, PMF):描述離散型隨機(jī)變量的概率分布,通常用大寫(xiě)字母 PPP表示。
-
概率密度函數(shù)(Probability Density Function, PDF):描述連續(xù)型隨機(jī)變量的概率分布,通常用小寫(xiě)字母ppp表示。
2.1.4 離散型隨機(jī)變量和概率質(zhì)量函數(shù)
PMF 將隨機(jī)變量能夠取得的每個(gè)狀態(tài)映射到隨機(jī)變量取得該狀態(tài)的概率。
- 一般而言,P(x)P(x)P(x) 表示時(shí)X=xX=x?X=x的概率,概率為 1 表示 $ X=x$ 是確定的,概率是 0 表示 $ X=x$ 是不可能的;
- 有時(shí)候?yàn)榱朔乐够煜?#xff0c;要明確寫(xiě)出隨機(jī)變量的名稱(chēng)P(P(P(x=x)=x)=x)
- 有時(shí)候需要先定義一個(gè)隨機(jī)變量,然后制定它遵循的概率分布 x 服從P(P(P(x)))
PMF 可以同時(shí)作用于多個(gè)隨機(jī)變量,即聯(lián)合概率分布(joint probability distribution) P(X=x,Y=y)P(X=x,Y=y)P(X=x,Y=y)表示 X=xX=xX=x和Y=yY=y?Y=y同時(shí)發(fā)生的概率,也可以簡(jiǎn)寫(xiě)成 P(x,y)P(x,y)P(x,y).
如果一個(gè)函數(shù)PPP是隨機(jī)變量 XXX 的 PMF, 那么它必須滿(mǎn)足如下三個(gè)條件:
- PPP的定義域必須是的所有可能狀態(tài)的集合
- ?x∈?x∈?x∈x, $0 \leq P(x) \leq 1 $.
- ∑x∈XP(x)=1∑_{x∈X} P(x)=1∑x∈X?P(x)=1. 我們把這一條性質(zhì)稱(chēng)之為歸一化的(normalized),如果不滿(mǎn)足這條性質(zhì),那么可能某件事情發(fā)生的概率會(huì)是大于 1。
2.1…5 連續(xù)型隨機(jī)變量和概率密度函數(shù)
如果一個(gè)函數(shù)ppp是x的PDF,那么它必須滿(mǎn)足如下幾個(gè)條件
- ppp的定義域必須是x的所有可能狀態(tài)的集合。
- ?x∈X,p(x)≥0?x∈X,p(x)≥0?x∈X,p(x)≥0. 注意,我們并不要求$ p(x)≤1$,因?yàn)榇颂?p(x)p(x)p(x)不是表示的對(duì)應(yīng)此狀態(tài)具體的概率,而是概率的一個(gè)相對(duì)大小(密度)。具體的概率,需要積分去求。
- ∫p(x)dx=1∫p(x)dx=1∫p(x)dx=1, 積分下來(lái),總和還是1,概率之和還是1.
注:PDFp(x)p(x)p(x)并沒(méi)有直接對(duì)特定的狀態(tài)給出概率,給出的是密度,相對(duì)的,它給出了落在面積為 δxδxδx的無(wú)線(xiàn)小的區(qū)域內(nèi)的概率為$ p(x)δx$.
由此,我們無(wú)法求得具體某個(gè)狀態(tài)的概率,我們可以求得的是 某個(gè)狀態(tài) xxx 落在 某個(gè)區(qū)間[a,b][a,b][a,b]內(nèi)的概率為$ \int_{a}^p(x)dx$.
2.1.6 舉例理解條件概率
條件概率公式如下:
P(A∣B)=P(A∩B)/P(B)P(A|B) = P(A\cap B) / P(B) P(A∣B)=P(A∩B)/P(B)
說(shuō)明:在同一個(gè)樣本空間Ω\OmegaΩ中的事件或者子集AAA與BBB,如果隨機(jī)從Ω\OmegaΩ中選出的一個(gè)元素屬于BBB,那么下一個(gè)隨機(jī)選擇的元素屬于AAA 的概率就定義為在BBB的前提下AAA的條件概率。
條件概率文氏圖示意如圖1.1所示。
圖1.1 條件概率文氏圖示意
根據(jù)文氏圖,可以很清楚地看到在事件B發(fā)生的情況下,事件A發(fā)生的概率就是P(A?B)P(A\bigcap B)P(A?B)除以P(B)P(B)P(B)。
舉例:一對(duì)夫妻有兩個(gè)小孩,已知其中一個(gè)是女孩,則另一個(gè)是女孩子的概率是多少?(面試、筆試都碰到過(guò))
窮舉法:已知其中一個(gè)是女孩,那么樣本空間為男女,女女,女男,則另外一個(gè)仍然是女生的概率就是1/3。
條件概率法:P(女∣女)=P(女女)/P(女)P(女|女)=P(女女)/P(女)P(女∣女)=P(女女)/P(女),夫妻有兩個(gè)小孩,那么它的樣本空間為女女,男女,女男,男男,則P(女女)P(女女)P(女女)為1/4,P(女)=1?P(男男)=3/4P(女)= 1-P(男男)=3/4P(女)=1?P(男男)=3/4,所以最后1/31/31/3。
這里大家可能會(huì)誤解,男女和女男是同一種情況,但實(shí)際上類(lèi)似姐弟和兄妹是不同情況。
2.1.7 聯(lián)合概率與邊緣概率聯(lián)系區(qū)別
區(qū)別:
聯(lián)合概率:聯(lián)合概率指類(lèi)似于P(X=a,Y=b)P(X=a,Y=b)P(X=a,Y=b)這樣,包含多個(gè)條件,且所有條件同時(shí)成立的概率。聯(lián)合概率是指在多元的概率分布中多個(gè)隨機(jī)變量分別滿(mǎn)足各自條件的概率。
邊緣概率:邊緣概率是某個(gè)事件發(fā)生的概率,而與其它事件無(wú)關(guān)。邊緣概率指類(lèi)似于P(X=a)P(X=a)P(X=a),P(Y=b)P(Y=b)P(Y=b)這樣,僅與單個(gè)隨機(jī)變量有關(guān)的概率。
聯(lián)系:
聯(lián)合分布可求邊緣分布,但若只知道邊緣分布,無(wú)法求得聯(lián)合分布。
2.1.8 條件概率的鏈?zhǔn)椒▌t
由條件概率的定義,可直接得出下面的乘法公式:
乘法公式 設(shè)A,BA, BA,B是兩個(gè)事件,并且P(A)>0P(A) > 0P(A)>0, 則有
P(AB)=P(B∣A)P(A)P(AB) = P(B|A)P(A) P(AB)=P(B∣A)P(A)
推廣
P(ABC)=P(C∣AB)P(B∣A)P(A)P(ABC)=P(C|AB)P(B|A)P(A) P(ABC)=P(C∣AB)P(B∣A)P(A)
一般地,用歸納法可證:若P(A1A2...An)>0P(A_1A_2...A_n)>0P(A1?A2?...An?)>0,則有
P(A1A2...An)=P(An∣A1A2...An?1)P(An?1∣A1A2...An?2)...P(A2∣A1)P(A1)=P(A1)∏i=2nP(Ai∣A1A2...Ai?1)P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)\\ =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1}) P(A1?A2?...An?)=P(An?∣A1?A2?...An?1?)P(An?1?∣A1?A2?...An?2?)...P(A2?∣A1?)P(A1?)=P(A1?)i=2∏n?P(Ai?∣A1?A2?...Ai?1?)
任何多維隨機(jī)變量聯(lián)合概率分布,都可以分解成只有一個(gè)變量的條件概率相乘形式。
2.1.9 獨(dú)立性和條件獨(dú)立性
獨(dú)立性
兩個(gè)隨機(jī)變量xxx和yyy,概率分布可以表示成兩個(gè)因子乘積形式,一個(gè)因子只包含xxx,另一個(gè)因子只包含yyy,則可以說(shuō)這兩個(gè)隨機(jī)變量相互獨(dú)立(independent)**。
條件有時(shí)為不獨(dú)立的事件之間帶來(lái)獨(dú)立,有時(shí)也會(huì)把本來(lái)獨(dú)立的事件,因?yàn)榇藯l件的存在,而失去獨(dú)立性。
舉例:P(XY)=P(X)P(Y)P(XY)=P(X)P(Y)P(XY)=P(X)P(Y), 事件XXX和事件YYY獨(dú)立。此時(shí)給定ZZZ,
P(X,Y∣Z)=?P(X∣Z)P(Y∣Z)P(X,Y|Z) \not = P(X|Z)P(Y|Z) P(X,Y∣Z)?=P(X∣Z)P(Y∣Z)
事件獨(dú)立時(shí),聯(lián)合概率等于概率的乘積。這是一個(gè)非常好的數(shù)學(xué)性質(zhì),然而不幸的是,無(wú)條件的獨(dú)立是十分稀少的,因?yàn)榇蟛糠智闆r下,事件之間都是互相影響的。
條件獨(dú)立性
給定ZZZ的情況下,XXX和YYY條件獨(dú)立,當(dāng)且僅當(dāng)
X⊥Y∣Z?P(X,Y∣Z)=P(X∣Z)P(Y∣Z)X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z) X⊥Y∣Z?P(X,Y∣Z)=P(X∣Z)P(Y∣Z)
XXX和YYY的關(guān)系依賴(lài)于ZZZ,而不是直接產(chǎn)生。
舉例定義如下事件:
XXX:明天下雨;
YYY:今天的地面是濕的;
ZZZ:今天是否下雨;
ZZZ事件的成立,對(duì)XXX和YYY均有影響,然而,在ZZZ事件成立的前提下,今天的地面情況對(duì)明天是否下雨沒(méi)有影響。
2.1.10 常見(jiàn)公式
概率基礎(chǔ)的公式
- P(A+B)=P(A)+P(B)?P(AB)P(A+B) = P(A)+P(B)-P(AB)P(A+B)=P(A)+P(B)?P(AB)
- P(A?B)=P(A)?P(B)P(A-B)=P(A)-P(B)P(A?B)=P(A)?P(B)
- P(AB)=P(A)P(B∣A)P(AB)=P(A)P(B|A)P(AB)=P(A)P(B∣A)
全概率
P(A)=∑iP(Bi)P(A∣Bi)P(A) = \sum_i P(B_i)P(A|B_i)P(A)=∑i?P(Bi?)P(A∣Bi?)
貝葉斯
P(B∣A)=P(B)P(A∣B)P(A)P(B|A) = \frac{P(B)P(A|B)}{P(A)}P(B∣A)=P(A)P(B)P(A∣B)?
2.1.11 應(yīng)用
抽球
n 個(gè)球,對(duì)于有放回和無(wú)放回的抽取方式
-
有放回的抽取,抽取 m 個(gè)排成一列,求不同排列的數(shù)量:nmn^mnm
-
沒(méi)有放回的抽取,抽取 m 個(gè)排成一列,求不同排列的數(shù)量:n!(n?m)!\frac{n!}{(n-m)!}(n?m)!n!?
2.2 常見(jiàn)概率分布
2.2.1 均勻分布
離散隨機(jī)變量的均勻分布:假設(shè) X 有 k 個(gè)取值,則均勻分布的概率質(zhì)量函數(shù)為:
p(X=xi)=1k,i=1,2,?,kp(X=x_i) = \frac{1}{k},i=1,2,\cdots,k p(X=xi?)=k1?,i=1,2,?,k
連續(xù)隨機(jī)變量的均勻分布:假設(shè) X 在 [a, b] 上均勻分布,則其概率密度函數(shù)為:
$$
p(X=x) =
\begin{cases}
0,x\notin[a,b]\
\frac{1}{b-a},x\in[a, b]
\end{cases}
$$
2.2.1 Bernoulli分布
Bernoulli分布(伯努利分布,0-1分布)是單個(gè)二值隨機(jī)變量分布, 單參數(shù)?\phi?∈[0,1]控制,?\phi?給出隨機(jī)變量等于1的概率. 主要性質(zhì)有:
KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? P(x=1) &= \phi…
其期望和方差為:
KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? E_x[x] &= \phi…
適用范圍: 伯努利分布適合對(duì)離散型隨機(jī)變量建模.
Multinoulli分布也叫范疇分布, 是單個(gè)k值隨機(jī)分布,經(jīng)常用來(lái)表示對(duì)象分類(lèi)的分布. 其中kkk是有限值.Multinoulli分布由向量p?∈[0,1]k?1\vec{p}\in[0,1]^{k-1}p?∈[0,1]k?1參數(shù)化,每個(gè)分量pip_ipi?表示第iii個(gè)狀態(tài)的概率, 且pk=1?1Tpp_k=1-1^Tppk?=1?1Tp.這里1T1^T1T表示元素全為1的列向量的轉(zhuǎn)置,其實(shí)就是對(duì)于向量p中除了k的概率之和??梢灾貙?xiě)為pk=1?∑0k?1pip_k=1-\sum_{0}^{k-1}p_ipk?=1?∑0k?1?pi? 。
補(bǔ)充二項(xiàng)分布、多項(xiàng)分布:
二項(xiàng)分布,通俗點(diǎn)硬幣拋多次。二項(xiàng)分布(Binomial distribution)是n重伯努利試驗(yàn)成功次數(shù)的離散概率分布。
定義成功 x 次的概率為:f(x)=Cnxpx(1?p)n?x,x∈0,1,?,nf(x)=C_n^xp^x(1-p)^{n-x},x\in{0,1,\cdots,n}f(x)=Cnx?px(1?p)n?x,x∈0,1,?,n。
期望是 np, 方差是 np(1-p)
多項(xiàng)式分布(Multinomial Distribution)是二項(xiàng)式分布的推廣。二項(xiàng)式做n次伯努利實(shí)驗(yàn),規(guī)定了每次試驗(yàn)的結(jié)果只有兩個(gè),如果現(xiàn)在還是做n次試驗(yàn),只不過(guò)每次試驗(yàn)的結(jié)果可以有多m個(gè),且m個(gè)結(jié)果發(fā)生的概率互斥且和為1,則發(fā)生其中一個(gè)結(jié)果X次的概率就是多項(xiàng)式分布。
2.2.3 高斯分布
高斯也叫正態(tài)分布(Normal Distribution), 概率度函數(shù)如下:
N(x;μ,σ2)=12πσ2exp(?12σ2(x?μ)2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right ) N(x;μ,σ2)=2πσ21??exp(?2σ21?(x?μ)2)
其中, μ\muμ和σ\sigmaσ分別是均值和標(biāo)準(zhǔn)差, 中心峰值x坐標(biāo)由μ\muμ給出, 峰的寬度受σ\sigmaσ控制, 最大點(diǎn)在x=μx=\mux=μ處取得, 拐點(diǎn)為x=μ±σx=\mu\pm\sigmax=μ±σ
正態(tài)分布中,±1σ\sigmaσ、±2σ\sigmaσ、±3σ\sigmaσ下的概率分別是68.3%、95.5%、99.73%,這3個(gè)數(shù)最好記住。
此外, 令μ=0,σ=1\mu=0,\sigma=1μ=0,σ=1高斯分布即簡(jiǎn)化為標(biāo)準(zhǔn)正態(tài)分布:
N(x;μ,σ2)=12πexp(?12x2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ) N(x;μ,σ2)=2π1??exp(?21?x2)
對(duì)概率密度函數(shù)高效求值:
N(x;μ,β?1)=β2πexp(?12β(x?μ)2)N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right) N(x;μ,β?1)=2πβ??exp(?21?β(x?μ)2)
其中,β=1σ2\beta=\frac{1}{\sigma^2}β=σ21?通過(guò)參數(shù)β∈(0,∞)\beta∈(0,\infty)β∈(0,∞)來(lái)控制分布精度。
2.2.4 何時(shí)采用正態(tài)分布
問(wèn): 何時(shí)采用正態(tài)分布?
答: 缺乏實(shí)數(shù)上分布的先驗(yàn)知識(shí), 不知選擇何種形式時(shí), 默認(rèn)選擇正態(tài)分布總是不會(huì)錯(cuò)的, 理由如下:
正態(tài)分布的推廣:
正態(tài)分布可以推廣到RnR^nRn空間, 此時(shí)稱(chēng)為多位正態(tài)分布, 其參數(shù)是一個(gè)正定對(duì)稱(chēng)矩陣Σ\SigmaΣ:
N(x;μ?,Σ)=1(2π)ndet(Σ)exp(?12(x??μ?)TΣ?1(x??μ?))N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right) N(x;μ?,Σ)=(2π)ndet(Σ)1??exp(?21?(x?μ?)TΣ?1(x?μ?))
對(duì)多為正態(tài)分布概率密度高效求值:
N(x;μ?,β??1)=det(β?)(2π)nexp(?12(x??μ?)Tβ(x??μ?))N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right) N(x;μ?,β??1)=det(β?)?(2π)nexp(?21?(x?μ?)Tβ(x?μ?))
此處,β?\vec\betaβ?是一個(gè)精度矩陣。
2.2.5 指數(shù)分布
深度學(xué)習(xí)中, 指數(shù)分布用來(lái)描述在x=0x=0x=0點(diǎn)處取得邊界點(diǎn)的分布, 指數(shù)分布定義如下:
p(x;λ)=λIx≥0exp(?λx)p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x}) p(x;λ)=λIx≥0?exp(?λx)
指數(shù)分布用指示函數(shù)Ix≥0I_{x\geq 0}Ix≥0?來(lái)使xxx取負(fù)值時(shí)的概率為零。
2.2.6 Laplace 分布(拉普拉斯分布)
一個(gè)聯(lián)系緊密的概率分布是 Laplace 分布(Laplace distribution),它允許我們?cè)谌我庖稽c(diǎn) μ\muμ處設(shè)置概率質(zhì)量的峰值
Laplace(x;μ;γ)=12γexp(?∣x?μ∣γ)Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right) Laplace(x;μ;γ)=2γ1?exp(?γ∣x?μ∣?)
期望是 μ\muμ,方差是 2γ22\gamma^22γ2
拉普拉斯分布比高斯分布更加尖銳和狹窄,在正則化中通常會(huì)利用這個(gè)性質(zhì)。
2.2.7 泊松分布
假設(shè)已知事件在單位時(shí)間(或者單位面積)內(nèi)發(fā)生的平均次數(shù)為λ,則泊松分布描述了:事件在單位時(shí)間(或者單位面積)內(nèi)發(fā)生的具體次數(shù)為 k 的概率。 概率密度函數(shù):
p(X=k;λ)=e?λλkk!p(X=k;\lambda)=\frac{e^{-\lambda}\lambda^k}{k!} p(X=k;λ)=k!e?λλk?
期望是 λ\lambdaλ,方差是 λ\lambdaλ.
2.2.8 Dirac分布和經(jīng)驗(yàn)分布
Dirac分布可保證概率分布中所有質(zhì)量都集中在一個(gè)點(diǎn)上. Diract分布的狄拉克δ\deltaδ函數(shù)(也稱(chēng)為單位脈沖函數(shù))定義如下:
p(x)=δ(x?μ),x≠μp(x)=\delta(x-\mu), x\neq \mu p(x)=δ(x?μ),x?=μ
∫abδ(x?μ)dx=1,a<μ<b\int_{a}^\delta(x-\mu)dx = 1, a < \mu < b ∫ab?δ(x?μ)dx=1,a<μ<b
Dirac 分布經(jīng)常作為經(jīng)驗(yàn)分布(empirical distribution)的一個(gè)組成部分出現(xiàn)
p^(x?)=1m∑i=1mδ(x??x?(i))\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)}) p^?(x)=m1?i=1∑m?δ(x?x(i))
其中, m個(gè)點(diǎn)x1,...,xmx^{1},...,x^{m}x1,...,xm是給定的數(shù)據(jù)集, 經(jīng)驗(yàn)分布將概率密度1m\frac{1}{m}m1?賦給了這些點(diǎn).
當(dāng)我們?cè)谟?xùn)練集上訓(xùn)練模型時(shí), 可以認(rèn)為從這個(gè)訓(xùn)練集上得到的經(jīng)驗(yàn)分布指明了采樣來(lái)源.
適用范圍: 狄拉克δ函數(shù)適合對(duì)連續(xù)型隨機(jī)變量的經(jīng)驗(yàn)分布.
關(guān)于經(jīng)驗(yàn)分布的另一個(gè)重要觀點(diǎn)是,它是訓(xùn)練數(shù)據(jù)的似然最大的那個(gè)概率密度函數(shù)。
2.2.9 混合分布
通過(guò)組合一些簡(jiǎn)單的概率分布來(lái)定義新的概率分布也是很常見(jiàn)的。
一種通用的組合方法就是構(gòu)造混合分布?;旌戏植加梢恍┙M件分布構(gòu)成。
一個(gè)混合分布的例子就是:實(shí)值變量的經(jīng)驗(yàn)分布對(duì)于每一個(gè)訓(xùn)練實(shí)例來(lái)說(shuō),就是以 Dirac 分布為組件的混合分布。
混合模型是組合簡(jiǎn)單概率分布來(lái)生成更豐富的一種簡(jiǎn)單策略。一個(gè)非常強(qiáng)大且常見(jiàn)的混合模型就是高斯混合模型。
它的組件是高斯分布,每個(gè)組件有自己的參數(shù),均值和協(xié)方差矩陣。
2.3 期望、方差、協(xié)方差、相關(guān)系數(shù)
2.3.1 期望
函數(shù) f(x) 關(guān)于某個(gè)分布 P(x) 的期望或者期望值是指,當(dāng) x 由 P 產(chǎn)生, f 作用于 x 的時(shí)候,f(x) 的平均值。
在概率論和統(tǒng)計(jì)學(xué)中,數(shù)學(xué)期望(或均值,亦簡(jiǎn)稱(chēng)期望)是試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和。它反映隨機(jī)變量平均取值的大小。
- 線(xiàn)性運(yùn)算: E(ax+by+c)=aE(x)+bE(y)+cE(ax+by+c) = aE(x)+bE(y)+cE(ax+by+c)=aE(x)+bE(y)+c
- 推廣形式: E(∑k=1naixi+c)=∑k=1naiE(xi)+cE(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}E(∑k=1n?ai?xi?+c)=∑k=1n?ai?E(xi?)+c
- 函數(shù)期望:設(shè)f(x)f(x)f(x)為xxx的函數(shù),則f(x)f(x)f(x)的期望為
- 離散函數(shù): E(f(x))=∑k=1nf(xk)P(xk)E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}E(f(x))=∑k=1n?f(xk?)P(xk?)
- 連續(xù)函數(shù): E(f(x))=∫?∞+∞f(x)p(x)dxE(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}E(f(x))=∫?∞+∞?f(x)p(x)dx
注意:
- 函數(shù)的期望大于等于期望的函數(shù)(Jensen(詹森)不等式,即E(f(x))?f(E(x))E(f(x))\geqslant f(E(x))E(f(x))?f(E(x))
- 一般情況下,乘積的期望不等于期望的乘積。
- 如果XXX和YYY相互獨(dú)立,則E(xy)=E(x)E(y)E(xy)=E(x)E(y)E(xy)=E(x)E(y)。
2.3.2 方差
概率論中方差用來(lái)度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。方差是一種特殊的期望。定義為:
Var(x)=E((x?E(x))2)Var(x) = E((x-E(x))^2) Var(x)=E((x?E(x))2)
方差性質(zhì):
1)Var(x)=E(x2)?E(x)2Var(x) = E(x^2) -E(x)^2Var(x)=E(x2)?E(x)2
2)常數(shù)的方差為0;
3)方差不滿(mǎn)足線(xiàn)性性質(zhì);
4)如果XXX和YYY相互獨(dú)立, Var(ax+by)=a2Var(x)+b2Var(y)Var(ax+by)=a^2Var(x)+b^2Var(y)Var(ax+by)=a2Var(x)+b2Var(y)
2.3.3 協(xié)方差
協(xié)方差是衡量?jī)蓚€(gè)變量線(xiàn)性相關(guān)性強(qiáng)度及變量尺度。 兩個(gè)隨機(jī)變量的協(xié)方差定義為:
Cov(x,y)=E((x?E(x))(y?E(y)))Cov(x,y)=E((x-E(x))(y-E(y))) Cov(x,y)=E((x?E(x))(y?E(y)))
方差是一種特殊的協(xié)方差。當(dāng)X=YX=YX=Y時(shí),Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)。
協(xié)方差性質(zhì):
1)獨(dú)立變量的協(xié)方差為0。
2)協(xié)方差計(jì)算公式:
Cov(∑i=1maixi,∑j=1mbjyj)=∑i=1m∑j=1maibjCov(xiyi)Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)} Cov(i=1∑m?ai?xi?,j=1∑m?bj?yj?)=i=1∑m?j=1∑m?ai?bj?Cov(xi?yi?)
3)特殊情況:
Cov(a+bx,c+dy)=bdCov(x,y)Cov(a+bx, c+dy) = bdCov(x, y) Cov(a+bx,c+dy)=bdCov(x,y)
2.3.4 相關(guān)系數(shù)
相關(guān)系數(shù)是研究變量之間線(xiàn)性相關(guān)程度的量。兩個(gè)隨機(jī)變量的相關(guān)系數(shù)定義為:
Corr(x,y)=Cov(x,y)Var(x)Var(y)Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} Corr(x,y)=Var(x)Var(y)?Cov(x,y)?
相關(guān)系數(shù)的性質(zhì):
1)有界性。相關(guān)系數(shù)的取值范圍是 [-1,1],可以看成無(wú)量綱的協(xié)方差。
2)值越接近1,說(shuō)明兩個(gè)變量正相關(guān)性(線(xiàn)性)越強(qiáng)。越接近-1,說(shuō)明負(fù)相關(guān)性越強(qiáng),當(dāng)為0時(shí),表示兩個(gè)變量沒(méi)有相關(guān)性。
2.4 信息論
信息論主要研究的是對(duì)一個(gè)信號(hào)包含新的多少進(jìn)行量化。
信息論的一個(gè)基本想法是一個(gè)不太可能發(fā)生的事件居然發(fā)生了,比一個(gè)非??赡馨l(fā)生的事件發(fā)生,能提供更多的信息。
如果想通過(guò)這種基本想法來(lái)量化信息,需要滿(mǎn)足這個(gè) 3 個(gè)性質(zhì):
- 非??赡馨l(fā)生的事件信息論要比較少,并且極端情況下,確保能夠發(fā)生的事件應(yīng)該沒(méi)有信息量;
- 較不可能發(fā)生的事件具有更高的信息量;
- 獨(dú)立事件應(yīng)具有增量的信息。例如,投擲的硬幣兩次正面朝上傳遞的信息,應(yīng)該是投擲一次硬幣證明朝上的信息量的兩倍。
這里定義一個(gè)事件 x=xxx 的自信息為:
I(x)=?logP(x)I(x) = -log P(x) I(x)=?logP(x)
自信息量只能處理單個(gè)的輸出??梢杂?strong>香農(nóng)熵來(lái)對(duì)整個(gè)概率分布中的不確定性總量進(jìn)行量化:
H(x)=?Ex~P[I(x)]=?Ex~P[logP(x)]H(x) = -E_{x\sim P}[I(x)] = -E_{x\sim P}[logP(x)] H(x)=?Ex~P?[I(x)]=?Ex~P?[logP(x)]
也記作 H§。這里的 E 表示的就是期望,也就是說(shuō)一個(gè)分布的香農(nóng)熵是指遵循這個(gè)分布的事件所產(chǎn)生的期望信息總量。
而如果對(duì)于一個(gè)隨機(jī)變量有兩個(gè)單獨(dú)的概率分布 P(x) 和 Q(x),那么可以使用KL 散度來(lái)衡量這兩個(gè)分布的差異:
DKL(P∣∣Q)=Ex~P[logP(x)logQ(x)]=Ex~P[logP(x)?logQ(x)]D_{KL}(P||Q) = E_{x\sim P}[\frac{logP(x)}{logQ(x)}] = E_{x\sim P}[logP(x)-logQ(x)] DKL?(P∣∣Q)=Ex~P?[logQ(x)logP(x)?]=Ex~P?[logP(x)?logQ(x)]
舉例:對(duì)于一個(gè)二值隨機(jī)分布的香農(nóng)熵,H(x)=?(1?p)log(1?p)?plogpH(x) =- (1-p)log(1-p)-plogpH(x)=?(1?p)log(1?p)?plogp
KL散度的性質(zhì)有:
一個(gè)和 KL 散度很相似的是交叉熵,即 H(P,Q)=H(P)+DKL(P∣∣Q)H(P,Q)=H(P)+D_{KL}(P||Q)H(P,Q)=H(P)+DKL?(P∣∣Q):
H(P,Q)=?Ex~PlogQ(x)H(P,Q)=-E_{x\sim P}logQ(x) H(P,Q)=?Ex~P?logQ(x)
針對(duì) Q 最小化交叉熵等價(jià)于最小化 KL 散度,因?yàn)?Q 并不參與被省略的那一項(xiàng)。
在計(jì)算這些量的時(shí)候,經(jīng)常會(huì)遇到 0log0 這個(gè)表達(dá)式,一般對(duì)這個(gè)的處理是 limx?>0xlogx=0lim_{x->0}xlogx = 0limx?>0?xlogx=0
總結(jié)
以上是生活随笔為你收集整理的数学学习笔记--概率论的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【高并发】面试官:性能优化有哪些衡量指标
- 下一篇: 5101是多大的电阻_贴片电阻1206-