當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数学学习笔记--概率论

發(fā)布時(shí)間：2023/12/10 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了数学学习笔记--概率论小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

2. 概率論

2.1 概率分布與隨機(jī)變量

2.1.1 機(jī)器學(xué)習(xí)為什么要使用概率

事件的概率是衡量該事件發(fā)生的可能性的量度。雖然在一次隨機(jī)試驗(yàn)中某個(gè)事件的發(fā)生是帶有偶然性的，但那些可在相同條件下大量重復(fù)的隨機(jī)試驗(yàn)卻往往呈現(xiàn)出明顯的數(shù)量規(guī)律。

機(jī)器學(xué)習(xí)通常必須處理不確定量，有時(shí)候也需要處理隨機(jī)量。幾乎所有的活動(dòng)都需要一些在不確定性存在的情況下進(jìn)行推理的能力。

不確定性和隨機(jī)性可能來(lái)自多個(gè)方面，不確定性有 3 種可能的來(lái)源：

被建模系統(tǒng)內(nèi)在的隨機(jī)性。比如紙牌游戲，假設(shè)紙牌被真正混洗成了隨機(jī)順序。

不完全觀測(cè)。對(duì)于確定的系統(tǒng)，但是如果不能觀測(cè)到所有驅(qū)動(dòng)系統(tǒng)行為的變量時(shí)，該系統(tǒng)也會(huì)呈現(xiàn)隨機(jī)性。比如讓選手選擇三扇門(mén)中的一個(gè)，并獲得門(mén)后的獎(jiǎng)品，每個(gè)門(mén)后的獎(jiǎng)品是確定的，但是選手無(wú)法觀測(cè)到，所以對(duì)于選手來(lái)說(shuō)，結(jié)果是不確定的。

不完全建模。當(dāng)采用一些必須舍棄某些信息的模型時(shí)，舍棄的信息可能導(dǎo)致模型的預(yù)測(cè)出現(xiàn)不確定性。

在很多情況下，采用簡(jiǎn)單而不確定的規(guī)則要比復(fù)雜而確定的規(guī)則更加的實(shí)用。

可以使用概率論來(lái)量化不確定性。用概率來(lái)表示一種信任度，概率直接和事件發(fā)生的頻率相聯(lián)系的被稱(chēng)為頻率派概率，比如說(shuō)某件事發(fā)生的概率是 p，這表示如果反復(fù)試驗(yàn)無(wú)限次，有 p 的比例是發(fā)生這件事情；而涉及確定性水平的稱(chēng)為貝葉斯概率，比如說(shuō)醫(yī)生在對(duì)一個(gè)病人的診斷中判斷其患某個(gè)病的概率是 p。

概率論在機(jī)器學(xué)習(xí)中扮演著一個(gè)核心角色，因?yàn)闄C(jī)器學(xué)習(xí)算法的設(shè)計(jì)通常依賴(lài)于對(duì)數(shù)據(jù)的概率假設(shè)。

例如在機(jī)器學(xué)習(xí)（Andrew Ng）的課中，會(huì)有一個(gè)樸素貝葉斯假設(shè)就是條件獨(dú)立的一個(gè)例子。該學(xué)習(xí)算法對(duì)內(nèi)容做出假設(shè)，用來(lái)分辨電子郵件是否為垃圾郵件。假設(shè)無(wú)論郵件是否為垃圾郵件，單詞x出現(xiàn)在郵件中的概率條件獨(dú)立于單詞y。很明顯這個(gè)假設(shè)不是不失一般性的，因?yàn)槟承﹩卧~幾乎總是同時(shí)出現(xiàn)。然而，最終結(jié)果是，這個(gè)簡(jiǎn)單的假設(shè)對(duì)結(jié)果的影響并不大，且無(wú)論如何都可以讓我們快速判別垃圾郵件。

2.1.2 變量與隨機(jī)變量有什么區(qū)別

隨機(jī)變量（random variable）是可以隨機(jī)地取不同數(shù)值的變量。

它表示隨機(jī)現(xiàn)象（在一定條件下，并不總是出現(xiàn)相同結(jié)果的現(xiàn)象稱(chēng)為隨機(jī)現(xiàn)象）中各種結(jié)果的實(shí)值函數(shù)（一切可能的樣本點(diǎn)）。例如某一時(shí)間內(nèi)公共汽車(chē)站等車(chē)乘客人數(shù)，電話(huà)交換臺(tái)在一定時(shí)間內(nèi)收到的呼叫次數(shù)等，都是隨機(jī)變量的實(shí)例。
隨機(jī)變量與模糊變量的不確定性的本質(zhì)差別在于，后者的測(cè)定結(jié)果仍具有不確定性，即模糊性。

變量與隨機(jī)變量的區(qū)別：
當(dāng)變量的取值的概率不是1時(shí),變量就變成了隨機(jī)變量；當(dāng)隨機(jī)變量取值的概率為1時(shí),隨機(jī)變量就變成了變量。

比如：
當(dāng)變量 $x$ 值為100的概率為1的話(huà),那么 $x = 100$ 就是確定了的,不會(huì)再有變化,除非有進(jìn)一步運(yùn)算.
當(dāng)變量 $x$ 的值為100的概率不為1,比如為50的概率是0.5,為100的概率是0.5,那么這個(gè)變量就是會(huì)隨不同條件而變化的,是隨機(jī)變量,取到50或者100的概率都是0.5,即50%。

2.1.3 隨機(jī)變量與概率分布的聯(lián)系

一個(gè)隨機(jī)變量?jī)H僅表示一個(gè)可能取得的狀態(tài)，還必須給定與之相伴的概率分布來(lái)制定每個(gè)狀態(tài)的可能性。用來(lái)描述隨機(jī)變量或一簇隨機(jī)變量的每一個(gè)可能的狀態(tài)的可能性大小的方法，就是概率分布(probability distribution)**.

隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。

相應(yīng)的描述其概率分布的函數(shù)是：

概率質(zhì)量函數(shù)(Probability Mass Function, PMF):描述離散型隨機(jī)變量的概率分布，通常用大寫(xiě)字母 $P$ 表示。
概率密度函數(shù)(Probability Density Function, PDF)：描述連續(xù)型隨機(jī)變量的概率分布，通常用小寫(xiě)字母 $p$ 表示。

2.1.4 離散型隨機(jī)變量和概率質(zhì)量函數(shù)

PMF 將隨機(jī)變量能夠取得的每個(gè)狀態(tài)映射到隨機(jī)變量取得該狀態(tài)的概率。

一般而言， $P (x)$ 表示時(shí) $? X = x$ 的概率，概率為 1 表示 $ X=x$ 是確定的，概率是 0 表示 $ X=x$ 是不可能的；
有時(shí)候?yàn)榱朔乐够煜?#xff0c;要明確寫(xiě)出隨機(jī)變量的名稱(chēng) $P ($ x $= x)$
有時(shí)候需要先定義一個(gè)隨機(jī)變量，然后制定它遵循的概率分布 x 服從 $P ($ x $)$

PMF 可以同時(shí)作用于多個(gè)隨機(jī)變量，即聯(lián)合概率分布(joint probability distribution) $P (X = x, Y = y)$ 表示 $X = x$ 和 $? Y = y$ 同時(shí)發(fā)生的概率，也可以簡(jiǎn)寫(xiě)成 $P (x, y)$ .

如果一個(gè)函數(shù) $P$ 是隨機(jī)變量 $X$ 的 PMF，那么它必須滿(mǎn)足如下三個(gè)條件：

$P$ 的定義域必須是的所有可能狀態(tài)的集合
$? x \in$ x, $0 \leq P(x) \leq 1 $.
$_{x∈X} P(x)=1$ . 我們把這一條性質(zhì)稱(chēng)之為歸一化的(normalized)，如果不滿(mǎn)足這條性質(zhì)，那么可能某件事情發(fā)生的概率會(huì)是大于 1。

2.1…5 連續(xù)型隨機(jī)變量和概率密度函數(shù)

如果一個(gè)函數(shù) $p$ 是x的PDF，那么它必須滿(mǎn)足如下幾個(gè)條件

$p$ 的定義域必須是x的所有可能狀態(tài)的集合。
$? x \in X, p (x) \geq 0$ . 注意，我們并不要求$ p(x)≤1$，因?yàn)榇颂? $p (x)$ 不是表示的對(duì)應(yīng)此狀態(tài)具體的概率，而是概率的一個(gè)相對(duì)大小(密度)。具體的概率，需要積分去求。
$\int p (x) d x = 1$ , 積分下來(lái)，總和還是1，概率之和還是1.

注：PDF $p (x)$ 并沒(méi)有直接對(duì)特定的狀態(tài)給出概率，給出的是密度，相對(duì)的，它給出了落在面積為 $δ x$ 的無(wú)線(xiàn)小的區(qū)域內(nèi)的概率為$ p(x)δx$.

由此，我們無(wú)法求得具體某個(gè)狀態(tài)的概率，我們可以求得的是某個(gè)狀態(tài) $x$ 落在某個(gè)區(qū)間 $[a, b]$ 內(nèi)的概率為$ \int_{a}^p(x)dx$.

2.1.6 舉例理解條件概率

條件概率公式如下：
$P(A\cap B) / P(B)$
說(shuō)明：在同一個(gè)樣本空間 $Ω\Omega$ 中的事件或者子集 $A$ 與 $B$ ，如果隨機(jī)從 $Ω\Omega$ 中選出的一個(gè)元素屬于 $B$ ，那么下一個(gè)隨機(jī)選擇的元素屬于 $A$ 的概率就定義為在 $B$ 的前提下 $A$ 的條件概率。

條件概率文氏圖示意如圖1.1所示。

圖1.1 條件概率文氏圖示意

根據(jù)文氏圖，可以很清楚地看到在事件B發(fā)生的情況下，事件A發(fā)生的概率就是 $P(A?B)P(A\bigcap B)$ 除以 $P (B)$ 。

舉例：一對(duì)夫妻有兩個(gè)小孩，已知其中一個(gè)是女孩，則另一個(gè)是女孩子的概率是多少？（面試、筆試都碰到過(guò)）

窮舉法：已知其中一個(gè)是女孩，那么樣本空間為男女，女女，女男，則另外一個(gè)仍然是女生的概率就是1/3。

條件概率法： $P (女 ∣ 女) = P (女女) / P (女)$ ,夫妻有兩個(gè)小孩，那么它的樣本空間為女女，男女，女男，男男，則 $P (女女)$ 為1/4， $P （女） = 1 ? P (男男) = 3 / 4$ ,所以最后 $1 / 3$ 。

這里大家可能會(huì)誤解，男女和女男是同一種情況，但實(shí)際上類(lèi)似姐弟和兄妹是不同情況。

2.1.7 聯(lián)合概率與邊緣概率聯(lián)系區(qū)別

區(qū)別：
聯(lián)合概率：聯(lián)合概率指類(lèi)似于 $P (X = a, Y = b)$ 這樣，包含多個(gè)條件，且所有條件同時(shí)成立的概率。聯(lián)合概率是指在多元的概率分布中多個(gè)隨機(jī)變量分別滿(mǎn)足各自條件的概率。

邊緣概率：邊緣概率是某個(gè)事件發(fā)生的概率，而與其它事件無(wú)關(guān)。邊緣概率指類(lèi)似于 $P (X = a)$ ， $P (Y = b)$ 這樣，僅與單個(gè)隨機(jī)變量有關(guān)的概率。

聯(lián)系：

聯(lián)合分布可求邊緣分布，但若只知道邊緣分布，無(wú)法求得聯(lián)合分布。

2.1.8 條件概率的鏈?zhǔn)椒▌t

由條件概率的定義，可直接得出下面的乘法公式：
乘法公式設(shè) $A, B$ 是兩個(gè)事件，并且 $P (A) > 0$ , 則有
$P (A B) = P (B ∣ A) P (A)$
推廣
$P (A B C) = P (C ∣ A B) P (B ∣ A) P (A)$
一般地，用歸納法可證：若 $P(A_1A_2...A_n)>0$ ，則有
$P(A1A2...An)=P(An∣A1A2...An?1)P(An?1∣A1A2...An?2)...P(A2∣A1)P(A1)=P(A1)∏i=2nP(Ai∣A1A2...Ai?1)P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)\\ =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})$
任何多維隨機(jī)變量聯(lián)合概率分布，都可以分解成只有一個(gè)變量的條件概率相乘形式。

2.1.9 獨(dú)立性和條件獨(dú)立性

獨(dú)立性
兩個(gè)隨機(jī)變量 $x$ 和 $y$ ，概率分布可以表示成兩個(gè)因子乘積形式，一個(gè)因子只包含 $x$ ，另一個(gè)因子只包含 $y$ ，則可以說(shuō)這兩個(gè)隨機(jī)變量相互獨(dú)立(independent)**。
條件有時(shí)為不獨(dú)立的事件之間帶來(lái)獨(dú)立，有時(shí)也會(huì)把本來(lái)獨(dú)立的事件，因?yàn)榇藯l件的存在，而失去獨(dú)立性。

舉例： $P (X Y) = P (X) P (Y)$ , 事件 $X$ 和事件 $Y$ 獨(dú)立。此時(shí)給定 $Z$ ，
$\not = P(X|Z)P(Y|Z)$
事件獨(dú)立時(shí)，聯(lián)合概率等于概率的乘積。這是一個(gè)非常好的數(shù)學(xué)性質(zhì)，然而不幸的是，無(wú)條件的獨(dú)立是十分稀少的，因?yàn)榇蟛糠智闆r下，事件之間都是互相影響的。

條件獨(dú)立性
給定 $Z$ 的情況下, $X$ 和 $Y$ 條件獨(dú)立，當(dāng)且僅當(dāng)
$X⊥Y∣Z?P(X,Y∣Z)=P(X∣Z)P(Y∣Z)X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)$
$X$ 和 $Y$ 的關(guān)系依賴(lài)于 $Z$ ，而不是直接產(chǎn)生。

舉例定義如下事件：
$X$ ：明天下雨；
$Y$ ：今天的地面是濕的；
$Z$ ：今天是否下雨；
$Z$ 事件的成立，對(duì) $X$ 和 $Y$ 均有影響，然而，在 $Z$ 事件成立的前提下，今天的地面情況對(duì)明天是否下雨沒(méi)有影響。

2.1.10 常見(jiàn)公式

概率基礎(chǔ)的公式

$P (A + B) = P (A) + P (B) ? P (A B)$
$P (A ? B) = P (A) ? P (B)$
$P (A B) = P (A) P (B ∣ A)$

全概率

$\sum_i P(B_i)P(A|B_i)$

貝葉斯

$\frac{P(B)P(A|B)}{P(A)}$

2.1.11 應(yīng)用

抽球

n 個(gè)球，對(duì)于有放回和無(wú)放回的抽取方式

有放回的抽取，抽取 m 個(gè)排成一列，求不同排列的數(shù)量： $n^m$
沒(méi)有放回的抽取，抽取 m 個(gè)排成一列，求不同排列的數(shù)量： $n!(n?m)!\frac{n!}{(n-m)!}$

2.2 常見(jiàn)概率分布

2.2.1 均勻分布

離散隨機(jī)變量的均勻分布：假設(shè) X 有 k 個(gè)取值，則均勻分布的概率質(zhì)量函數(shù)為：
$p(X=xi)=1k,i=1,2,?,kp(X=x_i) = \frac{1}{k},i=1,2,\cdots,k$
連續(xù)隨機(jī)變量的均勻分布：假設(shè) X 在 [a, b] 上均勻分布，則其概率密度函數(shù)為：
$$
p(X=x) =

\begin{cases}
0,x\notin[a,b]\
\frac{1}{b-a},x\in[a, b]
\end{cases}
$$

2.2.1 Bernoulli分布

Bernoulli分布(伯努利分布，0-1分布)是單個(gè)二值隨機(jī)變量分布, 單參數(shù) $?\phi$ ∈[0,1]控制, $?\phi$ 給出隨機(jī)變量等于1的概率. 主要性質(zhì)有:
$KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? P(x=1) &= \phi…$
其期望和方差為：
$KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? E_x[x] &= \phi…$
適用范圍: 伯努利分布適合對(duì)離散型隨機(jī)變量建模.

Multinoulli分布也叫范疇分布, 是單個(gè)k值隨機(jī)分布,經(jīng)常用來(lái)表示對(duì)象分類(lèi)的分布. 其中 $k$ 是有限值.Multinoulli分布由向量 $p?∈[0,1]k?1\vec{p}\in[0,1]^{k-1}$ 參數(shù)化,每個(gè)分量 $p_i$ 表示第 $i$ 個(gè)狀態(tài)的概率, 且 $p_k=1-1^Tp$ .這里 $1^T$ 表示元素全為1的列向量的轉(zhuǎn)置，其實(shí)就是對(duì)于向量p中除了k的概率之和?？梢灾貙?xiě)為 $pk=1?∑0k?1pip_k=1-\sum_{0}^{k-1}p_i$ 。

補(bǔ)充二項(xiàng)分布、多項(xiàng)分布：

二項(xiàng)分布，通俗點(diǎn)硬幣拋多次。二項(xiàng)分布(Binomial distribution)是n重伯努利試驗(yàn)成功次數(shù)的離散概率分布。

定義成功 x 次的概率為： $f(x)=Cnxpx(1?p)n?x,x∈0,1,?,nf(x)=C_n^xp^x(1-p)^{n-x},x\in{0,1,\cdots,n}$ 。

期望是 np，方差是 np(1-p)

多項(xiàng)式分布(Multinomial Distribution)是二項(xiàng)式分布的推廣。二項(xiàng)式做n次伯努利實(shí)驗(yàn)，規(guī)定了每次試驗(yàn)的結(jié)果只有兩個(gè)，如果現(xiàn)在還是做n次試驗(yàn)，只不過(guò)每次試驗(yàn)的結(jié)果可以有多m個(gè)，且m個(gè)結(jié)果發(fā)生的概率互斥且和為1，則發(fā)生其中一個(gè)結(jié)果X次的概率就是多項(xiàng)式分布。

2.2.3 高斯分布

高斯也叫正態(tài)分布(Normal Distribution), 概率度函數(shù)如下:
$N(x;μ,σ2)=12πσ2exp(?12σ2(x?μ)2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )$
其中, $μ\mu$ 和 $σ\sigma$ 分別是均值和標(biāo)準(zhǔn)差, 中心峰值x坐標(biāo)由 $μ\mu$ 給出, 峰的寬度受 $σ\sigma$ 控制, 最大點(diǎn)在 $x=μx=\mu$ 處取得, 拐點(diǎn)為 $x=μ±σx=\mu\pm\sigma$

正態(tài)分布中，±1 $σ\sigma$ 、±2 $σ\sigma$ 、±3 $σ\sigma$ 下的概率分別是68.3%、95.5%、99.73%，這3個(gè)數(shù)最好記住。

此外, 令 $μ=0,σ=1\mu=0,\sigma=1$ 高斯分布即簡(jiǎn)化為標(biāo)準(zhǔn)正態(tài)分布:
$N(x;μ,σ2)=12πexp(?12x2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )$
對(duì)概率密度函數(shù)高效求值:
$N(x;μ,β?1)=β2πexp(?12β(x?μ)2)N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)$

其中， $β=1σ2\beta=\frac{1}{\sigma^2}$ 通過(guò)參數(shù) $β∈（0，∞）\beta∈（0，\infty）$ 來(lái)控制分布精度。

2.2.4 何時(shí)采用正態(tài)分布

問(wèn): 何時(shí)采用正態(tài)分布?

答: 缺乏實(shí)數(shù)上分布的先驗(yàn)知識(shí), 不知選擇何種形式時(shí), 默認(rèn)選擇正態(tài)分布總是不會(huì)錯(cuò)的, 理由如下:

中心極限定理告訴我們, 很多獨(dú)立隨機(jī)變量均近似服從正態(tài)分布, 現(xiàn)實(shí)中很多復(fù)雜系統(tǒng)都可以被建模成正態(tài)分布的噪聲, 即使該系統(tǒng)可以被結(jié)構(gòu)化分解.

正態(tài)分布是具有相同方差的所有概率分布中, 不確定性最大的分布, 換句話(huà)說(shuō), 正態(tài)分布是對(duì)模型加入先驗(yàn)知識(shí)最少的分布.

正態(tài)分布的推廣:

正態(tài)分布可以推廣到 $R^n$ 空間, 此時(shí)稱(chēng)為多位正態(tài)分布, 其參數(shù)是一個(gè)正定對(duì)稱(chēng)矩陣 $Σ\Sigma$ :
$N(x;μ?,Σ)=1(2π)ndet(Σ)exp(?12(x??μ?)TΣ?1(x??μ?))N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)$
對(duì)多為正態(tài)分布概率密度高效求值:
$N(x;μ?,β??1)=det(β?)(2π)nexp(?12(x??μ?)Tβ(x??μ?))N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)$
此處， $β?\vec\beta$ 是一個(gè)精度矩陣。

2.2.5 指數(shù)分布

深度學(xué)習(xí)中, 指數(shù)分布用來(lái)描述在 $x = 0$ 點(diǎn)處取得邊界點(diǎn)的分布, 指數(shù)分布定義如下:
$p(x;λ)=λIx≥0exp(?λx)p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})$
指數(shù)分布用指示函數(shù) $Ix≥0I_{x\geq 0}$ 來(lái)使 $x$ 取負(fù)值時(shí)的概率為零。

2.2.6 Laplace 分布（拉普拉斯分布）

一個(gè)聯(lián)系緊密的概率分布是 Laplace 分布（Laplace distribution），它允許我們?cè)谌我庖稽c(diǎn) $μ\mu$ 處設(shè)置概率質(zhì)量的峰值
$Laplace(x;μ;γ)=12γexp(?∣x?μ∣γ)Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)$

期望是 $μ\mu$ ，方差是 $2γ22\gamma^2$

拉普拉斯分布比高斯分布更加尖銳和狹窄，在正則化中通常會(huì)利用這個(gè)性質(zhì)。

2.2.7 泊松分布

假設(shè)已知事件在單位時(shí)間（或者單位面積）內(nèi)發(fā)生的平均次數(shù)為λ，則泊松分布描述了：事件在單位時(shí)間（或者單位面積）內(nèi)發(fā)生的具體次數(shù)為 k 的概率。概率密度函數(shù)：
$p(X=k;λ)=e?λλkk!p(X=k;\lambda)=\frac{e^{-\lambda}\lambda^k}{k!}$
期望是 $λ\lambda$ ，方差是 $λ\lambda$ .

2.2.8 Dirac分布和經(jīng)驗(yàn)分布

Dirac分布可保證概率分布中所有質(zhì)量都集中在一個(gè)點(diǎn)上. Diract分布的狄拉克 $δ\delta$ 函數(shù)(也稱(chēng)為單位脈沖函數(shù))定義如下:
$p(x)=δ(x?μ),x≠μp(x)=\delta(x-\mu), x\neq \mu$

$∫abδ(x?μ)dx=1,a<μ<b\int_{a}^\delta(x-\mu)dx = 1, a < \mu < b$

Dirac 分布經(jīng)常作為經(jīng)驗(yàn)分布（empirical distribution）的一個(gè)組成部分出現(xiàn)
$p^(x?)=1m∑i=1mδ(x??x?(i))\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})$
其中, m個(gè)點(diǎn) $x^{1},...,x^{m}$ 是給定的數(shù)據(jù)集, 經(jīng)驗(yàn)分布將概率密度 $1m\frac{1}{m}$ 賦給了這些點(diǎn).

當(dāng)我們?cè)谟?xùn)練集上訓(xùn)練模型時(shí), 可以認(rèn)為從這個(gè)訓(xùn)練集上得到的經(jīng)驗(yàn)分布指明了采樣來(lái)源.

適用范圍: 狄拉克δ函數(shù)適合對(duì)連續(xù)型隨機(jī)變量的經(jīng)驗(yàn)分布.

關(guān)于經(jīng)驗(yàn)分布的另一個(gè)重要觀點(diǎn)是，它是訓(xùn)練數(shù)據(jù)的似然最大的那個(gè)概率密度函數(shù)。

2.2.9 混合分布

通過(guò)組合一些簡(jiǎn)單的概率分布來(lái)定義新的概率分布也是很常見(jiàn)的。

一種通用的組合方法就是構(gòu)造混合分布?；旌戏植加梢恍┙M件分布構(gòu)成。

一個(gè)混合分布的例子就是：實(shí)值變量的經(jīng)驗(yàn)分布對(duì)于每一個(gè)訓(xùn)練實(shí)例來(lái)說(shuō)，就是以 Dirac 分布為組件的混合分布。

混合模型是組合簡(jiǎn)單概率分布來(lái)生成更豐富的一種簡(jiǎn)單策略。一個(gè)非常強(qiáng)大且常見(jiàn)的混合模型就是高斯混合模型。

它的組件是高斯分布，每個(gè)組件有自己的參數(shù)，均值和協(xié)方差矩陣。

2.3 期望、方差、協(xié)方差、相關(guān)系數(shù)

2.3.1 期望

函數(shù) f(x) 關(guān)于某個(gè)分布 P(x) 的期望或者期望值是指，當(dāng) x 由 P 產(chǎn)生, f 作用于 x 的時(shí)候，f(x) 的平均值。

在概率論和統(tǒng)計(jì)學(xué)中，數(shù)學(xué)期望（或均值，亦簡(jiǎn)稱(chēng)期望）是試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和。它反映隨機(jī)變量平均取值的大小。

線(xiàn)性運(yùn)算： $E (a x + b y + c) = a E (x) + b E (y) + c$
推廣形式： $E(∑k=1naixi+c)=∑k=1naiE(xi)+cE(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}$
函數(shù)期望：設(shè) $f (x)$ 為 $x$ 的函數(shù)，則 $f (x)$ 的期望為
- 離散函數(shù)： $E(f(x))=∑k=1nf(xk)P(xk)E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}$
- 連續(xù)函數(shù)： $E(f(x))=∫?∞+∞f(x)p(x)dxE(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$

注意：

函數(shù)的期望大于等于期望的函數(shù)（Jensen（詹森）不等式，即 $E(f(x))?f(E(x))E(f(x))\geqslant f(E(x))$
一般情況下，乘積的期望不等于期望的乘積。
如果 $X$ 和 $Y$ 相互獨(dú)立，則 $E (x y) = E (x) E (y)$ 。

2.3.2 方差

概率論中方差用來(lái)度量隨機(jī)變量和其數(shù)學(xué)期望（即均值）之間的偏離程度。方差是一種特殊的期望。定義為：

$Var(x) = E((x-E(x))^2)$

方差性質(zhì)：

1） $Var(x) = E(x^2) -E(x)^2$
2）常數(shù)的方差為0;
3）方差不滿(mǎn)足線(xiàn)性性質(zhì);
4）如果 $X$ 和 $Y$ 相互獨(dú)立, $Var(ax+by)=a^2Var(x)+b^2Var(y)$

2.3.3 協(xié)方差

協(xié)方差是衡量?jī)蓚€(gè)變量線(xiàn)性相關(guān)性強(qiáng)度及變量尺度。兩個(gè)隨機(jī)變量的協(xié)方差定義為：
$C o v (x, y) = E ((x ? E (x)) (y ? E (y)))$

方差是一種特殊的協(xié)方差。當(dāng) $X = Y$ 時(shí)， $C o v (x, y) = V a r (x) = V a r (y)$ 。

協(xié)方差性質(zhì)：

1）獨(dú)立變量的協(xié)方差為0。
2）協(xié)方差計(jì)算公式：

$Cov(∑i=1maixi,∑j=1mbjyj)=∑i=1m∑j=1maibjCov(xiyi)Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)}$

3）特殊情況：

$C o v (a + b x, c + d y) = b d C o v (x, y)$

2.3.4 相關(guān)系數(shù)

相關(guān)系數(shù)是研究變量之間線(xiàn)性相關(guān)程度的量。兩個(gè)隨機(jī)變量的相關(guān)系數(shù)定義為：
$\frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$

相關(guān)系數(shù)的性質(zhì)：
1）有界性。相關(guān)系數(shù)的取值范圍是 [-1,1]，可以看成無(wú)量綱的協(xié)方差。
2）值越接近1，說(shuō)明兩個(gè)變量正相關(guān)性（線(xiàn)性）越強(qiáng)。越接近-1，說(shuō)明負(fù)相關(guān)性越強(qiáng)，當(dāng)為0時(shí)，表示兩個(gè)變量沒(méi)有相關(guān)性。

2.4 信息論

信息論主要研究的是對(duì)一個(gè)信號(hào)包含新的多少進(jìn)行量化。

信息論的一個(gè)基本想法是一個(gè)不太可能發(fā)生的事件居然發(fā)生了，比一個(gè)非?？赡馨l(fā)生的事件發(fā)生，能提供更多的信息。

如果想通過(guò)這種基本想法來(lái)量化信息，需要滿(mǎn)足這個(gè) 3 個(gè)性質(zhì)：

非?？赡馨l(fā)生的事件信息論要比較少，并且極端情況下，確保能夠發(fā)生的事件應(yīng)該沒(méi)有信息量；
較不可能發(fā)生的事件具有更高的信息量；
獨(dú)立事件應(yīng)具有增量的信息。例如，投擲的硬幣兩次正面朝上傳遞的信息，應(yīng)該是投擲一次硬幣證明朝上的信息量的兩倍。

這里定義一個(gè)事件 x= $x$ 的自信息為：
$I (x) = ? l o g P (x)$
自信息量只能處理單個(gè)的輸出?？梢杂?strong>香農(nóng)熵來(lái)對(duì)整個(gè)概率分布中的不確定性總量進(jìn)行量化：
$-E_{x\sim P}[I(x)] = -E_{x\sim P}[logP(x)]$
也記作 H§。這里的 E 表示的就是期望，也就是說(shuō)一個(gè)分布的香農(nóng)熵是指遵循這個(gè)分布的事件所產(chǎn)生的期望信息總量。

而如果對(duì)于一個(gè)隨機(jī)變量有兩個(gè)單獨(dú)的概率分布 P(x) 和 Q(x)，那么可以使用KL 散度來(lái)衡量這兩個(gè)分布的差異：
$DKL(P∣∣Q)=Ex～P[logP(x)logQ(x)]=Ex～P[logP(x)?logQ(x)]D_{KL}(P||Q) = E_{x\sim P}[\frac{logP(x)}{logQ(x)}] = E_{x\sim P}[logP(x)-logQ(x)]$
舉例：對(duì)于一個(gè)二值隨機(jī)分布的香農(nóng)熵， $H (x) = ? (1 ? p) l o g (1 ? p) ? p l o g p$

KL散度的性質(zhì)有：

非負(fù)的；

KL 散度為 0 的情況，當(dāng)且僅當(dāng) P 和 Q 在離散型變量的情況下是相同的分布，或者在連續(xù)型變量的情況下是“幾乎處處”相同的；

常用作衡量分布之間的某種距離，但并不是真正的距離，因?yàn)樗皇菍?duì)稱(chēng)的。

一個(gè)和 KL 散度很相似的是交叉熵，即 $H(P,Q)=H(P)+D_{KL}(P||Q)$ ：
$H(P,Q)=?Ex～PlogQ(x)H(P,Q)=-E_{x\sim P}logQ(x)$
針對(duì) Q 最小化交叉熵等價(jià)于最小化 KL 散度，因?yàn)?Q 并不參與被省略的那一項(xiàng)。

在計(jì)算這些量的時(shí)候，經(jīng)常會(huì)遇到 0log0 這個(gè)表達(dá)式，一般對(duì)這個(gè)的處理是 $lim_{x->0}xlogx = 0$

總結(jié)

以上是生活随笔為你收集整理的数学学习笔记--概率论的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【高并发】面试官：性能优化有哪些衡量指标
下一篇： 5101是多大的电阻_贴片电阻1206-