深度学习(2)--常见概率分布(2)
上一部分介紹了伯努利分布、二項式分布、多項式分布以及范疇分布,這里將繼續介紹高斯分布、指數分布、Laplace分布、Dirac分布、經驗分布及混合分布。
高斯分布
高斯分布又稱為正態分布,其圖形為鐘形曲線(bell-shaped curve),特點是中間高、兩頭低。利用數學期望μ\muμ表示鐘形曲線的中心位置,標準差σ\sigmaσ表示曲線的離散程度。
隨機變量xxx服從數學期望μ\muμ、標準差σ2\sigma^2σ2的正態分布,記為x~N(μ,σ2)x \thicksim N(\mu, \sigma^2)x~N(μ,σ2),其概率密度函數為:
f(x)=12πσe?(x?μ)22σ2f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}f(x)=2π?σ1?e?2σ2(x?μ)2?.
該密度函數具有如下性質:
- 當x>0x > 0x>0時,f(x)>0f(x) > 0f(x)>0;
- 令y=x?μσy = \frac{x - \mu}{\sigma}y=σx?μ?, 則∫?∞∞f(x)dx=∫?∞∞12πσe?(x?μ)22σ2dx=∫?∞∞12πe?y22dy=1\int_{-\infty}^{\infty} f(x)dx = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}dx = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{y^2}{2}} dy= 1∫?∞∞?f(x)dx=∫?∞∞?2π?σ1?e?2σ2(x?μ)2?dx=∫?∞∞?2π?1?e?2y2?dy=1.
指數分布
連續隨機變量xxx服從參數為λ\lambdaλ的指數分布(λ>0\lambda > 0λ>0,常數),記為x~E(λ)x \thicksim E(\lambda)x~E(λ),其概率密度函數為:
f(x)={λe?λx,x>00,x≤0(1)f(x) = \left\{\begin{array}{ll}\lambda e^{-\lambda x}, &x > 0\\0, &x \le 0 \end{array}\right. \tag{1}f(x)={λe?λx,0,?x>0x≤0?(1)
該密度函數具有如下性質:
- 當x>0x > 0x>0時,f(x)>0f(x) > 0f(x)>0;
- ∫?∞∞f(x)dx=∫0∞f(x)dx=∫0∞λe?λxdx=?∫0∞e?λxd(?λx)=1\int_{-\infty}^{\infty} f(x)dx = \int_{0}^{\infty} f(x)dx = \int_{0}^{\infty}\lambda e^{-\lambda x}dx = -\int_{0}^{\infty} e^{-\lambda x}d(-\lambda x) = 1∫?∞∞?f(x)dx=∫0∞?f(x)dx=∫0∞?λe?λxdx=?∫0∞?e?λxd(?λx)=1.
下圖為不同λ\lambdaλ對應的概率密度函數圖形:
指數分布在銀行窗口服務、交通管理、火車票售票系統、消費市場研究等中被廣泛運用。
【例題-1】假設一個煤礦礦難服從指數分布,其概率密度函數為:
f(t)=1142e?t142,t>0f(t) = \frac{1}{142} e^{-\frac{t}{142}}, t > 0f(t)=1421?e?142t?,t>0
求分布函數。
【解答】
F(t)=∫0t1142e?x142dt=1?e?t142F(t) = \int_{0}^{t} \frac{1}{142} e^{-\frac{x}{142}} dt = 1- e^{-\frac{t}{142}}F(t)=∫0t?1421?e?142x?dt=1?e?142t?.
有了指數分布函數,我們很容易得出某個時間區間內礦難發生的概率有多大,比如50~100天中發生礦難的概率是:
F(100)?F(50)=(1?e?100142)?(1?e?50142)=0.399F(100) - F(50) = (1- e^{-\frac{100}{142}}) - (1- e^{-\frac{50}{142}}) = 0.399F(100)?F(50)=(1?e?142100?)?(1?e?14250?)=0.399 .
拉普拉斯(Laplace)分布
設隨機變量xxx服從參數為λ\lambdaλ和μ\muμ的拉普拉斯分布(λ\lambdaλ和μ\muμ是常數,且λ>0\lambda > 0λ>0),其概率密度函數為:
f(x)=12λe?∣x?μ∣λf(x) = \frac{1}{2\lambda} e^{-\frac{|x - \mu|}{\lambda}}f(x)=2λ1?e?λ∣x?μ∣?.
該密度函數具有如下性質:
- f(x)≥0f(x) \ge 0f(x)≥0;
- 令y=x?μλy = \frac{x - \mu}{\lambda}y=λx?μ?,∫?∞∞f(x)dx=∫?∞∞12λe?∣x?μ∣λdx=∫?∞∞=12∫?∞∞e?∣y∣dy=∫0∞e?ydy=1\int_{-\infty}^{\infty} f(x) dx = \int_{-\infty}^{\infty} \frac{1}{2\lambda} e^{-\frac{|x - \mu|}{\lambda}} dx = \int_{-\infty}^{\infty} = \frac{1}{2} \int_{-\infty}^{\infty} e^{-|y|} dy = \int_{0}^{\infty} e^{-y} dy = 1∫?∞∞?f(x)dx=∫?∞∞?2λ1?e?λ∣x?μ∣?dx=∫?∞∞?=21?∫?∞∞?e?∣y∣dy=∫0∞?e?ydy=1.
下圖為μ=0\mu = 0μ=0,不同λ\lambdaλ對應的概率密度函數圖形:
狄拉克(Dirac)分布
物理學經常需要研究一個物理量在空間或時間中分布的密度,例如質量密度、電荷密度、每單位時間傳遞的動量(即力)等,但是物理學中又常用到質點、點電荷、瞬時力等抽象模型,他們不是連續分布在空間或時間中,而是集中在空間中的某一點或者時間中的某一瞬時,那么它們的密度應該如何表示呢?
為了在數學上理想地表示出這種密度分布,引入了δ\deltaδ函數的概念,該函數在除了零以外的點取值都等于零,而其在整個定義域上的積分等于1。數學描述如下:
{δ(x)=0,x≠0∫?∞∞δ(x)=1(2)\left\{\begin{array}{ll}\delta(x) = 0, & x \ne 0 \\ \int_{-\infty}^{\infty} \delta(x) = 1 \end{array}\right. \tag{2}{δ(x)=0,∫?∞∞?δ(x)=1?x?=0(2)
嚴格來說δ\deltaδ函數不能算是一個函數,因為滿足以上條件的函數是不存在的。數學上,人們為這類函數引入了廣義函數的概念,在廣義函數的理論中,δ\deltaδ函數的確切意義應該是在積分意義下來理解。在實際應用中,δ\deltaδ函數總是伴隨著積分一起出現 。δ\deltaδ分布在偏微分方程、數學物理方法、傅立葉分析和概率論里都有很重要的應用。
一些函數可以認為是δ\deltaδ函數的近似,但是要注意,這些函數都是通過極限構造的,因此嚴格上都不是δ\deltaδ函數本身,不過在一些數學計算中可以作為δ\deltaδ函數進行計算。
δ(x)=lim?a→0+1aπe?x2a2\delta(x) = \lim_{a \rightarrow 0^+}\frac{1}{a\sqrt{\pi}}e^{-\frac{x^2}{a^2}}δ(x)=lima→0+?aπ?1?e?a2x2?
δ(x)=lim?a→0+1πaa2+x2\delta(x) = \lim_{a \rightarrow 0^+}\frac{1}{\pi}\frac{a}{a^2 + x^2}δ(x)=lima→0+?π1?a2+x2a?
δ(x)=lim?k→∞1πsin?(kx)x\delta(x) = \lim_{k \rightarrow \infty}\frac{1}{\pi}\frac{\sin(kx)}{x}δ(x)=limk→∞?π1?xsin(kx)?
δ(x)=lim?k→∞12πsin?2(kx)/2k(x/2)2\delta(x) = \lim_{k \rightarrow \infty}\frac{1}{2\pi}\frac{\sin^2(kx)/2}{k(x/2)^2}δ(x)=limk→∞?2π1?k(x/2)2sin2(kx)/2?
經驗分布
問題引入:假設{x1,x2,…,xn}\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n\}{x1?,x2?,…,xn?}是總體X\mathbf{X}X的樣本,XXX的分布函數FFF未知。如何利用{x1,x2,…,xn}\{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n\}{x1?,x2?,…,xn?}的信息,來推導出F(x)F(x)F(x)的形式?
方法:用經驗分布函數去描述總體的分布(推斷),用直方圖去描述XXX的密度函數(近似)。當我們的觀測值足夠多,經驗分布函數不斷接近總體的分布函數。
【例題-1】對于X\mathbf{X}X,抽取一組大小為10的樣本,得到的觀察值為:{1.9,2.5,0.1,0.5,4,5.9,4.5,7.9,7.5,9.9}\{1.9, 2.5, 0.1, 0.5, 4, 5.9, 4.5, 7.9, 7.5, 9.9\}{1.9,2.5,0.1,0.5,4,5.9,4.5,7.9,7.5,9.9}
【分析】
第一步:對樣本觀察值進行排序并且求得極差
排序:[0.1,0.5,1.9,2.5,4,4.5,5.9,7.5,7.9,9.9][0.1,0.5,1.9,2.5,4,4.5,5.9,7.5,7.9,9.9][0.1,0.5,1.9,2.5,4,4.5,5.9,7.5,7.9,9.9]
極差:9.9?0.1=9.89.9-0.1=9.89.9?0.1=9.8 ##最大觀察值-最小觀察值
第二步:確定組距和組數。
區間:[b:a]=[0:10][b: a] = [0:10][b:a]=[0:10] ##區間要包含所有的觀察值,左右邊界值略寬于觀測值的邊界
組數:這個區間分成多少個組,利用如下經驗公式計算得到
m≈1.87?(b?1)0.4=1.87?(10?1)0.4=4.5m \approx 1.87 * (b-1)^{0.4} = 1.87 * (10 - 1)^{0.4} = 4.5m≈1.87?(b?1)0.4=1.87?(10?1)0.4=4.5
組距:將區間[0:10]分成m個小區間,每個小區間的距離叫做組距
b?am=10?04.5≈2.2\frac{b - a}{m} = \frac{10 - 0}{4.5} \approx 2.2mb?a?=4.510?0?≈2.2
為了方便,小區間被分成了:[0,2),[2,4),[4,6),[6,8),[8,10][0,2),[2,4),[4,6),[6,8),[8,10][0,2),[2,4),[4,6),[6,8),[8,10]
第三步:計算落入各個區間的樣本個數(頻數),并作XXX的經驗分布函數
[0,2)[0,2)[0,2)—3個
[2,4)[2,4)[2,4)—1個
[4,6)[4,6)[4,6)—3個
[6,8)[6,8)[6,8)—2個
[8,10][8,10][8,10]—1個
經驗分布函數為:
F(x)={0,x≤0310,0≤x<2410,2≤x<4710,4≤x<6910,6≤x<81,x≥8(3)F(x) = \left\{\begin{array}{lll}0, & x \le 0 \\ \frac{3}{10}, & 0 \le x \lt 2 \\ \frac{4}{10}, & 2 \le x \lt 4 \\ \frac{7}{10}, & 4 \le x \lt 6 \\ \frac{9}{10}, & 6 \le x \lt 8 \\ 1, & x \ge 8 \end{array}\right. \tag{3}F(x)=????????????????0,103?,104?,107?,109?,1,?x≤00≤x<22≤x<44≤x<66≤x<8x≥8?(3)
第四步:做直方圖,獲得近似的密度函數
混合分布
一個非常強大且常見的混合模型是高斯混合模型(Gaussian Mixture Model)。隨機變量XXX服從混合高斯分布,則其密度函數為:
p(x∣θ)=∑i=1mεipi(x∣μi,σi2),(4)p(x|\theta) = \sum_{i = 1}^m \varepsilon_i p_i(x | \mu_i, \sigma_i^2), \tag{4}p(x∣θ)=i=1∑m?εi?pi?(x∣μi?,σi2?),(4)
其中,θ=(ε1,…,εm;μ1,…,μm;σ12,…,σm2)\theta = (\varepsilon_1, \dots, \varepsilon_m; \mu_1, \dots, \mu_m; \sigma_1^2, \dots, \sigma_m^2)θ=(ε1?,…,εm?;μ1?,…,μm?;σ12?,…,σm2?), ε1+ε2+?+εm=1\varepsilon_1 + \varepsilon_2 + \dots + \varepsilon_m = 1ε1?+ε2?+?+εm?=1, εi≥0\varepsilon_i \ge 0εi?≥0, i=(1,2,…,m)i = (1, 2, \dots, m)i=(1,2,…,m)。pip_ipi?, μi\mu_iμi?, σi2\sigma_i^2σi2?分別表示第iii個分布的密度函數、均值和方差,且pip_ipi?相互獨立。
在實際應用中,一個復雜的分布通常用兩個或三個正態分布分量經混合便可得到較好的逼近。
總結
以上是生活随笔為你收集整理的深度学习(2)--常见概率分布(2)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐系统--安全联邦矩阵分解(7)
- 下一篇: (pytorch-深度学习)实现残差网络