當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习中的常用概率分布

發布時間：2024/1/23 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习中的常用概率分布小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、伯努利分布

伯努利分布是單個二值型隨機變量的分布。
它由單個參數 $?∈[0,1]\phi \in [0, 1]$ 控制， $?\phi$ 給出了等于1的概率。它具有如下的一些性質：
$P(x=1)=?P(x=0)=1??P(x=x)=?x(1??)1?xEx[x]=?Varx(x)=?(1??)\begin{aligned} P(x =1) = \phi \\ P(x =0) = 1-\phi \\ P(x = x) = \phi^x (1-\phi)^{1-x} \\ E_{x}[x] = \phi \\ Var_{x}(x) = \phi(1-\phi) \\ \end{aligned}$

2、多項式分布

多項式分布是指在具有 $k$ 個不同狀態的單個離散型隨機變量上的分布，其中 $k$ 是一個有限值。多項式分布的參數由向量 $p∈[0,1]k?1\rm p \in [0, 1]^{k-1}$ 參數化，其中每一個分量 $p_i$ 表示第 $i$ 個狀態的概率。最后的第 $k$ 個狀態的概率可以通過 $1?1?p1-\bf 1^\top \rm p$ 給出。
注意我們必須限制 $1?p≤1\bf 1^\top \rm p \le 1$ 。多項式分布經常用來表示對象分類的分布，所以我們很少假設狀態1具有數值1之類的。
因此，我們通常不需要去計算多項式分布的隨機變量的期望和方差。

多項式分布和伯努利分布足夠用來描述在它們領域內的任意分布。
它們能夠描述這些分布，不是因為它們特別強大，而是因為它們的領域很簡單；
它們可以對那些，能夠將所有的狀態進行枚舉的離散型進行建模。
當處理的是連續型時，會有不可數無限多的狀態，所以任何通過少量參數描述的都必須在分布上加以嚴格的限制。

3、高斯分布

實數上最常用的分布就是高斯分布，也稱為正態分布：

下圖畫出來標準的正態分布：

正態分布由兩個參數控制， $μ∈R\mu \in R$ 和 $σ∈(0,∞)\sigma \in (0, \infty)$ 。
參數 $μ\mu$ 給出了中心峰值的坐標，這也是分布的均值： $\mu$ 。
分布的標準誤差用 $σ\sigma$ 表示，方差用 $σ2\sigma^2$ 表示。

當我們要對概率密度函數求值時，我們需要對 $σ\sigma$ 平方并且取倒數。
當我們需要經常對不同參數下的概率密度函數求值時，一種更高效使用參數描述分布的方式是使用參數 $β∈(0,∞)\beta \in (0, \infty)$ ，來控制分布的精度(或方差的倒數)：
$KaTeX parse error: Undefined control sequence: \cal at position 2: \?c?a?l? ?N(x; \mu, \beta…$

采用正態分布在很多應用中都是一個明智的選擇。
當我們由于缺乏關于某個實數上分布的先驗知識而不知道該選擇怎樣的形式時，正態分布是默認的比較好的選擇，其中有兩個原因。

正態分布可以推廣到 $R^n$ 空間，略。

4、指數分布和拉普拉斯分布

在深度學習中，我們經常會需要一個在 $x = 0$ 點處取得邊界點(sharp
point)的分布。為了實現這一目的，我們可以使用指數分布：
$\lambda) = \lambda \bf 1_{x\ge 0} \exp(-\lambda x)$
典型的指數分布：

指數分布使用指示函數(indicator
function) $1x≥0\bf 1_{x\ge 0}$ 來使得當 $x$ 取負值時的概率為零。

一個聯系緊密的是拉普拉斯分布，它允許我們在任意一點 $μ\mu$ 處設置概率質量的峰值

$Laplace(x;μ,γ)=12γexp?(?∣x?μ∣γ)\text{Laplace}(x; \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma} \right)$

5、Dirac分布和經驗分布

在一些情況下，我們希望概率分布中的所有質量都集中在一個點上。這可以通過Dirac delta函數
$δ(x)\delta(x)$ 定義概率密度函數來實現：

$\delta(x-\mu)$

Dirac delta函數被定義成在除了0以外的所有點的值都為0，但是積分為1。
不像普通函數一樣對 $x$ 的每一個值都有一個實數值的輸出，它是一種不同類型的數學對象，被稱為廣義函數，是依據積分性質定義的數學對象。
我們可以把Dirac delta函數想成一系列函數的極限點，這一系列函數把除0以外的所有點的概率密度越變越小。

通過把 $p (x)$ 定義成 $δ\delta$ 函數左移 $?μ-\mu$ 個單位，我們得到了一個在 $x=μx=\mu$ 處具有無限窄也無限高的峰值的概率質量。

Dirac delta函數經常作為經驗分布的一個組成部分出現：
$p^(x)=1m∑i=1mδ(x?x(i))\hat{p}(x) = \frac{1}{m} \sum_{i=1}^m \delta(x - x^{(i)})$

經驗分布將概率密度 $1m\frac{1}{m}$ 賦給 $m$ 個點 $x(1),…,x(m)x^{(1)}, \dots, x^{(m)}$ 中的每一個，這些點是給定的數據集或者采樣的集合。
Dirac delta函數只有在定義連續型的經驗分布時，才是必要的。
對于離散型，情況更加簡單：可以被定義成一個多項式分布，對于每一個可能的輸入，其概率可以簡單地設為在訓練集上那個輸入值的。

當我們在訓練集上訓練模型時，我們可以認為從這個訓練集上得到的指明了我們采樣來源的分布。
關于另外一種重要的觀點是，它是訓練數據的似然最大的那個概率密度函數。

總結

以上是生活随笔為你收集整理的机器学习中的常用概率分布的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。