當前位置：首頁 >

潜在狄利克雷分布（LDA）初探

發布時間：2023/12/19 63 豆豆

生活随笔收集整理的這篇文章主要介紹了潜在狄利克雷分布（LDA）初探小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

多項式分布與狄利克雷分布
- 多項式分布
- 狄利克雷分布
潛在狄利克雷分布模型
- 文本生成
- 模型定義
LDA 與 PLSA 異同

潛在狄利克雷分布（Latent Dirichlet Allocation, LDA），是一種無監督學習算法，用于識別文檔集中潛在的主題詞信息。在訓練時不需要手工標注的訓練集，需要的僅僅是文檔集以及指定主題的數量 k 即可。對于每一個主題均可找出一些詞語來描述它。

LDA是一種典型的詞袋模型，即它認為一篇文檔是由一組詞構成的一個集合，詞與詞之間沒有順序以及先后的關系。一篇文檔可以包含多個主題，文檔中每一個詞都由其中的一個主題生成。

多項式分布與狄利克雷分布

狄利克雷分布是多項式分布的共軛先驗概率分布。

多項式分布

假設重復進行 $n$ 次獨立隨機試驗，每次試驗可能出現的結果有 $k$ 種，第 $i$ 種結果出現的概率為 $p_i$ ，第 $i$ 種結果出現的次數為 $n_i$ ，隨機變量 $X=(X1,X2,…,Xk)X=(X_1,X_2,\ldots,X_k)$ 表示試驗所有可能的結果的次數， $X_i$ 表示第 $i$ 種結果出現的次數。那么隨機變量X服從多項分布：
$P(X1=n1,X2=n2,…,Xk=nk)=n!n1!n2!…nk!p1n1p2n2…pknkP(X_1=n_1,X_2=n_2,\ldots,X_k = n_k) = \frac{n!}{n_1!n_2!\ldots n_k!} p_1^{n_1} p_2^{n_2}\ldots p_k^{n_k}$
其中 $p=(p1,p2,...,pk)，∑i=1kpi=1,∑i=1kni=np=(p_1, p_2,...,p_k)，\sum_{i=1}^k p_i =1, \sum_{i=1}^k n_i =n$ 。我們稱變量X服從參數為 $(n, p)$ 的多項式分布，記作： $\sim Mult(n,p)$ 。

狄利克雷分布

多元連續隨機變量 $θ=(θ1,θ2,…,θk)\theta = (\theta_1,\theta_2,\ldots,\theta_k)$ 的概率密度為：
$P(θ∣α)=Γ(∑i=1Kαi)∏i=1KΓ(αi)∏i=1Kθiαi?1P(\theta| \alpha) = \frac{\Gamma(\sum\limits_{i=1}^K\alpha_i)}{\prod_{i=1}^K\Gamma(\alpha_i)}\prod_{i=1}^K\theta_i^{\alpha_i-1}$
其中 $∑i=1kθi=1,θi≥0,α=(α1,α2,…,αk),αi>0\sum_{i=1}^k \theta_i =1,\theta_i \geq 0, \alpha=(\alpha_1,\alpha_2,\ldots,\alpha_k), \alpha_i \gt 0$ ，且 $Γ(s)\Gamma(s)$ 是伽馬函數：
$Γ(s)=∫0∞xs?1e?xdxs>0\Gamma(s) = \int_{0}^\infty x^{s-1}e^{-x}dx \qquad s>0$
則稱隨機變量 $θ\theta$ 服從參數為 $α\alpha$ 的狄利克雷分布，記作 $θ～Dir(α)\theta \sim Dir(\alpha)$ 。

狄利克雷分布有一些重要性質：（1）狄利克雷分布屬于指數分布族；（2）狄利克雷分布是多項分布的共軛先驗。

如果后驗分布與先驗分布屬于同類，則二者稱為共軛分布，先驗分布稱為共軛先驗。使用共軛分布的好處是便于從先驗分布計算后驗分布。

由于多項分布的先驗分布和后驗分布都是狄利克雷分布，所以狄利克雷分布是多項分布的共軛先驗；狄利克雷后驗分布的參數等于狄利克雷先驗分布參數 $α=(α1,α2,…,αk)\alpha=(\alpha_1,\alpha_2,\ldots,\alpha_k)$ 加上多項分布的觀測計數 $n=(n1,n2,…,nk)n=(n_1,n_2,\ldots,n_k)$ 。

潛在狄利克雷分布模型

文本生成

LDA 模型是概率圖模型，特點是以狄利克雷分布為多項式分布的先驗分布，學習過程就是給定文本集合，通過后驗概率分布的估計，推斷模型的所有參數。利用LDA進行話題分析，就是對給定文本集合，學習每個文本的話題分布，以及每個話題的單詞分布。文本生成過程如下圖所示：

可以認為LDA是概率潛在語義分析(PLSA)的擴展，在文本生成過程中，LDA使用狄利克雷分布作為先驗分布，而PLSA不使用先驗分布(或者說假設先驗分布是均勻分布)。LDA的優點是：使用先驗概率分布，可以防止學習過程中產生的過擬合。

模型定義

LDA使用三個集合：

V

個單詞集合

W={w1,…,wv,…,wV}W=\{w_1,\ldots,w_v,\ldots,w_V\}

M

個文本的集合

D={w1,…,wm,…,wM}D=\{\mathbf w_1,\ldots,\mathbf w_m,\ldots, \mathbf w_M \}

，

wm\mathbf w_m

是第m個文本的單詞，共

N_m

個單詞序列

wm=(wm1,…,wmn,…,wmNm)\mathbf w_m = (w_{m1},\ldots,w_{mn},\ldots,w_{mN_m})

K

個話題的集合

Z={z1,…,zk,…,zK}Z=\{z_1,\ldots,z_k,\ldots,z_K\}

給定狄利克雷分布的超參數α和β，LDA文本集合的生成過程如下：

(1) 生成話題的單詞分布

隨機生成K個話題的單詞分布：按照狄利克雷分布 $Dir(β)Dir(\beta)$ 隨機生成一個參數向量 $φk=(φk1,φk2,…,φkV),φk～Dir(β)\varphi_k = (\varphi_{k1},\varphi_{k2},\ldots,\varphi_{kV}), \varphi_k \sim Dir(\beta)$ ， $φkV\varphi_{kV}$ 表示話題 $z_k$ 生成單詞 $w_v$ 的概率， $φk\varphi_{k}$ 作為話題 $z_k$ 的單詞分布 $P(w|z_k)$ 。

(2) 生成文本的話題分布

隨機生成 $M$ 個文本的話題分布：按照狄利克雷分布 $Dir(α)Dir(\alpha)$ 隨機生成一個參數向量 $θm=(θm1,θm2,…,θmk),θm～Dir(α)\theta_m = (\theta_{m1},\theta_{m2},\ldots,\theta_{mk}), \theta_m \sim Dir(\alpha)$ ， $θmk\theta_{mk}$ 表示文本 $wm\mathbf w_m$ 生成話題 $z_k$ 的概率， $θm\theta_m$ 作為文本 $wm\mathbf w_m$ 的話題分布 $P(z∣wm)P(z|\mathbf w_m)$ 。

(3) 生成文本的單詞序列

要隨機生成 $M$ 個文本的 $N_m$ 個單詞，則文本 $wm,(m=1,2,...,M)\mathbf w_m,(m= 1,2,... ,M)$ 的單詞 $w_{mn} (n=1,2,.. ,Nm)$ 的生成過程如下:

(3-1) 首先按照多項分布 $Mult(θm)Mult(\theta_m)$ 隨機生成一個話題 $z_{mn}$ ， $zmn～Mult(θm)z_{mn} \sim Mult(\theta_m)$ 。

(3-2) 然后按照多項分布 $Mult(φzmn)Mult(\varphi_{z_{mn}})$ 隨機生成一個單詞 $wmn,wmn～Mult(φzmn)w_{mn}, w_{mn} \sim Mult(\varphi_{z_{mn}})$ ，文本 $wm\mathbf w_m$ 本身是單詞序列 $wm=(wm1,…,wmn,…,wmNm)\mathbf w_m = (w_{m1},\ldots,w_{mn},\ldots,w_{mN_m})$ ，對應著隱式的話題序列 $Z={zm1,zm2,…,zmNm}Z=\{z_{m1},z_{m2},\ldots,z_{mN_m}\}$ 。

上述過程對應的概率圖模型如下：

展開后如下圖所示：

LDA 與 PLSA 異同

相同點：兩者都假設話題是單詞的多項分布，文本是話題的多項分布。

不同點：

在文本生成過程中，LDA使用狄利克雷分布作為先驗分布，而PLSA不使用先驗分布(或者說假設先驗分布是均勻分布。;使用先驗概率分布，可以防止學習過程中產生的過擬合。

學習過程LDA基于貝葉斯學習，而PLSA基于極大似然估計。

參考文章：

《統計學習方法第二版》

【轉】LDA數學八卦

總結

以上是生活随笔為你收集整理的潜在狄利克雷分布（LDA）初探的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：概率潜在语义分析(pLSA) 相关知识
下一篇： BP神经网络相关知识