當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

十二、主题模型

發(fā)布時(shí)間：2023/12/15 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了十二、主题模型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

- 一、pLSA
- 二、LDA模型

一、pLSA

每個(gè)文檔都會(huì)在主題上有一個(gè)分布，每個(gè)主題在各個(gè)詞上也有一個(gè)分布

上式是關(guān)于w，zk，di的部分可觀測(cè)的函數(shù)，所以用EM算法求解

求給定樣本之下的主題的后驗(yàn)概率：

pLSA的進(jìn)一步思考：

原來(lái)相當(dāng)于是一個(gè)二層的模型，只要文檔和詞給定了，得到的結(jié)果就是一樣的，不需要先驗(yàn)信息就可以完成學(xué)習(xí)，既是優(yōu)勢(shì)也是劣勢(shì)。

二、LDA模型

主要問(wèn)題：

貝葉斯模型：假設(shè)參數(shù)是不斷變化的，參數(shù)本身也服從某個(gè)分布，貝葉斯學(xué)派能夠得到一個(gè)稍微好點(diǎn)的目標(biāo)函數(shù)，也能比較方便的分析相關(guān)關(guān)系。

大數(shù)據(jù)的情況是頻率學(xué)派的一個(gè)逆襲，因?yàn)樵跀?shù)據(jù)很多的情況下，我們就不需要對(duì)其先驗(yàn)進(jìn)行猜測(cè)了，直接利用極大似然估計(jì)就有較好的效果。

貝葉斯學(xué)派說(shuō)，我可以用小樣本來(lái)做事情。

如果認(rèn)為所有的先驗(yàn)P(θ)都是一樣的話，那就退化成了極大似然估計(jì)。

共軛分布：兩者滿足同樣的分布率

為什么要提出共軛先驗(yàn)分布：

平方和損失的正則化，就是假定參數(shù)theta服從高斯分布的貝葉斯學(xué)派的思想，

因?yàn)榇螖?shù)已知，所以是關(guān)于p的函數(shù)h(p)，求偏導(dǎo)=0，可得朝上的概率p，頻率的程度是概率。

修正，更符合常理，但是5和10是什么？為什么可以加上，背后的理論是什么？

理論解釋：

貝葉斯理論，可以使得在小樣本的情況下是更合理的，+5和+10是防止過(guò)擬合。

共軛先驗(yàn)的推廣：

多項(xiàng)分布的先驗(yàn)分布是狄利克雷分布

狄利克雷函數(shù)：

一般選定alpha是相等的，因?yàn)闆](méi)有先驗(yàn)信息，退化成均勻分布（對(duì)稱狄利克雷分布）。

alpha=1，平的，均勻分布
alpha<1，圖中的情況(alpha=0.3)，取某一個(gè)維度的概率是最高的，取三個(gè)都相等的概率是最低的；
alpha>1，圖中情況的反向（也就是類似于鍋蓋）,取某一個(gè)維度的概率是最低的，取三個(gè)維度都相等的概率是最高的。

p1,p2,p3…就是我們要求的概率，而關(guān)于概率我們做了一個(gè)超參數(shù)alpha，比如x1=x2=0的點(diǎn)，此時(shí)x3等于某個(gè)值，該值最大，也就是該點(diǎn)的概率值大，

x1+x2+x3=1，因此沒(méi)必要畫三個(gè)參數(shù)的圖像，因?yàn)閤3=1-x2-x1，也就是取得x1=a,x2=b的概率就是縱軸，即三維圖是(x1,x2,ln(p(x1,x2)))

利于做收斂，詞匯集中到某個(gè)點(diǎn)去，alpha越小，說(shuō)明主題越鮮明；

alpha=1時(shí)，表示每個(gè)主題被取到的概率是一樣的，說(shuō)明主題最不鮮明。

當(dāng)alpha繼續(xù)增大的時(shí)候，假如到達(dá)了10，相當(dāng)于這個(gè)文檔的主題是相等的。

當(dāng)我們樣本數(shù)量足夠大的時(shí)候，alpha的影響已經(jīng)不太大了，先驗(yàn)的影響已經(jīng)不大了。

LDA：

m個(gè)文章是樣本，K個(gè)主題是我們給定的

比如第一個(gè)文章涉及了70%的武俠，30%的愛(ài)情，這就是主題分布，主題分布在每個(gè)主題上都可能發(fā)生，所以是一個(gè)多項(xiàng)分布，主題的參數(shù)服從狄利克雷分布，該分布的參數(shù)即為alpha。

武俠這個(gè)主題，可能會(huì)涉及到降龍十八掌、段譽(yù)、大理等，任何一個(gè)主題在詞典的所有詞上都有一個(gè)取到的概率，每個(gè)主題有各自特定的詞分布，詞分布也是多項(xiàng)分布，該多項(xiàng)分布的參數(shù)服從狄利克雷分布，參數(shù)為beta。

有K個(gè)詞分布，每個(gè)詞分布是一個(gè)V維的向量，

利用狄利克雷分布的參數(shù)α?決定一個(gè)主題分布θm?利用該主題分布采樣出來(lái)一個(gè)主題zm,n（第m個(gè)文檔的第n個(gè)詞應(yīng)該屬于哪個(gè)主題）

利用狄利克雷分布的參數(shù)β?采樣一個(gè)詞分布?k（有k個(gè)主題就有k個(gè)詞分布，每個(gè)詞分布是v維的）

利用采樣得到的主題zm,n和該主題對(duì)應(yīng)的詞分布?k來(lái)共同得到一個(gè)可觀測(cè)的詞，也就是第m個(gè)文檔的第n個(gè)詞。

總結(jié)

以上是生活随笔為你收集整理的十二、主题模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。