十二、主题模型
- 一、pLSA
- 二、LDA模型
一、pLSA
每個(gè)文檔都會(huì)在主題上有一個(gè)分布,每個(gè)主題在各個(gè)詞上也有一個(gè)分布
p(wj)=∑k[p(wj|zk)?p(zk)]p(wj)=∑k[p(wj|zk)?p(zk)]只是將p(wj)p(wj)變成了p(wj|di)p(wj|di),p(wj|zk)p(wj|zk)未變的原因是一旦給定了z,d和w就是獨(dú)立,也就是p(wj|zk)=p(wj|zk,di)p(wj|zk)=p(wj|zk,di)就省略掉了。
上式是關(guān)于w,zk,di的部分可觀測(cè)的函數(shù),所以用EM算法求解
求給定樣本之下的主題的后驗(yàn)概率:
pLSA的進(jìn)一步思考:
原來(lái)相當(dāng)于是一個(gè)二層的模型,只要文檔和詞給定了,得到的結(jié)果就是一樣的,不需要先驗(yàn)信息就可以完成學(xué)習(xí),既是優(yōu)勢(shì)也是劣勢(shì)。
二、LDA模型
主要問(wèn)題:
貝葉斯模型:假設(shè)參數(shù)是不斷變化的,參數(shù)本身也服從某個(gè)分布,貝葉斯學(xué)派能夠得到一個(gè)稍微好點(diǎn)的目標(biāo)函數(shù),也能比較方便的分析相關(guān)關(guān)系。
大數(shù)據(jù)的情況是頻率學(xué)派的一個(gè)逆襲,因?yàn)樵跀?shù)據(jù)很多的情況下,我們就不需要對(duì)其先驗(yàn)進(jìn)行猜測(cè)了,直接利用極大似然估計(jì)就有較好的效果。
貝葉斯學(xué)派說(shuō),我可以用小樣本來(lái)做事情。
如果認(rèn)為所有的先驗(yàn)P(θ)P(θ)都是一樣的話,那就退化成了極大似然估計(jì)。
共軛分布:兩者滿足同樣的分布率
為什么要提出共軛先驗(yàn)分布:
平方和損失的正則化,就是假定參數(shù)theta服從高斯分布的貝葉斯學(xué)派的思想,
因?yàn)榇螖?shù)已知,所以是關(guān)于p的函數(shù)h(p),求偏導(dǎo)=0,可得朝上的概率p,頻率的程度是概率。
修正,更符合常理,但是5和10是什么?為什么可以加上,背后的理論是什么?
理論解釋:
貝葉斯理論,可以使得在小樣本的情況下是更合理的,+5和+10是防止過(guò)擬合。
共軛先驗(yàn)的推廣:
多項(xiàng)分布的先驗(yàn)分布是狄利克雷分布
狄利克雷函數(shù):
一般選定alpha是相等的,因?yàn)闆](méi)有先驗(yàn)信息,退化成均勻分布(對(duì)稱狄利克雷分布)。
alpha=1,平的,均勻分布
alpha<1,圖中的情況(alpha=0.3),取某一個(gè)維度的概率是最高的,取三個(gè)都相等的概率是最低的;
alpha>1,圖中情況的反向(也就是類似于鍋蓋),取某一個(gè)維度的概率是最低的,取三個(gè)維度都相等的概率是最高的。
p1,p2,p3…就是我們要求的概率,而關(guān)于概率我們做了一個(gè)超參數(shù)alpha,比如x1=x2=0的點(diǎn),此時(shí)x3等于某個(gè)值,該值最大,也就是該點(diǎn)的概率值大,
x1+x2+x3=1,因此沒(méi)必要畫三個(gè)參數(shù)的圖像,因?yàn)閤3=1-x2-x1,也就是取得x1=a,x2=b的概率就是縱軸,即三維圖是(x1,x2,ln(p(x1,x2)))
利于做收斂,詞匯集中到某個(gè)點(diǎn)去,alpha越小,說(shuō)明主題越鮮明;
alpha=1時(shí),表示每個(gè)主題被取到的概率是一樣的,說(shuō)明主題最不鮮明。
當(dāng)alpha繼續(xù)增大的時(shí)候,假如到達(dá)了10,相當(dāng)于這個(gè)文檔的主題是相等的。
當(dāng)我們樣本數(shù)量足夠大的時(shí)候,alpha的影響已經(jīng)不太大了,先驗(yàn)的影響已經(jīng)不大了。
LDA:
m個(gè)文章是樣本,K個(gè)主題是我們給定的
比如第一個(gè)文章涉及了70%的武俠,30%的愛(ài)情,這就是主題分布,主題分布在每個(gè)主題上都可能發(fā)生,所以是一個(gè)多項(xiàng)分布,主題的參數(shù)服從狄利克雷分布,該分布的參數(shù)即為alpha。
武俠這個(gè)主題,可能會(huì)涉及到降龍十八掌、段譽(yù)、大理等,任何一個(gè)主題在詞典的所有詞上都有一個(gè)取到的概率,每個(gè)主題有各自特定的詞分布,詞分布也是多項(xiàng)分布,該多項(xiàng)分布的參數(shù)服從狄利克雷分布,參數(shù)為beta。
有K個(gè)詞分布,每個(gè)詞分布是一個(gè)V維的向量,
利用狄利克雷分布的參數(shù)α?α?決定一個(gè)主題分布θm?θm?利用該主題分布采樣出來(lái)一個(gè)主題zm,nzm,n(第m個(gè)文檔的第n個(gè)詞應(yīng)該屬于哪個(gè)主題)
利用狄利克雷分布的參數(shù)β?β?采樣一個(gè)詞分布?k?k(有k個(gè)主題就有k個(gè)詞分布,每個(gè)詞分布是v維的)
利用采樣得到的主題zm,nzm,n和該主題對(duì)應(yīng)的詞分布?k?k來(lái)共同得到一個(gè)可觀測(cè)的詞,也就是第m個(gè)文檔的第n個(gè)詞。
總結(jié)
- 上一篇: cq量化交易是什么意思
- 下一篇: tf.gfile