日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

LDA入门级学习笔记

發(fā)布時(shí)間:2025/3/21 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 LDA入门级学习笔记 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

聲明:

1)該博文是多位博主以及科學(xué)家所無(wú)私奉獻(xiàn)的論文資料整理的。具體引用的資料請(qǐng)看參考文獻(xiàn)。具體的版本聲明也參考原文獻(xiàn)

2)本文僅供學(xué)術(shù)交流,非商用。所以每一部分具體的參考資料并沒(méi)有詳細(xì)對(duì)應(yīng),更有些部分本來(lái)就是直接從其他博客復(fù)制過(guò)來(lái)的。如果某部分不小心侵犯了大家的利益,還望海涵,并聯(lián)系老衲刪除或修改,直到相關(guān)人士滿意為止。

3)本人才疏學(xué)淺,整理總結(jié)的時(shí)候難免出錯(cuò),還望各位前輩不吝指正,謝謝。

4)閱讀本文需要機(jī)器學(xué)習(xí)、概率統(tǒng)計(jì)算法等等基礎(chǔ)(如果沒(méi)有也沒(méi)關(guān)系了,沒(méi)有就看看) 。

5)此屬于第一版本,若有錯(cuò)誤,還需繼續(xù)修正與增刪。還望大家多多指點(diǎn)。請(qǐng)直接回帖,本人來(lái)想辦法處理。

6)本人手上有word版的和pdf版的,有需要的話可以上傳到csdn供各位下載,也可以到深度學(xué)習(xí)群里去下載,或者發(fā)郵件到老衲郵箱:beiliude@163.com。




一.問(wèn)題描述

傳說(shuō)搜狗公司請(qǐng)了個(gè)大牛,把這方面搞得風(fēng)生水起。最近組內(nèi)的LDA用得風(fēng)風(fēng)火火的,組內(nèi)同事也是言必稱LDA。
不花點(diǎn)時(shí)間看看,都快跟人說(shuō)不上話了。
當(dāng)然,學(xué)習(xí)東西慢就只好從簡(jiǎn)單的開始了,所以把簡(jiǎn)單的基礎(chǔ)的東西在這里講講,希望能把基本問(wèn)題講清楚,高深的推導(dǎo)就跳過(guò)了。

1.1文本建模相關(guān)

統(tǒng)計(jì)文本建模的目的其實(shí)很簡(jiǎn)單:就是估算一組參數(shù),這組參數(shù)使得整個(gè)語(yǔ)料庫(kù)出現(xiàn)的概率最大。這是很簡(jiǎn)單的極大似然的思想了,就是認(rèn)為觀測(cè)到的樣本的概率是最大的。
建模的目標(biāo)也是這樣,下面就用數(shù)學(xué)來(lái)表示吧。
一開始來(lái)說(shuō),先要注意假設(shè)了一些隱變量z,也就是topic。每個(gè)文檔都符合一個(gè)topic的分布,另外是每個(gè)topic里面的詞也是符合一個(gè)分布的,這個(gè)似然是以文檔為單位的。極大似然式子全部寫出來(lái)是下面的樣子的

其中的M表示文檔個(gè)數(shù)。其中的α,就是每個(gè)文檔符合的那個(gè)topic分布的參數(shù),注意這個(gè)家伙是一個(gè)向量,后面會(huì)再描述;其中的β,就是每個(gè)topic里面的詞符合的那個(gè)分布的參數(shù),注意這個(gè)也是一個(gè)向量。
本來(lái)到這里看起來(lái)挺簡(jiǎn)單的,就是一個(gè)普通的極大似然估計(jì),估計(jì)好參數(shù)α和β,就大功告成了。
如果是傳統(tǒng)的極大似然估計(jì),好辦了,求個(gè)梯度,梯度為0的地方就是解了,這里這個(gè)東西偏偏多了個(gè)隱變量,就是每個(gè)詞屬于哪個(gè)topic的?還有每個(gè)文檔屬于哪個(gè)topic的?比如,每個(gè)文檔的topic是怎么分布的(意思就是,每個(gè)文檔是按概率屬于各個(gè)topic的,當(dāng)然,各個(gè)topic的詞的分布情況是不一樣的,比如有金融,電商兩種topic,文檔有可能是0.3的概率屬于金融,0.7的概率屬于電商),還有文檔里面每個(gè)詞有來(lái)自哪種類型的詞的分布的(意思就是,每個(gè)詞來(lái)自哪個(gè)topic的,每個(gè)topic里面的詞分布不一致的,如金融topic里面“人民幣”這個(gè)詞的概率是0.7,“商品”這個(gè)詞的概率是0.3;電商topic里面“人民幣”這個(gè)詞的概率是0.4,“商品”這個(gè)詞的概率是0.6)。
這個(gè)玩笑就開大了,直接求解就玩不動(dòng)了,只好用其他算法了。
候選的比較大眾的求解有隱變量的算法有EM。
下面先把似然函數(shù)用全概率表示出來(lái)再做討論吧。
假設(shè)一個(gè)文檔w_m的topic分布(doc-topic分布)已知,用向量θ_m表示(這個(gè)向量的每一項(xiàng)的和為1,總體可以表示一個(gè)概率分布),每個(gè)詞來(lái)自哪個(gè)topic已知,用z_(m,n)表示,每個(gè)topic的詞分布用矩陣 中的一行(topic-word分布)表示(這是一個(gè)K*V的矩陣,其中V表示語(yǔ)料庫(kù)中的詞的數(shù)量,第一行表示第一個(gè)topic里面的詞分布)。
在已知上面的這些條件的情況下,計(jì)算一個(gè)文檔的整個(gè)聯(lián)合complete-data的聯(lián)合分布(意思就是所以變量都已知的情況下)的式子如下
??? (3)
中括號(hào)里面的是生成詞的過(guò)程,大括號(hào)里面是生成文檔的過(guò)程,最右邊的那個(gè)概率就是?的后驗(yàn)概率。注意z_m是一個(gè)向量,維度為Nm。
這么一堆東西,還是很復(fù)雜的,中間有這么多的奇怪的變量,計(jì)算起來(lái)的復(fù)雜讀可想而知了,為了跟似然函數(shù)聯(lián)系起來(lái),通過(guò)對(duì)θ_m(doc-topic分布)和Φ(topic-word分布)積分,以及對(duì)z_(m,n)求和,得到只有w_m的邊緣分布

(4)
那個(gè)累加號(hào)被去掉的原因是:在參數(shù)θ_m和φ_(z_(m,n) )都已知的情況下,一個(gè)詞t被產(chǎn)生的概率是

(5)
這下好了,每個(gè)文檔的似然概率有了,可惜沒(méi)啥用,實(shí)際上這個(gè)邊緣分布是求不出來(lái)的,因?yàn)閦_(m,n)是隱藏變量,每個(gè)詞都跟θ_m和Φ都跟z_(m,n)有關(guān),那個(gè)連乘又是非常難用積分得到的,這個(gè)就是耦合現(xiàn)象。要注意聯(lián)合分布和邊緣分布對(duì)z乘積與加和的區(qū)別。另外,有些文獻(xiàn)上是沒(méi)有Φ相關(guān)的項(xiàng)的,這個(gè)看起來(lái)各種費(fèi)勁,以后想清楚后回來(lái)解釋。

1.1.1 概率公式相關(guān)討論

對(duì)于公式(3),要多討論點(diǎn),這個(gè)是LDA模型的重要的東西,這里說(shuō)為啥公式是長(zhǎng)這個(gè)樣子的。
先直接抄《LDA數(shù)學(xué)八卦》的例子,就是文檔怎么生成的,直接截圖如下

再不懂裝懂,搞個(gè)概率圖模型來(lái)看看。

最上面的那個(gè)公式代表的就是步驟2——先弄K個(gè)topic-word骰子,為了符合貝葉斯學(xué)派的口味,這個(gè)K個(gè)骰子是有先驗(yàn)分布的,先驗(yàn)分布就是一個(gè)Dirichlet分布,參數(shù)是β,具體在公式(3)中的表現(xiàn)為p(Φ|β)。
步驟3中,“抽取一個(gè)doc-topic骰子”,就是圖下面的那個(gè)第一個(gè)水平的箭頭,具體在公式(3)中表現(xiàn)為p(θ_m |α)。“投擲這個(gè)doc-topic骰子,得到一個(gè)topic編號(hào)z”這句話說(shuō)的就是圖下方第二個(gè)水平的箭頭,具體在公式(3)中表現(xiàn)為p(z_(m,n) |θ_m)。步驟3中的第二步“選擇K個(gè)topic-word骰子中編號(hào)為z的那個(gè),投擲這個(gè)骰子,得到一個(gè)詞”這句話說(shuō)的是圖右上角那個(gè)垂直的箭頭,在公式(3)中具體表現(xiàn)為p(w_(m,n) |φ_(z_(m,n) ))。
就是這個(gè)過(guò)程,導(dǎo)致了公式(3)長(zhǎng)成了現(xiàn)在這個(gè)樣子,夠復(fù)雜,而且夠棘手,直接去搞公式(4)來(lái)計(jì)算似然基本沒(méi)戲的。

1.1.2 似然函數(shù)求解

上面小節(jié)說(shuō)過(guò)了,計(jì)算似然函數(shù)是沒(méi)戲的。
大眾候選算法還有EM,其實(shí)也不能解這樣的問(wèn)題,因?yàn)镋M算法依賴條件概率

其中的矩陣Θ,就是doc-topic分布矩陣,是一個(gè)M*K的矩陣,只是這也是一個(gè)隱變量對(duì)應(yīng)的參數(shù),就是文檔的topic的先驗(yàn)分布。
如果非要用EM算法,這里就需要利用另一個(gè)分布去擬合這個(gè)條件概率,這個(gè)就是變分法。變分法的基本思想就是:因?yàn)闂l件概率不好求,但是聯(lián)合概率是已知的,就可以使用一種類似EM的方法,使用另外的一個(gè)概率函數(shù)去擬合要求的這個(gè)條件概率。具體資料以后再整理。
還好的是LDA沒(méi)有把參數(shù)α和β作為求解的最終目標(biāo),目標(biāo)另有其人。
這個(gè)什么極大似然,什么語(yǔ)言模型是個(gè)幌子。就像word2vec里面,其實(shí)目標(biāo)是那些詞向量,也就是那些參數(shù)值。用LDA來(lái)解,就更離譜了,連參數(shù)α和β這兩個(gè)參數(shù)值都不是目標(biāo),而是那些隱變量對(duì)應(yīng)的參數(shù)比較重要。
不管用什么方法求解,這個(gè)LDA的目的是要做推理。
其實(shí)需要求的東西其實(shí)是下面的式子
?????? (6)
第一個(gè)等號(hào)后面的分母p(w_m│α,β)就是上面公式(4)的那個(gè)值,參數(shù)θ_m(doc-topic分布)和Φ(topic-word分布)不見了是因?yàn)檫@兩個(gè)量已經(jīng)用觀察到的w_(m,n)和對(duì)應(yīng)的z_(m,n)求積分得到了跟這兩個(gè)量無(wú)關(guān)的值,(論文上這個(gè)方法叫collapsed Gibbs Sampling,即通過(guò)求積分去掉一些未知變量,使Gibbs Sampling的式子更加簡(jiǎn)單),其實(shí)意思就是,參數(shù)θ_m和Φ已經(jīng)使用MCMC的方法估算到了相應(yīng)的值,估算的時(shí)候使用的樣本就是訓(xùn)練樣本,這里是一個(gè)奇怪的地方,有精力回來(lái)解釋得容易理解點(diǎn)。
就算是這樣,哪怕都搞走了這么多參數(shù),分母也不見得好求,一篇文章光求和的項(xiàng)就有K^(N_m )個(gè)。
到了這一步,其實(shí)大家應(yīng)該明白了,為啥(6)要表示成那樣給大家看看,因?yàn)檎娴闹皇强纯炊?#xff0c;還可以寫成其他表現(xiàn)形式,但都不重要了,最后都會(huì)給出一個(gè)結(jié)論的,這個(gè)分母沒(méi)法求,只好用其他辦法了。
公式(6)這個(gè)條件概率就是要擬合出來(lái)的分布。當(dāng)然,在擬合這個(gè)分布過(guò)程中,產(chǎn)生了副產(chǎn)品——所有文檔的在各個(gè)topic上的分布。一旦α和β確定了,每個(gè)文檔在各個(gè)topic上的分布可以直接得到,這個(gè)副產(chǎn)品才是求解的目的。
現(xiàn)在問(wèn)題明確了,貝葉斯推理需要公式(6)的分布,擬合這個(gè)分布中產(chǎn)生的副產(chǎn)品是LDA產(chǎn)出的結(jié)果,有這結(jié)果就能用來(lái)做推理。

二.問(wèn)題求解

2.1 LDA模型求解目標(biāo)

上面說(shuō)清楚了,求解LDA就是擬合公式(6)的那個(gè)分布,中間要把doc-topic分布矩陣 和topic-word分布矩陣 求出來(lái)。
論文總提到的方法是Gibbs Sample方法,下面就開始介紹。

2.1.1 LDA Gibbs Sample方法簡(jiǎn)介

這里介紹論文中的Gibbs Sample方法怎么擬合的。
這個(gè)Gibbs Sample方法也不多介紹,因?yàn)榫唧w沒(méi)弄得特別理解。只知道這個(gè)方法的具體步驟:假設(shè)觀測(cè)到的變量是x,隱變量是z(這兩個(gè)都是向量),通常需要整出來(lái)的都是條件概率p(z|x),只是這個(gè)條件概率比較難求,只知道了聯(lián)合概率p(z,x)(必須知道),Gibbs Sample方法的處理方式就是構(gòu)造下面的條件概率

使用上面的條件抽取z的R個(gè)樣本z_r,r∈[1,R],當(dāng)樣本數(shù)量足夠多的時(shí)候,條件概率可以用下面的式子近似了

其中的δ函數(shù)形式是

也就是,如果u是個(gè)0向量,就是1,否則是0.
解決的方案有了,還有個(gè)條件需要具備,就是聯(lián)合概率。

2.1.2求聯(lián)合概率

聯(lián)合概率表示如下

這個(gè)聯(lián)合分布是公式(3)利用積分去掉了參數(shù)θ_m(doc-topic分布)和Φ(topic-word分布)得到的,可以看到右邊的式子,第一個(gè)概率跟α,第二個(gè)概率跟β無(wú)關(guān)。這樣這兩個(gè)概率就可以單獨(dú)處理了。
先看第一個(gè)分布p(w|z,β),如果給定了一組topic-word分布Φ,這個(gè)概率可以從觀測(cè)到的詞中生成:

其中zi表示語(yǔ)料庫(kù)中的第i個(gè)詞的topic,wi表示語(yǔ)料庫(kù)中的第i個(gè)詞,W表示語(yǔ)料庫(kù)中的詞數(shù)。
意思是,語(yǔ)料庫(kù)中的W個(gè)詞是根據(jù)主題zi觀察到的獨(dú)立多項(xiàng)分布(我們把每個(gè)詞看做獨(dú)立的多項(xiàng)分布產(chǎn)生的結(jié)果,忽略順序因素,所以沒(méi)有多項(xiàng)分布的系數(shù)),就是一個(gè)多項(xiàng)式分布。注意φ_(z_i,w_i )是矩陣Φ中的第zi行第i列的元素,順便提醒一下這個(gè)矩陣Φ其實(shí)就是LDA要學(xué)習(xí)的一個(gè)東西,是K*V的矩陣,K是topic數(shù),V是詞匯數(shù);另一個(gè)LDA要學(xué)習(xí)的東西就是矩陣Θ,也就是doc-topic分布矩陣,是一個(gè)M*K的矩陣,矩陣的第一行表示第一個(gè)文檔的topic分布。
把這個(gè)概率拆分到矩陣Φ的每一行和每一列去,得到下面的式子

其中n_(z,t)表示詞t在topic z中出現(xiàn)的次數(shù)。
那么要求的第一個(gè)分布p(w|z,β),就可以通過(guò)對(duì)Φ的積分來(lái)求得

其中 是一個(gè)V維向量,表示在topic z中,各個(gè)詞出現(xiàn)的次數(shù)。
從這里看來(lái),整個(gè)語(yǔ)料庫(kù)就可以認(rèn)為文檔是K個(gè)獨(dú)立的多項(xiàng)式分布生成的。
同樣的,第二個(gè)分布p(z|α)也可以這么計(jì)算,給定了如果給定了一組doc-topic分布Θ,這個(gè)概率可以從語(yǔ)料庫(kù)中的每個(gè)詞的topic來(lái)得到

其中di表示第i個(gè)詞來(lái)自哪個(gè)文檔,n_(m,z)表示文檔m中topic z出現(xiàn)的次數(shù)。
把這個(gè)概率根據(jù)矩陣Θ進(jìn)行積分,就得到第二個(gè)分布表示了

其中 是一個(gè)K維向量,表示在第m個(gè)文檔中,各個(gè)topic出現(xiàn)的次數(shù)。
聯(lián)合分布就變成了
???? (7)

2.1.3求完全條件分布

根據(jù)上面的公式(7)就能得到Gibbs Sample方法所需要的條件分布
???? (8)

其中第一個(gè)“=”號(hào)的分母,是因?yàn)楦鶕?jù)(1.2.1)中,一個(gè)聯(lián)合概率對(duì)zi做了積分得到的結(jié)果就是沒(méi)有這個(gè)zi的邊緣分布。 表示這個(gè)向量沒(méi)有第i列,t表示第t個(gè)詞。
1、最后一步那個(gè)正比符號(hào)出現(xiàn)是因?yàn)橛蚁陆悄且豁?xiàng)對(duì)所有的zi都一樣,無(wú)論有一個(gè)詞分配到了那個(gè)topic, 都是一樣的,而在Gibbs Sample方法中,同等放大是可以的,所以很多的程序?qū)崿F(xiàn)都只計(jì)算這三項(xiàng)。
2、對(duì)于第m篇文檔中的第n個(gè)詞假設(shè)剛好就是語(yǔ)料庫(kù)中的第t類詞,它的topic是z,有兩個(gè)性質(zhì)可以使用 。另外 。
利用這個(gè)式子,抽樣就可以進(jìn)行了。
要注意的是,i是要遍歷整個(gè)topic空間的,即i從1到K,需要計(jì)算K個(gè)概率的。
這里的步驟就是不斷迭代的,每次迭代都為每個(gè)詞抽樣一個(gè)新的topic,然后再根據(jù)每個(gè)詞對(duì)應(yīng)的topic情況估算doc-topic分布Θ和topic-word分布Φ。

2.1.4抽樣后更新參數(shù)

抽樣后怎么更新兩個(gè)分布矩陣中的元素呢?
來(lái)點(diǎn)推導(dǎo),對(duì)于語(yǔ)料庫(kù)中的第i個(gè)詞w_i=t,其topic為z_i=k,同時(shí)令i=(m,n),意義為該詞為第m個(gè)文檔的第n個(gè)詞。
回到(1.1.1)中的概率圖,

這個(gè)概率圖分成兩個(gè)物理過(guò)程來(lái)看:
,這個(gè)過(guò)程表示在生成第m 篇文檔的時(shí)候,先從第一個(gè)壇子中抽了一個(gè)doc-topic骰子θ_m,然后投擲這個(gè)骰子生成了文檔中第n個(gè)詞的topic編號(hào)z_(m,n)=k。
,這個(gè)過(guò)程表示用如下動(dòng)作生成語(yǔ)料中第m篇文檔的第n個(gè)詞:在上帝手頭的K個(gè)topic-word 骰子Φ中,挑選編號(hào)為z_(m,n)=k的那個(gè)骰子φ_k進(jìn)行投擲,然后生成詞w_(m,n)=t。
對(duì)于第一個(gè)過(guò)程來(lái)說(shuō),α→θ_m→z_m這個(gè)過(guò)程會(huì)生成第m篇文檔的所有tipic。《LDA數(shù)學(xué)八卦》說(shuō)過(guò),取先驗(yàn)分布為Dirichlet分布,所以前半部分對(duì)應(yīng)于Dirichlet分布 ,θ_m→z_m就對(duì)應(yīng)于Multinomial 分布。這樣就構(gòu)成了一個(gè)Dirichlet-Multinomial 共軛結(jié)構(gòu),如下圖

利用這個(gè)共軛結(jié)構(gòu),可以得到參數(shù)θ_m的后驗(yàn)概率是 ,M個(gè)文檔就有M個(gè)這樣的共軛結(jié)構(gòu),其中n_m是一個(gè)K維向量,表示第m個(gè)文檔中各個(gè)topic產(chǎn)生的詞數(shù)。
由于LDA是一個(gè)bag-of-words結(jié)構(gòu),各個(gè)詞之間都是可以自由交換的。比如說(shuō),在第一步中,可以先把所有文檔的所有詞的topic先全部生成,再把詞一個(gè)個(gè)生成。這樣的話,第二步也可以所有相同的topic放在一起,把相應(yīng)的詞生成。這樣的話,對(duì)于topic k中的所有詞來(lái)說(shuō),這一步就變成了 ,這樣再看,前半部分 對(duì)應(yīng)于Dirichlet分布 ,后半部分 對(duì)應(yīng)于Multinomial 分布,整體構(gòu)成一個(gè)Dirichlet-Multinomial 共軛結(jié)構(gòu),如下圖

利用這個(gè)共軛結(jié)構(gòu),可以得到參數(shù)φ_k的后驗(yàn)概率是 ,K個(gè)topic就有K個(gè)這樣的共軛結(jié)構(gòu),其中n_k是一個(gè)V維向量,表示第k個(gè)topic中的產(chǎn)生的各個(gè)詞的數(shù)量。
具體為啥共軛機(jī)構(gòu)會(huì)有這樣的效果,具體參看《LDA數(shù)學(xué)八卦》,里面說(shuō)得很清楚了。
根據(jù)論文《Parameter estimation for text analysis》中θ_(m,k) 和φ_(k,t) 的定義,計(jì)算參數(shù)矩陣這兩個(gè)值的更新方式如下
??? (9)
??? (10)
這就得到了更新的式子,但是在實(shí)際代碼中,往往需要在語(yǔ)料庫(kù)去掉第i個(gè)詞對(duì)應(yīng)的(z_i,w_i),當(dāng)然這不會(huì)改變分布的共軛結(jié)構(gòu),在去掉第i個(gè)詞后,更新的式子變成如下的情況了。
??? (11)
??? (12)
公式(11),(12)還可以用來(lái)在Gibbs Sample方法中計(jì)算完全條件分布(如下
??? (13)
這種方式就是《LDA數(shù)學(xué)八卦》選用的方式。
抽樣的過(guò)程也要注意的,就是要把一個(gè)詞屬于每個(gè)topic的概率都計(jì)算完了,利用拋繡球的方式抽到了這個(gè)詞的一個(gè)topic(拋繡球的方式就是:假如topic1的概率是0.2,topic2的概率是0.3,topic3的概率是0.5,那么就弄10個(gè)桶,1號(hào)和2號(hào)是topic1的,3到5號(hào)是topic2的,6到10號(hào)是topic3的,產(chǎn)生一個(gè)1到10的隨機(jī)數(shù)(拋的過(guò)程),看落到哪個(gè)桶就是那個(gè)topic)。

2.2 LDA模型整體流程總結(jié)

經(jīng)過(guò)上面的討論,各個(gè)環(huán)節(jié)也算是整理了一遍,當(dāng)然是選用了其他通用的方法,其實(shí)在擬合條件概率p(z│w,α,β)的方法也是有其他的,這里不打算多介紹了。
下面總結(jié)一下LDA模型的訓(xùn)練和推理過(guò)程,其實(shí)上面那么多的東西,要做的工作其實(shí)是能完成對(duì)一篇文檔的topic分布的估算,無(wú)論是用判別模型來(lái)做,還是生成模型的方法來(lái)做,LDA其實(shí)就是解決了這么一個(gè)問(wèn)題。而LDA是一個(gè)生成模型,要追溯樣本當(dāng)初來(lái)源的那個(gè)分布,這就導(dǎo)致了各種分布的擬合與假設(shè),這個(gè)方面水比較深,有精力后回來(lái)再多解釋。
對(duì)于目前文本建模的目標(biāo)來(lái)說(shuō),是分兩步的:
就是要根據(jù)當(dāng)前語(yǔ)料庫(kù)所有的文檔,建立模型,模型建立和選最優(yōu)往往是伴隨著參數(shù)的獲取得到的,就有了各種估計(jì)參數(shù)的方法;這一步可以稱為訓(xùn)練過(guò)程。
有了最優(yōu)的參數(shù),模型也建立了,就需要對(duì)新來(lái)的文檔,根據(jù)目前的參數(shù),計(jì)算這個(gè)文檔的topic分布,這一步可以成為預(yù)測(cè)過(guò)程,也就是推理過(guò)程。
借用《LDA數(shù)學(xué)八卦》的東西,這兩步可以用下面的話描述:
估計(jì)模型中的兩個(gè)參數(shù):doc-topic分布矩陣Θ={θ_m }_(m=1)^M和topic-word分布矩陣Φ={φ_k }_(k=1)^K。
對(duì)于新來(lái)的一篇文檔Dnew,能夠計(jì)算這篇文檔的topic分布θ_new。

2.2.1 LDA 訓(xùn)練過(guò)程

這個(gè)自己就不多寫了,直接從《LDA數(shù)學(xué)八卦》截個(gè)圖吧。


2.2.12LDA 推理過(guò)程

訓(xùn)練過(guò)程結(jié)束后,得到了參數(shù)doc-topic分布矩陣Θ={θ_m }_(m=1)^M和topic-word分布矩陣Φ={φ_k }_(k=1)^K。
第一個(gè)doc-topic分布矩陣對(duì)于推理來(lái)說(shuō)并沒(méi)有用處,在工程上一般不保存,但是,如果訓(xùn)練過(guò)程就是為了對(duì)已有文檔進(jìn)行處理,也可以保存下來(lái)就進(jìn)行使用的。
第二個(gè)topic-word分布矩陣Φ={φ_k }_(k=1)^K在推理的時(shí)候需要用到。來(lái)了一個(gè)新文檔后,根據(jù)Gibbs Sampling公式(13)(公式(8)也可以的)為每個(gè)詞的topic進(jìn)行抽樣,最終穩(wěn)定后就得到了這篇文檔的topic分布θ_new,注意在利用公式(13)計(jì)算條件概率的時(shí)候,公式中的φ ?_(k,t)保持不變。
直接從《LDA數(shù)學(xué)八卦》截個(gè)圖吧。

到這,LDA模型基本的東西就完了。


三.未整理的符號(hào)說(shuō)明

以上的符號(hào)很多,這里提供一個(gè)未整理的,只能大致應(yīng)的,來(lái)自騰訊廣告的博客“火光搖曳”。有精力后整理一個(gè)本文的吧。

致謝

心懷畏懼@ Crescent,@Rickjin,@AriannaChen,@持之以恒等多位互聯(lián)網(wǎng)博主。
機(jī)器學(xué)習(xí)狂熱分子的群友@TK熱心提供的資料。


參考文獻(xiàn)

[1] http://www.crescentmoon.info/?p=296 心懷畏懼@ Crescent的博客
[2] http://blog.sina.com.cn/s/blog_8eee7fb60101cztv.html @AriannaChen的博客
[3] http://www.xperseverance.net/blogs/ @持之以恒的博客
[4] http://www.flickering.cn/nlp/2014/07/lda工程實(shí)踐之算法篇-1算法實(shí)現(xiàn)正確性驗(yàn)證/ 騰訊廣告的博客“火光搖曳”
[5] Parameter estimation for text analysis. Gregor Heinrich. Technical Report, 2009.
[6] http://cos.name/2013/03/lda-math-lda-text-modeling 《LDA數(shù)學(xué)八卦》靳志輝.

[7] Latent Dirichlet Allocation. David M. Blei. Journal of Machine Learning Research 3 (2003) 993-1022


from: http://blog.csdn.net/mytestmy/article/details/39269105

總結(jié)

以上是生活随笔為你收集整理的LDA入门级学习笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。