PLSI
未知類C={c1, c2,,,,ck}
token W={w1, w2, ,,, wm}
doc??? D={d1, d2, ,,, dn}
?
1)選擇文檔d的概率是p(d)
2)文檔d時, 為類z的概率是p(z|d)
3)類z中包含w的概率是 p(w|z)
?
| P(w,d) = | ∑ | P(c)P(d | c)P(w | c) = P(d) | ∑ | P(c | d)P(w | c) |
| ? | c | ? | c |
?
?
?
EM
1)E: 在當前參數估計值的情況下, 基于潛在變量的先驗概率計算后驗概率
2)M: 利用得到的后驗值, 重新計算各參數的似然值。 最大化似然值,重新得到新的參數估計值
如下圖:
z是潛在變量
p(w|z), p(d|z), p(z)是參數
?
?
=============================================================================
轉載 http://www.cnblogs.com/25-to-life/archive/2011/03/05/1971492.html
磨了我一個星期, 斷斷續續的看, 斷斷續續的想。 早上上廁所的時候,終于想通了。或許是對英文理解能力差吧, 發覺其實挺簡單的。
LSA對于許多搞IR和NLP的來說應該不陌生吧,LSA用SVD降維,然后來根據word distribution,來分類文檔
而LSA的劣勢在于,沒有比較好的統計基礎,這個和當前流行趨勢是不相符的。
所以PLSA,用概率模型來做文檔分類,或者詞聚類。等
要求你有個word dictionary.假設為SETWord ={w1,w2,w3..}
事前定義好的幾個分類,例如: SetTopic = {t1, t2, t3...}
最后是一個分類未知的雜合文檔集, SetDoc = {d1,d2,d3...}
可以試想,一個作者在寫關于某個文檔時候的思路
1. 確定要寫的一個topic, P(t)
2.?選擇一系列的詞,這些詞要和當前topic t相關的,所以為P(w|t).
3. 用這些詞組成一個文檔, P(d|w)。
這個是順德思路。
那么當我們已經得到一堆文檔的情況下。我們要反過來想,這個就是PLSI的三步走
1. 在文檔集中挑選一篇文檔d的概率, P(d)
2. 這篇文檔描述內容是關于topic-t的概率: P(t|d)
3. 這個topic中,包含了文檔當前內容w的概率: P(w|t)
當然, 可以明顯看出最后一條原本應該是:P(w|t,d),而這就是PLSI的假設:文檔中字和具體某個文檔無關。所以P(w|t,d)==》P(w|t)
那么由于是無監督學習分類過程
p(d,w) = p(d)p(w|d)
p(w|d) = ∑p(w|t)p(t|d) (t∈T)
合并兩個方程式,得
p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(t|d)p(d)
p(t|d)p(d) = p(t,d) = p(d|t)p(t)
再得p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(d|t)p(t) (t∈T)
我們要去求的結果是p(w|t)和p(d|t)..
E-STEP: p(t|d,w) = p(w|t)p(d|t)p(t)/∑(?p(w|t')p(d|t')p(t'))
M-STEP:
p(w|t) = ∑(n(d,w)*p(t|d,w))【 - 對于所有的d都計算】/ ∑(n(d,w)*p(t|d,w))【 - 對于所有的 變d, 定w 都計算】
同理p(d|t) = ∑(n(d,w)*p(t|d,w))【 - 對于所有的w都計算】/ ∑(n(d,w)*p(t|d,w))【 - 對于所有的 定d, 變w都計算】
p(z) = ∑(n(d,w)p(z|w,d)),所有的屬于z的時候的統計/∑n(d,w)(所有文檔,所有分類綜合.
直觀而言, PLSI輸出是兩個matrix 和 一個vector
matrix:
p(w|t) 定義了在topic下的一個詞的分布。
p(d|t)定義了各個文檔在此topic下的分布。
可惜, 當前課題太bt了, 我想plsi只適合大眾的,頻繁出現的詞聚類效果還好, 對于一些古文等, 就力不從心了,因為沒有數據、文檔。嘆口氣,繼續。 倒了研二,壓力好大好大好大好大,求畢業。
?
?
?
?=====================================================
轉自 http://tech.bobgo.net/?tag=plsa
?
1. 引子
Bag-of-Words 模型是NLP和IR領域中的一個基本假設。在這個模型中,一個文檔(document)被表示為一組單詞(word/term)的無序組合,而忽略了語法或者詞序的部分。BOW在傳統NLP領域取得了巨大的成功,在計算機視覺領域(Computer Vision)也開始嶄露頭角,但在實際應用過程中,它卻有一些不可避免的缺陷,比如:
從同義詞和多義詞問題我們可以看到,單詞也許不是文檔的最基本組成元素,在單詞與文檔之間還有一層隱含的關系,我們稱之為主題(Topic)。我們在寫文章時,首先想到的是文章的主題,然后才根據主題選擇合適的單詞來表達自己的觀點。在BOW模型中引入Topic的因素,成為了大家研究的方向,這就是我們要講的Latent Semantic Analysis (LSA) 和 probabilitistic Latent Semantic Analysis (pLSA),至于更復雜的LDA和眾多其他的Topic Models,以后再詳細研究。
2. LSA簡介
已知一個文檔數據集及相應的詞典,采用BOW模型假設,我們可以將數據集表示為一個的共生矩陣,,其中,表示詞典中的第j個單詞在第i個文檔中出現的次數。
LSA的基本思想就是,將document從稀疏的高維Vocabulary空間映射到一個低維的向量空間,我們稱之為隱含語義空間(Latent Semantic Space).
如何得到這個低維空間呢,和PCA采用特征值分解的思想類似,作者采用了奇異值分解(Singular Value Decomposition)的方式來求解Latent Semantic Space。標準的SVD可以寫為:
其中,和均為正交矩陣,有,是包含所有奇異值的對角矩陣。LSA降維的方式就是只取中最大的K個奇異值,而其他置為0,得到的近似矩陣,于是得到了共生矩陣的近似:
注意到如果我們利用內積來計算文檔與文檔之間的的相似度,即的自相關矩陣,可以得到:。于是,我們可以把解釋為文檔樣本在Latent Space上的坐標,而則是兩個空間之間的變換矩陣。下圖形象的展示了LSA的過程:
?
由LSA在訓練集合上得到的參數,當一個新的文檔向量到來時,我們可以利用下式將其原始term space映射到latent space:
?
LSA的優點
LSA的不足
3. pLSA
類似于LSA的思想,在pLSA中也引入了一個Latent class,但這次要用概率模型的方式來表達LSA的問題,如下圖:
在這個probabilitistic模型中,我們引入一個Latent variable ,這對應著一個潛在的語義層。于是,完整的模型為:代表文檔在數據集中出現的概率;代表當確定了語義時,相關的term(word)出現的機會分別是多少; 表示一個文檔中語義分布的情況。利用以上這些定義,我們就可以一個生成式模型(generative model),利用它產生新的數據:
?
?
這樣,我們得到了一個觀測對,多次重復這一過程我們就得到了一個類似N的共生矩陣,而潛在的語義在觀測值中并沒有表現出來。為了刻畫的聯合分布,我們可得到以下公式:
用圖模型來表示以上公式如Figure3中的(a),而(b)是pLSA模型的另外一種等價形式,公式可寫作:
模型確定好了,已知的數據集N,我們可以利用Maximum Likelihood準則來確定模型的參數,目標函數可寫作:
此目標函數也可以解釋為使與兩個分布之間的K-L Divergence最小,即更好的刻畫共生矩陣的實際分布。
?
EM求解
在似然值的表達式中存在對數內部的加運算,所以球pLSA最大似然解的問題沒有閉式解,我們只能求助于EM算法,下面我們從最簡單的啟發式的角度推導出pLSA的求解過程。
既然似然值無法直接求解最大值,那么我們轉而優化其下界,并通過迭代不斷的將此下界提高,那么最終得到的解即為近似最大解, 當然,此過程中尋求的下界要求盡量緊確。利用琴生不等式和概率小于1的性質,我們可以得到如下推導:
??
??????
?????
這樣,我們就把拿到了外面來,接下來我們就可以對直接求解了。注意這個最大化問題的約束條件是:
利用拉格朗日法,我們可以得到優化目標:
???????????
對此目標函數求導,我們可以得到EM算法中的M-step:
????????????
?????????????????????????
? 而EM算法中的E-step也就是求已知時隱含變量的后驗概率:
觀察可以得到,E-step與M-step互相依賴,可以證明每一步都使得下界的期望值提高,通過不斷的迭代求解即可最后求得原問題的近似最大似然解。
?
pLSA與LSA的關系
由Figure4可以看到pLSA與LSA之間的對應關系。其中刻畫了Latent Space也即topic space的信息;刻畫了topic space與term space之間的關系,對應著LSA中的正交基;在文檔分類是,這兩部分也就是我們在模型訓練結束需要保存的信息,當一個新的文檔的到來時, 我們可以再次利用EM算法得到新的文檔與主題的對應關系,并由此得到文檔在topic空間上的表示。
pLSA的優勢
pLSA的不足
針對pLSA的不足,研究者們又提出了各種各樣的topic based model, 其中包括大名鼎鼎的Latent Dirichlet Allocation (LDA),在此就不再多說了。
?
?
?
====================================================
轉自 http://hi.baidu.com/megachan/blog/item/325a351814ebfe5343a9ad33.html
PLSA是更為先進的方法。他解決了同義詞和多義詞的問題,利用了強化的期望最大化算法(EM)來訓練隱含類(潛在類)。而且相對了LSA,有了堅實的統計學基礎。
PLSA的建模——層面模型
層面模型就是關聯于潛在類Z的共現表的潛在可變模型。在層面模型中,文檔被視為潛在的K個層面的混合。每一個層面就是word對于z(潛在類)的概率分布。
PLSA的建模——數據的共現
對于每一組(w,d)都使之與潛在變量z關聯。
PLSA的建模——預測words
已經的是文檔的概率,首先要計算潛在類Z根據條件概率D,生成單詞W根據條件概率Z。
PLSA的公式:
P(w,d) =∑P(c)P(d | c)P(w | c) = P(d)∑P(c | d)P(w | c)
注:這里的C和上面說的Z是一樣的。
公式解析:第一個公式是對稱公式,在這個公式中,W和D都是以相同的方式(都用了W和D基于C的條件概率)通過潛在類C處理的。第二個公式是非對稱公式。在這個公式中,對于每一個D,先根據D的條件概率計算C,然后根據C的條件概率計算W。事實上,這個公式可以擴展成計算任何一對離散變量的共現。因為我們的W和D是已知的,但是Z是未知的,所以我們的重心放在求Z上。那么如何求Z呢?
PLSA的缺點:
PLSA有時會出現過擬合的現象。所謂過擬合(Overfit),是這樣一種現象:一個假設在訓練數據上能夠獲得比其他假設更好的擬合,但是在測試數據集上卻不能很好的擬合。此時我們就叫這個假設出現了overfit的現象。出現這種現象的主要原因是訓練數據中存在噪音或者訓練數據太少。
PLSA與LDA最大的區別就在于,doc--topic這一級,PLSA把這一級的所有變量都看作模型的參數,即有多少文檔那么就有多少模型的參數;而LDA引入了一個超參數,對doc--topic這一個層級進行model。這樣無論文檔有多少,那么最外層模型顯露出來的(對于doc--topic)就只有一個超參數。
解決辦法,要避免過擬合的問題,PLSA使用了一種廣泛應用的最大似然估計的方法,期望最大化。PLSA中訓練參數的值會隨著文檔的數目線性遞增。PLSA可以生成其所在數據集的的文檔的模型,但卻不能生成新文檔的模型。
強化的期望最大化算法中引入了控制參數beta。
Beta值起始是1,緊著逐漸減少。引入beta的目的就是為了避免過擬合的問題,在beta中,過擬合和不充分擬合的狀態被定義。具體的算法是:
讓beta的初始值為1,然后根據待訓練數據來測試模型,如果成功,則使用該beta,如果不成功,則收斂。收斂的意思就是使得beta = n*beta, n<1。
?
Whereas pLSA models the probability of each co-occurrence as a mixture of conditionally independent multinomial distributions.
In this model,dare documents,ware words, andzare a set of latent topics which give a distribution over words P(w|z). d and w are observed, but z is a latent (unobserved) variable.
Nis the number of documents in the collection, andWdis the number of words per document.
This model generates documents as: For each document d, we sample a topic according to P(z | d). We then sample a word from that topic according to P(w | z). This is repeated for each word in the document.
In pLSA the goal is to find the topic specific word distributions P(w|z) and corresponding document specific mixing proportions P(z|d) which make up the document specific word distribution P(w|d).
總結
- 上一篇: 几个基本概率定理
- 下一篇: open mpi安装