當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PLSI

發布時間：2025/3/21 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 PLSI 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

未知類C={c1, c2,,,,ck}

token W={w1, w2, ,,, wm}

doc??? D={d1, d2, ,,, dn}

1)選擇文檔d的概率是p(d)

2)文檔d時，為類z的概率是p(z|d)

3)類z中包含w的概率是 p(w|z)

P(w,d) =	∑	P(c)P(d \| c)P(w \| c) = P(d)	∑	P(c \| d)P(w \| c)
?	c	?	c

1)E: 在當前參數估計值的情況下，基于潛在變量的先驗概率計算后驗概率

2)M: 利用得到的后驗值，重新計算各參數的似然值。最大化似然值，重新得到新的參數估計值

如下圖：

z是潛在變量

p(w|z), p(d|z), p(z)是參數

=============================================================================

轉載 http://www.cnblogs.com/25-to-life/archive/2011/03/05/1971492.html

磨了我一個星期，斷斷續續的看，斷斷續續的想。早上上廁所的時候，終于想通了。或許是對英文理解能力差吧，發覺其實挺簡單的。

LSA對于許多搞IR和NLP的來說應該不陌生吧，LSA用SVD降維，然后來根據word distribution，來分類文檔

而LSA的劣勢在于，沒有比較好的統計基礎，這個和當前流行趨勢是不相符的。

所以PLSA，用概率模型來做文檔分類，或者詞聚類。等

要求你有個word dictionary.假設為SETWord ={w1,w2,w3..}

事前定義好的幾個分類,例如: SetTopic = {t1, t2, t3...}

最后是一個分類未知的雜合文檔集, SetDoc = {d1,d2,d3...}

可以試想，一個作者在寫關于某個文檔時候的思路

1. 確定要寫的一個topic, P(t)

2.?選擇一系列的詞，這些詞要和當前topic t相關的，所以為P(w|t).

3. 用這些詞組成一個文檔, P(d|w)。

這個是順德思路。

那么當我們已經得到一堆文檔的情況下。我們要反過來想，這個就是PLSI的三步走

1. 在文檔集中挑選一篇文檔d的概率, P(d)

2. 這篇文檔描述內容是關于topic-t的概率: P(t|d)

3. 這個topic中，包含了文檔當前內容w的概率: P(w|t)

當然，可以明顯看出最后一條原本應該是：P(w|t,d)，而這就是PLSI的假設：文檔中字和具體某個文檔無關。所以P(w|t,d)==》P(w|t)

那么由于是無監督學習分類過程

p(d,w) = p(d)p(w|d)

p(w|d) = ∑p(w|t)p(t|d) (t∈T)

合并兩個方程式，得

p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(t|d)p(d)

p(t|d)p(d) = p(t,d) = p(d|t)p(t)

再得p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(d|t)p(t) (t∈T)

我們要去求的結果是p(w|t)和p(d|t)..

E-STEP: p(t|d,w) = p(w|t)p(d|t)p(t)/∑(?p(w|t')p(d|t')p(t'))

M-STEP:

p(w|t) = ∑(n(d,w)*p(t|d,w))【 - 對于所有的d都計算】/ ∑(n(d,w)*p(t|d,w))【 - 對于所有的變d, 定w 都計算】

同理p(d|t) = ∑(n(d,w)*p(t|d,w))【 - 對于所有的w都計算】/ ∑(n(d,w)*p(t|d,w))【 - 對于所有的定d, 變w都計算】

p(z) = ∑(n(d,w)p(z|w,d)),所有的屬于z的時候的統計/∑n(d,w)(所有文檔,所有分類綜合.

直觀而言， PLSI輸出是兩個matrix 和一個vector

matrix:

p(w|t) 定義了在topic下的一個詞的分布。

p(d|t)定義了各個文檔在此topic下的分布。

可惜，當前課題太bt了，我想plsi只適合大眾的，頻繁出現的詞聚類效果還好，對于一些古文等，就力不從心了，因為沒有數據、文檔。嘆口氣，繼續。倒了研二，壓力好大好大好大好大，求畢業。

?=====================================================

轉自 http://tech.bobgo.net/?tag=plsa

1. 引子

Bag-of-Words 模型是NLP和IR領域中的一個基本假設。在這個模型中，一個文檔(document)被表示為一組單詞(word/term)的無序組合，而忽略了語法或者詞序的部分。BOW在傳統NLP領域取得了巨大的成功，在計算機視覺領域(Computer Vision)也開始嶄露頭角，但在實際應用過程中，它卻有一些不可避免的缺陷，比如：

稀疏性(Sparseness): 對于大詞典，尤其是包括了生僻字的詞典，文檔稀疏性不可避免；

多義詞(Polysem): 一詞多義在文檔中是常見的現象，BOW模型只統計單詞出現的次數，而忽略了他們之間的區別；

同義詞(Synonym): 同樣的，在不同的文檔中，或者在相同的文檔中，可以有多個單詞表示同一個意思；

從同義詞和多義詞問題我們可以看到，單詞也許不是文檔的最基本組成元素，在單詞與文檔之間還有一層隱含的關系，我們稱之為主題(Topic)。我們在寫文章時，首先想到的是文章的主題，然后才根據主題選擇合適的單詞來表達自己的觀點。在BOW模型中引入Topic的因素，成為了大家研究的方向，這就是我們要講的Latent Semantic Analysis (LSA) 和 probabilitistic Latent Semantic Analysis (pLSA)，至于更復雜的LDA和眾多其他的Topic Models，以后再詳細研究。

2. LSA簡介

已知一個文檔數據集及相應的詞典，采用BOW模型假設，我們可以將數據集表示為一個的共生矩陣，，其中，表示詞典中的第j個單詞在第i個文檔中出現的次數。

LSA的基本思想就是，將document從稀疏的高維Vocabulary空間映射到一個低維的向量空間，我們稱之為隱含語義空間(Latent Semantic Space).

如何得到這個低維空間呢，和PCA采用特征值分解的思想類似，作者采用了奇異值分解(Singular Value Decomposition)的方式來求解Latent Semantic Space。標準的SVD可以寫為：

其中，和均為正交矩陣，有，是包含所有奇異值的對角矩陣。LSA降維的方式就是只取中最大的K個奇異值，而其他置為0，得到的近似矩陣，于是得到了共生矩陣的近似：

注意到如果我們利用內積來計算文檔與文檔之間的的相似度，即的自相關矩陣，可以得到：。于是，我們可以把解釋為文檔樣本在Latent Space上的坐標，而則是兩個空間之間的變換矩陣。下圖形象的展示了LSA的過程：

由LSA在訓練集合上得到的參數，當一個新的文檔向量到來時，我們可以利用下式將其原始term space映射到latent space:

LSA的優點

低維空間表示可以刻畫同義詞，同義詞會對應著相同或相似的主題；

降維可去除部分噪聲，是特征更魯棒；

充分利用冗余數據；

無監督/完全自動化；

與語言無關；

LSA的不足

沒有刻畫term出現次數的概率模型；

無法解決多義詞的問題；

SVD的優化目標基于L-2 norm 或者是 Frobenius Norm的，這相當于隱含了對數據的高斯噪聲假設。而term出現的次數是非負的，這明顯不符合Gaussian假設，而更接近Multi-nomial分布；

對于count vectors 而言，歐式距離表達是不合適的（重建時會產生負數）；

特征向量的方向沒有對應的物理解釋；

SVD的計算復雜度很高，而且當有新的文檔來到時，若要更新模型需重新訓練；

維數的選擇是ad-hoc的；

3. pLSA

類似于LSA的思想，在pLSA中也引入了一個Latent class，但這次要用概率模型的方式來表達LSA的問題，如下圖：

在這個probabilitistic模型中，我們引入一個Latent variable ，這對應著一個潛在的語義層。于是，完整的模型為：代表文檔在數據集中出現的概率；代表當確定了語義時，相關的term(word)出現的機會分別是多少；表示一個文檔中語義分布的情況。利用以上這些定義，我們就可以一個生成式模型(generative model)，利用它產生新的數據：

首先根據分布隨機抽樣選擇一個文檔;

選定文檔后，根據抽樣選擇文檔表達的語義；

選定語義后，根據選擇文檔的用詞；

這樣，我們得到了一個觀測對，多次重復這一過程我們就得到了一個類似N的共生矩陣，而潛在的語義在觀測值中并沒有表現出來。為了刻畫的聯合分布，我們可得到以下公式：

用圖模型來表示以上公式如Figure3中的(a)，而(b)是pLSA模型的另外一種等價形式，公式可寫作：

模型確定好了，已知的數據集N，我們可以利用Maximum Likelihood準則來確定模型的參數，目標函數可寫作:

此目標函數也可以解釋為使與兩個分布之間的K-L Divergence最小，即更好的刻畫共生矩陣的實際分布。

EM求解

在似然值的表達式中存在對數內部的加運算，所以球pLSA最大似然解的問題沒有閉式解，我們只能求助于EM算法，下面我們從最簡單的啟發式的角度推導出pLSA的求解過程。

既然似然值無法直接求解最大值，那么我們轉而優化其下界，并通過迭代不斷的將此下界提高，那么最終得到的解即為近似最大解，當然，此過程中尋求的下界要求盡量緊確。利用琴生不等式和概率小于1的性質，我們可以得到如下推導：

??????

?????

這樣，我們就把拿到了外面來，接下來我們就可以對直接求解了。注意這個最大化問題的約束條件是：

利用拉格朗日法，我們可以得到優化目標：

???????????

對此目標函數求導，我們可以得到EM算法中的M-step:

????????????

?????????????????????????

? 而EM算法中的E-step也就是求已知時隱含變量的后驗概率：

觀察可以得到，E-step與M-step互相依賴，可以證明每一步都使得下界的期望值提高，通過不斷的迭代求解即可最后求得原問題的近似最大似然解。

pLSA與LSA的關系

由Figure4可以看到pLSA與LSA之間的對應關系。其中刻畫了Latent Space也即topic space的信息；刻畫了topic space與term space之間的關系，對應著LSA中的正交基；在文檔分類是，這兩部分也就是我們在模型訓練結束需要保存的信息，當一個新的文檔的到來時，我們可以再次利用EM算法得到新的文檔與主題的對應關系，并由此得到文檔在topic空間上的表示。

pLSA的優勢

定義了概率模型，而且每個變量以及相應的概率分布和條件概率分布都有明確的物理解釋；

相比于LSA隱含了高斯分布假設，pLSA隱含的Multi-nomial分布假設更符合文本特性；

pLSA的優化目標是是KL-divergence最小，而不是依賴于最小均方誤差等準則；

可以利用各種model selection和complexity control準則來確定topic的維數；

pLSA的不足

概率模型不夠完備：在document層面上沒有提供合適的概率模型，使得pLSA并不是完備的生成式模型，而必須在確定document i的情況下才能對模型進行隨機抽樣；

隨著document和term 個數的增加，pLSA模型也線性增加，變得越來越龐大；

當一個新的document來到時，沒有一個好的方式得到$p(d_i)$;

EM算法需要反復的迭代，需要很大計算量；

針對pLSA的不足，研究者們又提出了各種各樣的topic based model, 其中包括大名鼎鼎的Latent Dirichlet Allocation (LDA)，在此就不再多說了。

====================================================

轉自 http://hi.baidu.com/megachan/blog/item/325a351814ebfe5343a9ad33.html

PLSA是更為先進的方法。他解決了同義詞和多義詞的問題，利用了強化的期望最大化算法（EM）來訓練隱含類（潛在類）。而且相對了LSA，有了堅實的統計學基礎。

PLSA的建模——層面模型

層面模型就是關聯于潛在類Z的共現表的潛在可變模型。在層面模型中，文檔被視為潛在的K個層面的混合。每一個層面就是word對于z(潛在類)的概率分布。

PLSA的建模——數據的共現

對于每一組（w,d）都使之與潛在變量z關聯。

PLSA的建模——預測words

已經的是文檔的概率，首先要計算潛在類Z根據條件概率D，生成單詞W根據條件概率Z。

PLSA的公式：

P(w,d) =∑P(c)P(d | c)P(w | c) = P(d)∑P(c | d)P(w | c)

注：這里的C和上面說的Z是一樣的。

公式解析：第一個公式是對稱公式，在這個公式中,W和D都是以相同的方式（都用了W和D基于C的條件概率）通過潛在類C處理的。第二個公式是非對稱公式。在這個公式中，對于每一個D，先根據D的條件概率計算C，然后根據C的條件概率計算W。事實上，這個公式可以擴展成計算任何一對離散變量的共現。因為我們的W和D是已知的，但是Z是未知的，所以我們的重心放在求Z上。那么如何求Z呢？

PLSA的缺點：

PLSA有時會出現過擬合的現象。所謂過擬合（Overfit），是這樣一種現象：一個假設在訓練數據上能夠獲得比其他假設更好的擬合，但是在測試數據集上卻不能很好的擬合。此時我們就叫這個假設出現了overfit的現象。出現這種現象的主要原因是訓練數據中存在噪音或者訓練數據太少。

PLSA與LDA最大的區別就在于，doc--topic這一級，PLSA把這一級的所有變量都看作模型的參數，即有多少文檔那么就有多少模型的參數；而LDA引入了一個超參數，對doc--topic這一個層級進行model。這樣無論文檔有多少，那么最外層模型顯露出來的（對于doc--topic）就只有一個超參數。

解決辦法，要避免過擬合的問題，PLSA使用了一種廣泛應用的最大似然估計的方法，期望最大化。PLSA中訓練參數的值會隨著文檔的數目線性遞增。PLSA可以生成其所在數據集的的文檔的模型，但卻不能生成新文檔的模型。

強化的期望最大化算法中引入了控制參數beta。

Beta值起始是1，緊著逐漸減少。引入beta的目的就是為了避免過擬合的問題，在beta中，過擬合和不充分擬合的狀態被定義。具體的算法是：

讓beta的初始值為1，然后根據待訓練數據來測試模型，如果成功，則使用該beta，如果不成功，則收斂。收斂的意思就是使得beta = n*beta， n<1。

Whereas pLSA models the probability of each co-occurrence as a mixture of conditionally independent multinomial distributions.

In this model,dare documents,ware words, andzare a set of latent topics which give a distribution over words P(w|z). d and w are observed, but z is a latent (unobserved) variable.

Nis the number of documents in the collection, andWdis the number of words per document.

This model generates documents as: For each document d, we sample a topic according to P(z | d). We then sample a word from that topic according to P(w | z). This is repeated for each word in the document.

In pLSA the goal is to find the topic specific word distributions P(w|z) and corresponding document specific mixing proportions P(z|d) which make up the document specific word distribution P(w|d).

總結

以上是生活随笔為你收集整理的PLSI的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

PLSI

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

PLSI

總結