當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

plsa原理

發布時間：2023/12/20 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 plsa原理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

LSI:Latent Semantic Indexing
LSI就是LSI
以上只是同一個模型的不同稱謂

PLSI:Probabilistic Latent Semantic Indexing
PLSI就是PLSA
以上只是同一個模型的不同稱謂

PLSA的原文是：
《Probabilistic Latent Semantic Indexing》
這個論文有兩個版本，
一個是1999年版本，
一個是2017年版本，
雖然內容一致，但是內容的先后順序不一致。

然后注意：
LSI和PLSI提出的初衷不是為了文本聚類，而是為了文獻搜索服務的，這個叫
information retrieval
所以原文中的矩陣是這樣的：

title\word	book	dads	rich
T1	P(T1\|book)
T2		P(T2\|dads)
T3
T4

注意：這里我為啥不從原文截圖，而是自己親手畫一個表格？
這是因為原文中的插圖（沒有轉置）與其ＳＶＤ分解時的公式不匹配，所以需要我自己畫一個，請務必注意這一點。

也就是說，原文中的矩陣是左側是文檔名，上冊是各種單詞。
所以ＳＶＤ分解是這樣的：
$P=U^∑^V^TP=\hat{U}\hat{\sum}\hat{V}^{T}$
$P(d_i|z_k))_{i,k}·diag(P(z_k))_k·(P(w_j|z_k))_{j,k}^T$

幹嘛的？就是希望你搜索文獻的時候,搜了“蘋果”，能出來“紅富士養殖技術”之類的相關的文章，爲了解決“接近詞”的問題的。
＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
下面進入正題，由於后續研究者靈活地使用了這個文章中的內容，所以矩陣變成

word\title	T1	T2	T3
book	P(book\|T1)
dads		P(dads\|T2)
rich
market

你沒看錯，第二個矩陣就是第一個矩陣的轉置

其他空缺依次類推，懶得全部寫了。
好了，對上述矩陣進行SVD分解：
$P=U^∑^V^TP=\hat{U}\hat{\sum}\hat{V}^{T}$
$P(w_i|z_k))_{i,k}· diag(P(z_k))_k·(P(d_j|z_k))_{j,k}^T$

$w_i$ :某個詞匯
$z_k$ :裝ｘ說法是“隱變量“(latent variable)，這里其實是代表文檔聚類數或者詞匯聚類數
$d_i$ :某個文檔

概率表達式解釋：
$P(d_j|z_k)$ :第k類文檔中，第j個文檔抽中的概率
其他以此類推。

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
一句話概括ＥＭ算法：
就是弄一個目標函數（取名叫”E－步“）
求函數的最大值（取名叫”M－步“）
沒啥高深的含義。

然後說下 Tempered-EM算法，
這個東西比較惡心，谷歌上面也沒有特別詳細的資料，
作者只是略微提到了從物理系統中來，使用了“困惑度”
資料如下：

這個 $FβF_\beta$ 的表達式具體的嚴格的推導已經不可考，這個東西幹嘛呢？
在ＥＭ算法運行的時候，使用 $FβF_\beta$ 作爲一個“過擬合”的判據，當這個 $FβF_\beta$ 不再變大的時候，就停止迭代。

這種無監督學習的“過擬合”是怎麼回事？
其實就是SVD的時候ｚ的維度太大，也就是說，例如我有一萬篇文檔，我設置聚類數值爲１００００種，那麼這個時候就肯定是過擬合了，這個和”有監督學習“的過擬合有些不太一樣，不理解的可以參考Ｋｍｅａｎｓ過擬合的相關資料。

雖然 $FβF_\beta$ 的推導我們不清楚，但是依然可以定性的理解它：
當ｚ的取值很大，也就是聚類數值設定很大的時候，我們會發現 $FβF_\beta$ 會變得非常小。
所以總結該式規律有：
ｚ上限大＝文檔聚類數大＝ $FβF_\beta$ 很小＝過擬合
ｚ上限小＝文檔聚類數小＝ $FβF_\beta$ 很大＝欠擬合

總結

以上是生活随笔為你收集整理的plsa原理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

原理
pLSA