日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

plsa原理

發布時間:2023/12/20 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 plsa原理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

LSI:Latent Semantic Indexing
LSI就是LSI
以上只是同一個模型的不同稱謂

PLSI:Probabilistic Latent Semantic Indexing
PLSI就是PLSA
以上只是同一個模型的不同稱謂

PLSA的原文是:
《Probabilistic Latent Semantic Indexing》
這個論文有兩個版本,
一個是1999年版本,
一個是2017年版本,
雖然內容一致,但是內容的先后順序不一致。

然后注意:
LSI和PLSI提出的初衷不是為了文本聚類,而是為了文獻搜索服務的,這個叫
information retrieval
所以原文中的矩陣是這樣的:

title\wordbookdadsrich
T1P(T1|book)
T2P(T2|dads)
T3
T4

注意:這里我為啥不從原文截圖,而是自己親手畫一個表格?
這是因為原文中的插圖(沒有轉置)與其SVD分解時的公式不匹配,所以需要我自己畫一個,請務必注意這一點。

也就是說,原文中的矩陣是左側是文檔名,上冊是各種單詞。
所以SVD分解是這樣的:
P=U^∑^V^TP=\hat{U}\hat{\sum}\hat{V}^{T}P=U^^?V^T
=(P(di∣zk))i,k?diag(P(zk))k?(P(wj∣zk))j,kT=(P(d_i|z_k))_{i,k}·diag(P(z_k))_k·(P(w_j|z_k))_{j,k}^T=(P(di?zk?))i,k??diag(P(zk?))k??(P(wj?zk?))j,kT?

幹嘛的?就是希望你搜索文獻的時候,搜了“蘋果”,能出來“紅富士養殖技術”之類的相關的文章,爲了解決“接近詞”的問題的。
#########################################
下面進入正題,由於后續研究者靈活地使用了這個文章中的內容,所以矩陣變成

word\titleT1T2T3
bookP(book|T1)
dadsP(dads|T2)
rich
market

你沒看錯,第二個矩陣就是第一個矩陣的轉置

其他空缺依次類推,懶得全部寫了。
好了,對上述矩陣進行SVD分解:
P=U^∑^V^TP=\hat{U}\hat{\sum}\hat{V}^{T}P=U^^?V^T
=(P(wi∣zk))i,k?diag(P(zk))k?(P(dj∣zk))j,kT=(P(w_i|z_k))_{i,k}· diag(P(z_k))_k·(P(d_j|z_k))_{j,k}^T=(P(wi?zk?))i,k??diag(P(zk?))k??(P(dj?zk?))j,kT?

wiw_iwi?:某個詞匯
zkz_kzk?:裝x說法是“隱變量“(latent variable),這里其實是代表文檔聚類數或者詞匯聚類數
did_idi?:某個文檔

概率表達式解釋:
P(dj∣zk)P(d_j|z_k)P(dj?zk?):第k類文檔中,第j個文檔抽中的概率
其他以此類推。

#######################################
一句話概括EM算法:
就是弄一個目標函數(取名叫”E-步“)
求函數的最大值(取名叫”M-步“)
沒啥高深的含義。

然後說下 Tempered-EM算法,
這個東西比較惡心,谷歌上面也沒有特別詳細的資料,
作者只是略微提到了從物理系統中來,使用了“困惑度”
資料如下:



這個FβF_\betaFβ?的表達式具體的嚴格的推導已經不可考,這個東西幹嘛呢?
在EM算法運行的時候,使用FβF_\betaFβ?作爲一個“過擬合”的判據,當這個FβF_\betaFβ?不再變大的時候,就停止迭代。

這種無監督學習的“過擬合”是怎麼回事?
其實就是SVD的時候z的維度太大,也就是說,例如我有一萬篇文檔,我設置聚類數值爲10000種,那麼這個時候就肯定是過擬合了,這個和”有監督學習“的過擬合有些不太一樣,不理解的可以參考Kmeans過擬合的相關資料。

雖然FβF_\betaFβ?的推導我們不清楚,但是依然可以定性的理解它:
當z的取值很大,也就是聚類數值設定很大的時候,我們會發現FβF_\betaFβ?會變得非常小。
所以總結該式規律有:
z上限大=文檔聚類數大=FβF_\betaFβ?很小=過擬合
z上限小=文檔聚類數小=FβF_\betaFβ?很大=欠擬合

總結

以上是生活随笔為你收集整理的plsa原理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。