生成式模型:LDA与LSI-SVD分解
??????? 原文鏈接:http://blog.sina.com.cn/s/blog_5033f3b40101flbj.html
??????? 文章圖文并茂,我就不轉載了!!!
? ? ? ? 科普文:判別式模型與生成式模型區別;
? ? ? ? 分類器的數學表達式為:給定輸入變量 X以及分類變量?Y,求?P(Y|X)。判別式模型通過直接數據回歸分析,直接估算?P(Y|X)。生成式模型的思想是先估計聯合概率密度?P(X,Y),再通過貝葉斯公式計算邊緣分布,求出?P(Y|X)。比如最大熵模型為判別式模型,而HMM、LDA、貝葉斯網絡等為生成式模型。
?
LSI-Latent Semantic Indexing.淺語義分析
針對缺點1,LSI(1990)將矩陣X進行奇異值分解,然后只取一部分作為其特征,此過程其實就相當于對X進行pca降維。將原始的向量轉化到一個低維的隱含語義空間中,而保留下來的維度(根據奇異值大小決定)所對應的奇異值就對應了每個‘隱含語義’的權重,去掉的那些維度就相當于把那些不重要的‘隱含語義’的權重賦值為0.
LSI的作者Deerwester稱由LSI得到的特征能夠捕獲一些基本的語義概念,例如同義詞等。個人理解,這是由pca的性質決定的,。
LSI如其名字Latent Semantic Indexing, 旨在在詞頻矩陣X的基礎上找出latent semantic,潛藏的語義信息。
其缺點是:不能解決多義詞問題;
個人理解:這種方法就像詞包模型一樣,有一定的道理,但沒有明確化,不像概率模型一樣具體化。原文中說‘Given a generative model of text, however, it isnot clear why one should adopt the LSImethodology’,個人覺得就是說他的理論基礎不夠明白,所以后續推出PLSI,就是能夠從數學上,從理論上具有嚴格意義的說明是怎么回事,到底是為什么有效,又怎么得出理論解。
?
模型的擴展性:如何解決長尾數據問題?
?????? 相關文章:搜索引擎算法——淺談語義主題計算
?
總結
以上是生活随笔為你收集整理的生成式模型:LDA与LSI-SVD分解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高等数学——手撕牛顿莱布尼茨公式
- 下一篇: 组装自己的tesla超级计算机