當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

生成式模型：LDA与LSI-SVD分解

發布時間：2023/12/31 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了生成式模型：LDA与LSI-SVD分解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

??????? 原文鏈接：http://blog.sina.com.cn/s/blog_5033f3b40101flbj.html

??????? 文章圖文并茂，我就不轉載了！！！

? ? ? ? 科普文：判別式模型與生成式模型區別；

? ? ? ? 分類器的數學表達式為：給定輸入變量 X以及分類變量?Y，求?P(Y|X)。判別式模型通過直接數據回歸分析，直接估算?P(Y|X)。生成式模型的思想是先估計聯合概率密度?P(X,Y)，再通過貝葉斯公式計算邊緣分布，求出?P(Y|X)。比如最大熵模型為判別式模型，而HMM、LDA、貝葉斯網絡等為生成式模型。

LSI-Latent Semantic Indexing.淺語義分析

針對缺點1，LSI（1990）將矩陣X進行奇異值分解，然后只取一部分作為其特征，此過程其實就相當于對X進行pca降維。將原始的向量轉化到一個低維的隱含語義空間中，而保留下來的維度（根據奇異值大小決定）所對應的奇異值就對應了每個‘隱含語義’的權重，去掉的那些維度就相當于把那些不重要的‘隱含語義’的權重賦值為0.

LSI的作者Deerwester稱由LSI得到的特征能夠捕獲一些基本的語義概念，例如同義詞等。個人理解，這是由pca的性質決定的，。

LSI如其名字Latent Semantic Indexing, 旨在在詞頻矩陣X的基礎上找出latent semantic,潛藏的語義信息。

其缺點是：不能解決多義詞問題；

個人理解：這種方法就像詞包模型一樣，有一定的道理，但沒有明確化，不像概率模型一樣具體化。原文中說‘Given a generative model of text, however, it isnot clear why one should adopt the LSImethodology’，個人覺得就是說他的理論基礎不夠明白，所以后續推出PLSI，就是能夠從數學上，從理論上具有嚴格意義的說明是怎么回事，到底是為什么有效，又怎么得出理論解。

模型的擴展性：如何解決長尾數據問題？

?????? 相關文章：搜索引擎算法——淺談語義主題計算

總結

以上是生活随笔為你收集整理的生成式模型：LDA与LSI-SVD分解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

生成式模型：LDA与LSI-SVD分解

總結