自然语言处理期末复习(6)话题模型
一、LAS
1.向量空間模型通過計算文檔向量間的相似度來衡量兩個文檔之間的相關性,常用的相似度為(夾角)余弦相似度。
2.LSA的核心在于將秩r的詞項-文檔矩陣C進行SVD分解,并尋求詞項-文檔矩陣的k秩逼近Ck 此時我們可以說,在進行潛在語義分析之前,文檔被隱含表示成r維空間中的向量,而在潛在語義分析之后,文檔被表示為k維空間中的向量,也就是潛在語義空間中的向量,向量的維數縮減為k維。
維數k可以被解釋為隱含在文檔集合中的話題數量,因此LSA可以被視作一種話題模型
3. LSA要點:
(1) 基于詞(項)-文檔矩陣歸納語義信息
(2) 基于維數縮減歸納語義信息
(3) 文檔和詞(項)被視作歐式空間中的點進行計算
二、概率話題模型
1. 混合模型(mixture model),分布表示為若干部件分布按照一定的比例進行組合。
(1) 文檔是關于話題的分布, 不同文檔擁有不同的話題比例p(z)。
(2) 話題是定義在詞表上的概率分布p(w|z),不同的話題是定義在詞表上的不同分布,與LSA不同,話題有著直觀的物理解釋。
話題模型是生成模型,文檔是話題模型規定的概率過程的產物
(1) 對每一個文檔,首先選擇一個話題分布p(z)
(2) 對文檔中的每一個詞位,按照話題分布p(z)選擇一個話題
(3) 按照話題-詞分布p(w|z)選擇一個詞
? 在話題模型中,文檔中每個詞都對應著一個隱含的話題,這些隱含的話題可以通過統計推斷的技術從大量的文檔集合中提取得到。
2.pLSA是一種概率話題模型,LDA可視作是對pLSA的改進
– 文檔視作話題的混合模型
– 話題視作詞的不同分布
總結
以上是生活随笔為你收集整理的自然语言处理期末复习(6)话题模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自然语言处理期末复习(7)平行文本与机器
- 下一篇: 自然语言处理期末复习(3)-(5)模型与