當前位置：首頁 >

Latent semantic analysis note(LSA)

發布時間：2025/4/14 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 Latent semantic analysis note(LSA) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 LSA Introduction

LSA(latent semantic analysis)潛在語義分析，也被稱為LSI(latent semantic index)，是Scott Deerwester, Susan T. Dumais等人在1990年提出來的一種新的索引和檢索方法。該方法和傳統向量空間模型(vector space model)一樣使用向量來表示詞(terms)和文檔(documents)，并通過向量間的關系(如夾角)來判斷詞及文檔間的關系；而不同的是，LSA將詞和文檔映射到潛在語義空間，從而去除了原始向量空間中的一些“噪音”，提高了信息檢索的精確度。

2 傳統方法的缺點

傳統向量空間模型使用精確的詞匹配，即精確匹配用戶輸入的詞與向量空間中存在的詞。由于一詞多義(polysemy)和一義多詞(synonymy)的存在，使得該模型無法提供給用戶語義層面的檢索。比如用戶搜索”automobile”，即汽車，傳統向量空間模型僅僅會返回包含”automobile”單詞的頁面，而實際上包含”car”單詞的頁面也可能是用戶所需要的。

下面是LDA原始Paper^[1]里舉的一個例子：

上圖是一個Term-Document矩陣，X代表該單詞出現在對應的文件里，星號表示該詞出現在查詢(Query)中，當用戶輸入查詢”IDF in computer-based information look up” 時，用戶是希望查找與信息檢索中IDF（文檔頻率）相關的網頁，按照精確詞匹配的話，文檔2和3分別包含查詢中的兩個詞，因此應該被返回，而文檔1不包含任何查詢中的詞，因此不會被返回。但我們仔細看看會發現，文檔1中的access, retrieval, indexing, database這些詞都是和查詢相似度十分高的，其中retrieval和look up是同義詞。顯然，從用戶的角度看，文檔1應該是相關文檔，應該被返回。再來看文檔2：computer information theory，雖然包含查詢中的一次詞information，但文檔2和IDF或信息檢索無關，不是用戶需要的文檔，不應該被返回。從以上分析可以看出，在本次檢索中，和查詢相關的文檔1并未返回給用戶，而無查詢無關的文檔2卻返回給了用戶。這就是同義詞和多義詞如何導致傳統向量空間模型檢索精確度的下降。

3 LSA如何解決這些問題

LSA潛在語義分析的目的，就是要找出詞(terms)在文檔和查詢中真正的含義，也就是潛在語義，從而解決上節所描述的問題。具體說來就是對一個大型的文檔集合使用一個合理的維度建模，并將詞和文檔都表示到該空間，比如有2000個文檔，包含7000個索引詞，LSA使用一個維度為100的向量空間將文檔和詞表示到該空間，進而在該空間進行信息檢索。而將文檔表示到此空間的過程就是SVD奇異值分解和降維的過程。降維是LSA分析中最重要的一步，通過降維，去除了文檔中的“噪音”，也就是無關信息（比如詞的誤用或不相關的詞偶爾出現在一起），語義結構逐漸呈現。相比傳統向量空間，潛在語義空間的維度更小，語義關系更明確。

4?SVD分解^[2]

^{SVD分解作為掌握LSA的基礎知識，我單獨把它作為一篇文章，可以在這里找到。}

5 LSA技術細節^[1][3]

本節主要討論LSA技術細節的理論部分，具體代碼層面分析和實踐在第7節討論。

LSA的步驟如下：

1. 分析文檔集合，建立Term-Document矩陣。

2. 對Term-Document矩陣進行奇異值分解。

3. 對SVD分解后的矩陣進行降維，也就是奇異值分解一節所提到的低階近似。

4. 使用降維后的矩陣構建潛在語義空間，或重建Term-Document矩陣。

下面是Introduction to Latent Semantic Analysis里面的一個例子，描述了完整的LSA步驟，例子后面有我的補充：

假設文檔集合如下：

原始的Term-Document矩陣如下：

對其進行奇異值分解：

然后對分解后的矩陣降維，這里保留{S}的最大兩個奇異值，相應的{W}{P}矩陣如圖，注意{P}在公式中需要轉置。

到了這一步后，我們有兩種處理方法，論文Introduction to Latent Semantic Analysis是將降維后的三個矩陣再乘起來，重新構建了{X}矩陣如下：

觀察{X}矩陣和{X^{^}}矩陣可以發現：

{X}中human-C2值為0，因為C2中并不包含human單詞，但是{X^{^}}中human-C2為0.40，表明human和C2有一定的關系，為什么呢？因為C2：”A survey of user opinion of computer system response time”中包含user單詞，和human是近似詞，因此human-C2的值被提高了。同理還可以分析其他在{X^{^}}中數值改變了的詞。

以上分析方法清晰的把LSA的效果顯示出來了，也就是在{X^{^}}中呈現出了潛在語義，然后希望能創建潛在語義空間，并在該空間中檢索信息。這里以比較兩個單詞為例：

設奇異值分解形式為：X = T S D^T,T代表term，s代表single value矩陣，D代表Document，D^T表示D的轉置。X的兩個行向量點乘的值代表了兩個詞在文檔中共同出現的程度。比如T1在D1中出現10詞，T2在D1中出現5次，T3在D1中出現0詞，那么只考慮在D1維度上的值，T1(dot)T2=50，T1(dot)T2=0，顯然T1與T2更相似，T1與T3就不那么相似。那么用矩陣X(dot)X^T就可以求出所有詞與詞的相似程度。而由奇異值分解的公式的：

X(dot)X^T?= T(dot)S²(dot)T^T?= TS(dot)(TS)^T

上面公式表明了，我們想求X(dot)X^T的(i,j)個元素時，可以點乘TS矩陣的第i和j列來表示。因此我們可以把TS矩陣的行看作是term的坐標，這個坐標就是潛在語義空間的坐標。同理我們還可以推出X^T(dot)X = D(dot)S²(dot)D^T，從而DS的行表示了文檔的坐標。

這樣，我們就獲得了所有文檔和單詞在潛在語義空間的坐標，這時我們就可以通過向量間的夾角來判斷兩個對象的相似程度，方法和傳統向量空間模型相同。接下來主要討論下檢索文本的步驟。

用戶輸入的檢索語句被稱為偽文本，因為它也是有多個詞匯構成，和文本相似。所以很自然的想法就是將該偽文本轉換為文檔坐標，然后通過比較該偽文檔與每個文檔的空間夾角，檢索出該偽文本的相關文檔。設X_q表示偽文本的列向量，其中該列代表文檔集合的索引詞，該列的值代表偽文本中該索引詞出現的次數。比如一個文檔集合有索引詞{T1,T2,T3}，偽文本為t1,t3,t2,t1，則X_q={2,1,1}。獲得X_q后，通過公式

D_q?= X_q^T?T S^-1

計算偽文檔的文檔坐標。其中T和S分別代表奇異分解中得到的矩陣(S = T S D^T).注意上面的公式中S^-1代表S的逆矩陣。

D_q計算出來后，就可以迭代比較D_q和文檔集合中所有所有文檔，計算兩者個cosine夾角

6 LSA實踐

本節主要討論LSA的實現，編程語言使用C++，環境Linux gcc，使用了GNU Scientific Library^[5]。本節代碼可以在http://code.google.com/p/lsa-lda/找到。

1. 創建Term-Document矩陣

LSA是基于向量空間模型的，因此首先需要創建一個M x N的Term-Document矩陣，其中行表示每一個詞，列表示每一個文檔。而矩陣的值等于相應詞的TF*IDF值。待檢索的文檔集合放在程序根目錄下的corpus文件夾，每一個文檔一個文件。

首先需要創建語料的單詞列表，作為T-D矩陣的列向量，每一個單詞對應一個id。

[code=cpp]

CreateVectorSpace.cc

Function int CreateKeyWordMap()

// 循環讀入每個文檔

while((ent=readdir(currentDir))!=NULL)

{

//omit . and ..

if((strcmp(ent->d_name,".&quot??==0)||(strcmp(ent->d_name,"..&quot??==0))

continue;

else

{

//read each file in directory 'corpus'

string filename = "./corpus/";

filename += ent->d_name;

ifstream in(filename.c_str());

// check if file open succeeded

if (!in)

{

cout<<"error, cannot open input file"<<endl;

return -1;

}

Parse(); //分析單詞

[/code]

在循環的過程中，識別每一個單詞，并判斷該單詞是否為stop word。英文的stop word可以在ftp://ftp.cs.cornell.edu/pub/smart/english.stop找到。

[code=cpp]

CreateVectorSpace.cc

Function Parse()

// read one char each time

// then recognize a word and check if it is in the stop list

void Parse(ifstream *in,int *wordIndex)

{

string pendingWord;

char ch;

while (1)

{

……

if (!LETTER(ch)) /*after recognized a word*/

{

if (!stoplist.count(pendingWord))

{

/*if not exist in the list*/

if (wordList.find(pendingWord) == wordList.end())

{

wordList.insert(make_pair(pendingWord,*wordIndex));

(*wordIndex)++;

}

……

[/code]

接下來需要處理單詞，由于英文單詞有前綴和后綴，如單詞的單復數(book->books)，過去時(like->liked)，這些詞雖然形式不同但含義相同，因此要將它們處理為同一的形式，也就是單詞的原型。相關的算法為Porter Stemming^[6]算法。

獲得單詞列表后，就可以構造T-D矩陣了，過程是依次讀入每個文檔，遇到單詞列表中存在的詞，相應的矩陣單元加1。這里用到了GSL的幾個函數，用法可參考GSL手冊^[5]。

[code=cpp]

CreateVectorSpace.cc

Function CreateMatrix()

gsl_matrix* CreateMatrix()

{

……

// 分配T-D矩陣空間

gsl_matrix * mtx = gsl_matrix_alloc(wordList.size(),docList.size());

map<string, int>::const_iterator map_it = docList.begin();

// for each document

while (map_it != docList.end())

{

…..

// 如果當前單詞在單詞列表中存在

if (wordList.find(pendingWord) != wordList.end())

{

// 矩陣相應的單元值加1

gsl_matrix_set (mtx, wordList[pendingWord], map_it->second,

gsl_matrix_get(mtx, wordList[pendingWord], map_it->second)+1);

wordCount[map_it->second] += 1;

}

……

[/code]

現在已經創建了T-D矩陣，但是矩陣單元值為單詞在文檔中出現的頻率，因此下一步是求每個單詞的TF*IDF值^[7]。TF代表單詞在某一文檔中出現的頻率，IDF為inverse document frequency，代表的含義是如果一個單詞在很多文檔中都出現了，那么用它來區分文檔的價值就降低。具體公式：

[code=cpp]

SVD.CC

Function CreateTfIdfMatrix()

gsl_matrix* CreateTfIdfMatrix()

{

……

double termfrequence = gsl_matrix_get(mtx,i,j)/wordCount[j];

double idf = log((double)docList.size()/(double)getDocumentFrequence(mtx,i));

gsl_matrix_set(mtx,i,j,termfrequence*idf);

……

[/code]

至此T-D矩陣創建完成。

2. SVD分解

SVD分解使用GSL庫中的gsl_linalg_SV_decomp函數

[code=cpp]

SVD.cc

Function CountSVD(gsl_matrix *)

void CountSVD(gsl_matrix* mtx)

{

// S = U S V^T so first let's allocate U,S,V these three matrix

v_mtx = gsl_matrix_alloc(docList.size(),docList.size()); /*V is a N by N matrix*/

s_vct = gsl_vector_alloc(docList.size()); /*S is stored in a n-d vector*/

gsl_vector * workspace = gsl_vector_alloc(docList.size()); /* workspace for gsl function*/

gsl_linalg_SV_decomp(mtx, v_mtx, s_vct, workspace);

}

[/code]

3. 降維

降維在程序你實現十分簡單，也就是給矩陣(由于是對角矩陣，因此程序里表示為向量)賦值零。

[code=cpp]

SVD.cc

Function ReduceDim(int)

void ReduceDim(int keep)

{

for (int i=keep;i<docList.size();i++)

gsl_vector_set(s_vct,i,0);

}

[/code]

4. 查詢

SVD分解完成后，我們就已經獲得了潛在語義空間，接下來就可以接受用戶的輸入，將偽文本轉換到文檔坐標，然后通過比較向量的夾角，找出相關文檔。

[code=cpp]

void Query(string query)

{

// transform query into LSA space

istringstream stream(query);

string word;

//為Xq創建gsl向量， Xq表示偽文本的列向量

gsl_vector * q_vct = gsl_vector_alloc(wordList.size());

// 為Dq創建gsl向量，Dq表示偽文本的文檔向量

gsl_vector * d_vct = gsl_vector_alloc(LSD);

// 首先計算Xq

while (stream >> word)

{

if (wordList.count(word)!=0) /*word is in the list*/

gsl_vector_set(q_vct,wordList[word],

gsl_vector_get(q_vct,wordList[word])+1);

}

// Dq = Xq' T S^-1

// 再求Xq'乘T

for (int i = 0; i < LSD; i++)

{

double sum = 0;

for (int j = 0; j < wordList.size(); j++)

sum += gsl_vector_get(q_vct,j) * gsl_matrix_get(mtx,j,i);

gsl_vector_set(d_vct,i,sum);

}

// 最后求(Xq' T) S^-1

for (int k = 0; k < LSD; k++)

gsl_vector_set(d_vct, k,

gsl_vector_get(d_vct,k) * (1/gsl_vector_get(s_vct,k)));

//用文檔集合中每個文檔和Dq比較

for (int l=0;l<docList.size();l++)

{

……

// 求兩向量夾角，返回cosine值

relation = CompareVector(d_vct, temp_d_vct, LSD);

}

[/code]

5. 測試

我們先用以前討論過的文檔集

將C1~M4分別保存到9個文件里，放到corpus文件夾

運行程序，輸入格式為lsa.out [query]

./lsa.out human computer interaction

可以看出與主題最相關的文檔是C3，其次是C1。C1～C5文件是同主題文檔，主題是人機互交，而M1～M4的共同主題是計算機圖形。而查詢”human computer interaction”顯然描述的是人機互交。因此也可以從結果看到C1~C5的相關度全部都高于M1～M4文檔。最后，觀察C3，C5文檔，它們并不包含任何查詢中的詞，而計算出的相似度卻不為0，并且C3的相似度達0.999658，這也正是LSA潛在語義的效果。

下面是文檔兩兩比較后的結果表格(已導入到Excel)

上圖1~9和A~B都分別代表文檔{C1,C2,C3,C4,C5,M1,M2,M3,M4}

上圖非常清晰的顯示出了文檔的關系：

先來看[1~5][A~E]也就是第1~5行，

A~E列，由于文檔C1~C5是一個主題的文檔，所以可以看出[1~5][A~E]都大于0.9，而[1~5][F~I]都不超過0.5，也表明C1~C5文檔與M1~M4文檔主題是不相干的。

同理可以分析[6~9][F~I]。

上面的討論表明，潛在語義分析在主題分類上效果明顯。如果設定一個分類的閾值，比如0.8，那么上面9個文檔就被自動分為了{C1,C2,C3,C4,C5}和{M1,M2,M3,M4}

在另一個測試中，我從New York Times網站收集的6個主題，每個主題5篇文章

搜索” what a great day”結果如下：

偽文本坐標(0.00402821,-0.0183549,0.00361756)，每個文檔的相關度如上圖。如果設定檢索閾值為0.9，那么文檔movie2,sport4,art2會被返回。

7 總結

LSA通過對潛在語義空間的建模，提高的信息檢索的精確度。而后又有人提出了PLSA(Probabilistic latent semantic analysis)和LDA(Latent Dirichlet allocation)，將LSA的思想帶入到概率統計模型中。

LSA對一詞多義問題依然沒有解決，僅僅解決了一義多詞。因為LSA將每一個詞表示為潛在語義空間中的一個點，因此一個詞的多個意義在空間中對于的是一個點，沒有被區分。

8 References

[1] Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R.(1990). Indexing By Latent Semantic Analysis. Journal of the American Society For Information Science, 41, 391-407. 10

[2] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008.

[3] Thomas Landauer, P. W. Foltz, & D. Laham (199??. "Introduction to Latent Semantic Analysis". Discourse Processes 25: 259–284.

[4] Michael Berry, S.T. Dumais, G.W. O'Brien (1995). Using Linear Algebra for Intelligent Information Retrieval. Illustration of the application of LSA to document retrieval.

[5]?http://www.gnu.org/software/gsl/manual/html_node/

[6]?http://tartarus.org/~martin/PorterStemmer/

[7]?http://en.wikipedia.org/wiki/TF_IDF

9 External Link

[1]?http://code.google.com/p/lsa-lda/

本文中程序的代碼實現和LSA相關資料

[2]?http://en.wikipedia.org/wiki/Latent_semantic_analysis

LSA的WIKI條目，有LSA的大致介紹

[3]?http://lsa.colorado.edu/

Colorado大學的一個LSA項目，提供了基于LSA的terms比較，文本比較等

[4]?http://www.bluebit.gr/matrix-calculator/

在線矩陣計算工具，可計算SVD

10 Further Reading

[1] Thomas Hofmann, Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999

[2] Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (January 2003). "Latent Dirichlet allocation". Journal of Machine Learning Research 3: pp. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993 (inactive 2009-03-30).

Posted in?信息檢索,?機器學習|?Tagged?latent semantic analysis,?lsa,?信息檢索,?機器學習,?潛在語義分析|?Leave a comment

總結

以上是生活随笔為你收集整理的Latent semantic analysis note(LSA)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Latent dirichlet all
下一篇： gsl eclipse

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Latent semantic analysis note(LSA)

總結