文档词频矩阵_对论文“从词向量到文档距离”的理解
文章:From Word Embeddings To Document Distances
研究背景
在此之前,文檔的兩種最常見的表述方式是通過袋詞(BOW)或詞頻-逆文檔頻率(TF-IDF)。但是無法解決近義詞之間的距離問題,即是BOW和TF-IDF無法表達(dá)詞語的含義。由于word2vec的出現(xiàn),近義詞的問題解決了,通過word2vec將詞語表示成向量,用兩向量的距離表示兩詞語的距離可以很好的區(qū)分“不同的詞”,“意思相近的詞”。作者在word2vec的基礎(chǔ)上提出了WMD(Word Mover's Distance)來表示文檔距離,并給出了優(yōu)化方案,且用實(shí)驗(yàn)證明了用WMD表示文檔距離在分類等問題上效果優(yōu)于BOW和TF-IDF。
相關(guān)知識(shí)
1、詞袋(BOW)
假如有兩篇文檔,第一篇文檔的內(nèi)容是:“I like you”,第二篇文檔的內(nèi)容是:“I hate you”,則由這兩篇文檔的所有詞組成的詞典為["I", "like", "you", "hate"],詞典的長(zhǎng)度即是文檔向量的長(zhǎng)度,每一位的表示為:如果該詞在文檔中出現(xiàn)過(不論次數(shù))表示為1,否則為零,即第一篇文檔的向量表示為:[1 1 1 0],第二篇文檔的向量表示為:[1 0 1 1]
2、TF-IDF
TF(詞頻):改詞在當(dāng)前文檔出現(xiàn)的總次數(shù)/所有文檔的的總詞數(shù)(注意不能去重)
IDF(逆文檔頻率):某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語的文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。(注意,為了避免分母為0,常常分母需要+1)
TF-IDF即是兩者的乘積
3、word2vec
如果用一句比較簡(jiǎn)單的話來總結(jié),word2vec是用一個(gè)一層的神經(jīng)網(wǎng)絡(luò)(即CBOW)把one-hot形式的稀疏詞向量映射稱為一個(gè)n維(n一般為幾百)的稠密向量的過程。為了加快模型訓(xùn)練速度,其中的tricks包括Hierarchical softmax,negative sampling, Huffman Tree等。由于這不是這篇論文的重點(diǎn),就不在詳細(xì)介紹了,具體可查看參考文章word2vec。
Word Mover’s Distance
對(duì)于文檔A和B,由兩篇文檔組成的詞袋(去掉停用詞)長(zhǎng)度為n,構(gòu)建n*n的矩陣
,矩陣的橫縱坐標(biāo)都可以看成是詞袋規(guī)定詞向量之間距離的計(jì)算公式為:
目標(biāo)就是約束優(yōu)化這個(gè)矩陣中的元素,使得距離最小化。目標(biāo)函數(shù)和約束條件如下:
Fast Distance Computation
為了加快計(jì)算,作者提出的優(yōu)化方式:
Word centroid distance
其中, 即一個(gè)文檔中所有的詞的詞向量按照其詞頻取加權(quán)平均值求出的中心點(diǎn),WCD就是兩個(gè)文檔中心點(diǎn)的L2距離。
Relaxed word moving distance
減少約束條件
求最優(yōu)解只需要對(duì)文檔i的每個(gè)詞向量,在文檔j中找到與其距離最近的一個(gè)詞向量,計(jì)算兩個(gè)詞向量的距離即可:
prefetch and prune
在計(jì)算文檔的k近鄰時(shí),先計(jì)算所有文檔的WCD排序,并從小打到排序,選取前k個(gè)計(jì)算WMD距離,然后,我們遍歷其余的文檔,對(duì)于每一個(gè),我們首先檢查 RWMD下限是否超過當(dāng)前第 K個(gè)文檔的距離,如果超過,那么就過濾掉。如果沒有,那么就計(jì)算這個(gè)文檔的WMD,并且設(shè)定最新的RWMD為這一文檔的RWMD。
實(shí)驗(yàn)結(jié)果
對(duì)8文檔數(shù)據(jù)集的所有方法進(jìn)行評(píng)估
從實(shí)驗(yàn)結(jié)果上來看,基于WMD的KNN錯(cuò)誤幾乎都是最少的。
WMD優(yōu)缺點(diǎn)
優(yōu)點(diǎn)
- 不需要設(shè)置超參數(shù)
- 無監(jiān)督,不依賴標(biāo)注數(shù)據(jù)
- 有全局最優(yōu)解
- 可人為干預(yù)詞的重要性
缺點(diǎn)
- 詞袋模型,沒有保留語序信息
- 時(shí)間復(fù)雜度高
參考文章
1、詞袋
2、TF-IDF
3、word2vec
4、https://zhuanlan.zhihu.com/p/88665645
總結(jié)
以上是生活随笔為你收集整理的文档词频矩阵_对论文“从词向量到文档距离”的理解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 定时器Timer与TimerTask的使
- 下一篇: 「技术架构」10个提升应用程序性能的倚天