當前位置：首頁 >

word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

發布時間：2025/3/12 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NLP

的首要問題就是尋求恰當的文本表示方法。

因為，

良好的文本表示形式，

是后續進一步處理的基礎。近年來，詞嵌入方法越來越流行，在各種各樣的

NLP

任務中

得到了廣泛的應用。簡單而言，詞嵌入是通過無監督方式學習單詞的向量表示。本文將首

先回顧用向量表示文本的早期模型，并通過分析其缺陷揭示詞嵌入提出的動機，

然后介紹

Word2Vec

和

Glove

這兩種最流行的詞嵌入方法背后的直覺。

向量空間模型

用向量來表示文本這一想法由來已久。早在

1975

年，

Salton

等就提出用向量空間模型來

表示文本，以更好地索引、搜索文檔。

由于向量空間模型最初的應用場景是索引、搜索，因此更關注詞和權重。由詞的權重組成

向量，并使用這一向量表示整篇文檔。

具體而言，假設文檔由

個單詞組成，

那么這篇文檔就可以表示為由每個單詞的權重組成

的

維向量(長度為

的數組)

，

[w1,?w2,?...,?wn]

。當然，為了降低維度，事先會移除一些

無關緊要的詞(例如

the

、

)

。在實踐中，使用一份停止詞(

stop?words

)列表移除常見的

無關緊要的單詞。

權重的計算有很多方法，最常用的是基于詞頻的方法。具體而言，單詞的權重由三個因素

決定：

詞頻(

Term?Frequency

，

)

。詞頻的計算公式為

TF?=?t?/?m

，其中，

為單詞在文檔出現的

次數，

為文檔的長度(總詞數)

。例如，假設文檔由

1000

個單詞組成，其中某個單詞總

共出現了

次，那么這個單詞的詞頻就等于

3/1000.

逆向文檔頻率

(

Inverse?Document?Frequency

，

IDF

)

。

IDF

衡量單詞提供的信息量，換句話

說，某個單詞是否在所有文檔中都很常見

罕見。這背后的直覺很簡單。假設

100

篇文檔

中，有

篇都包含“手機”這個單詞，而只有

篇文檔包含“足球”這個單詞。那么，

對某篇特定文檔而言，如果它同時包含“足球”和“手機”這兩個單詞，這篇文檔更可能

總結

以上是生活随笔為你收集整理的word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：链表队列基本概念为什么使用二叉查找
下一篇：计算机应用技术工作项目是,论计算机应用技

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

總結