日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

發布時間:2025/3/12 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NLP

的首要問題就是尋求恰當的文本表示方法。

因為,

良好的文本表示形式,

是后續進一步處理的基礎。近年來,詞嵌入方法越來越流行,在各種各樣的

NLP

任務中

得到了廣泛的應用。簡單而言,詞嵌入是通過無監督方式學習單詞的向量表示。本文將首

先回顧用向量表示文本的早期模型,并通過分析其缺陷揭示詞嵌入提出的動機,

然后介紹

Word2Vec

Glove

這兩種最流行的詞嵌入方法背后的直覺。

向量空間模型

用向量來表示文本這一想法由來已久。早在

1975

年,

Salton

等就提出用向量空間模型來

表示文本,以更好地索引、搜索文檔。

由于向量空間模型最初的應用場景是索引、搜索,因此更關注詞和權重。由詞的權重組成

向量,并使用這一向量表示整篇文檔。

具體而言,假設文檔由

n

個單詞組成,

那么這篇文檔就可以表示為由每個單詞的權重組成

n

維向量(長度為

n

的數組)

[w1,?w2,?...,?wn]

。當然,為了降低維度,事先會移除一些

無關緊要的詞(例如

the

、

is

)

。在實踐中,使用一份停止詞(

stop?words

)列表移除常見的

無關緊要的單詞。

權重的計算有很多方法,最常用的是基于詞頻的方法。具體而言,單詞的權重由三個因素

決定:

詞頻(

Term?Frequency

TF

)

。詞頻的計算公式為

TF?=?t?/?m

,其中,

t

為單詞在文檔出現的

次數,

m

為文檔的長度(總詞數)

。例如,假設文檔由

1000

個單詞組成,其中某個單詞總

共出現了

3

次,那么這個單詞的詞頻就等于

3/1000.

逆向文檔頻率

(

Inverse?Document?Frequency

IDF

)

IDF

衡量單詞提供的信息量,換句話

說,某個單詞是否在所有文檔中都很常見

/

罕見。這背后的直覺很簡單。假設

100

篇文檔

中,有

80

篇都包含“手機”這個單詞,而只有

5

篇文檔包含“足球”這個單詞。那么,

對某篇特定文檔而言,如果它同時包含“足球”和“手機”這兩個單詞,這篇文檔更可能

總結

以上是生活随笔為你收集整理的word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。