日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP学习笔记:word2vec

發布時間:2025/4/5 编程问答 14 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP学习笔记:word2vec 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1?詞嵌入(word2vec)

在自然語言這套系統中,詞是表義的基本單元。

但是在計算機以及程序運算中,詞是識別不了的。任何的內容都需要轉化成向量embedding的形式。

于是我們就需要對詞的特征進行表征,所以詞向量就應運而生了。

把詞映射為實數域向量的技術也叫詞嵌入(word embedding)。

2 用onehot表示詞向量的弊端

2.1 onehot 詞向量

假設詞典中一共有N個不同的詞,每個詞可以和從0到N?1的連續整數一一對應。這些與詞對應的整數叫作詞的索引。

假設一個詞的索引為i,那么該詞的onehot詞向量就是只有第i位位1,其他N-1位全部為0的向量。

換句話說:就是有多少個不同的詞,我就會創建多少維的向量。

2.2 onehot詞向量存在的問題

1 詞向量集合過于稀疏,需要極大的存儲空間

2 無法進行單詞之間的相似度計算。(因為每個單詞在空間中都是正交的向量,彼此之間沒有任何聯系。)【像坐標系中的向量,我們可以根據余弦相似度(兩個向量之間的夾角)來判斷兩個向量的相似程度】

2.3 onehot詞向量問題的解決方案

1,跳字模型(skip-gram):通過中心詞來推斷上下文一定窗口內的單詞。

2,連續詞袋模型(continuous bag of words,CBOW):通過上下文來推斷中心詞。

總結

以上是生活随笔為你收集整理的NLP学习笔记:word2vec的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。