日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Word2Vec ——gensim实战教程

發布時間:2025/4/5 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Word2Vec ——gensim实战教程 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近斯坦福的CS224N開課了,看了下課程介紹,去年google發表的Transformer以及最近特別火的Contextual Word Embeddings都會在今年的課程中進行介紹。NLP領域確實是一個知識迭代特別快速的領域,每年都有新的知識冒出來。所以身處NLP領域的同學們要時刻保持住學習的狀態啊。筆者又重新在B站上看了這門課程的第一二節課。前兩節課的主要內容基本上圍繞著詞向量進行。所以這篇文章筆者想簡單的介紹一下詞向量,以及如何利用python的gensim訓練一個自己的詞向量。

詞向量簡介

詞向量指的是一個詞的向量表示。如果你希望計算機能夠進行一些復雜點的文本語義學習,你必須得將文本數據編碼成計算機能夠處理的數值向量吧,所以詞向量是一個自然語言處理任務中非常重要的一環。

one-hot representations

很久很久之前,一個詞用onehot進行編碼,如下圖所示,這種方式簡單粗暴,將一個詞用一個只有一個位置為1,其他地方為0的向量表示。1的位置就代表了是什么詞。

 

詞的one-hot編碼

 

這種表示有如下缺點:

  • 占用空間大
  • 詞與詞之間的向量是正交關系,沒有任何語義關聯

總結

以上是生活随笔為你收集整理的Word2Vec ——gensim实战教程的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。