日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Word2Vec ——gensim实战教程

發布時間:2025/4/5 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Word2Vec ——gensim实战教程 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近斯坦福的CS224N開課了,看了下課程介紹,去年google發表的Transformer以及最近特別火的Contextual Word Embeddings都會在今年的課程中進行介紹。NLP領域確實是一個知識迭代特別快速的領域,每年都有新的知識冒出來。所以身處NLP領域的同學們要時刻保持住學習的狀態啊。筆者又重新在B站上看了這門課程的第一二節課。前兩節課的主要內容基本上圍繞著詞向量進行。所以這篇文章筆者想簡單的介紹一下詞向量,以及如何利用python的gensim訓練一個自己的詞向量。

詞向量簡介

詞向量指的是一個詞的向量表示。如果你希望計算機能夠進行一些復雜點的文本語義學習,你必須得將文本數據編碼成計算機能夠處理的數值向量吧,所以詞向量是一個自然語言處理任務中非常重要的一環。

one-hot representations

很久很久之前,一個詞用onehot進行編碼,如下圖所示,這種方式簡單粗暴,將一個詞用一個只有一個位置為1,其他地方為0的向量表示。1的位置就代表了是什么詞。

 

詞的one-hot編碼

 

這種表示有如下缺點:

  • 占用空間大
  • 詞與詞之間的向量是正交關系,沒有任何語義關聯

總結

以上是生活随笔為你收集整理的Word2Vec ——gensim实战教程的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。