日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

十六、词向量总结

發(fā)布時間:2024/9/16 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 十六、词向量总结 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

詞向量總結(jié)

1. 基于離散的詞向量表示方法

1.1 單詞的向量化

  • One-Hot編碼:每一個詞使用一個長度為N的向量表示,N表示詞典的數(shù)量。假設(shè)我們有一個文檔:深度學習,那么進行one-hot處理后的結(jié)果如下:

1.2 文本的向量化

  • 詞袋模型:使用詞頻作為文本的向量表示.
  • TF-IDF:使用詞權(quán)重作為文本的向量表示.
  • 詞匯表:{'orange':3,‘banana’:1,‘a(chǎn)pple’:0, 'grape':2}

1.3 詞向量表示方法的缺點

  • 無法衡量詞向量之間的關(guān)系
  • 詞表維度隨著語料庫增長膨脹
  • 數(shù)據(jù)稀疏問題

2. 基于分布式的詞向量表示方法

2.1 分布式的詞向量表示方法

  • CBOW:根據(jù)上下文預測中心詞
  • Skip-Gram:根據(jù)中心詞預測上下文

2.2 分布式的詞向量表示的優(yōu)缺點

  • 優(yōu)點:
    • 由于 Word2vec 會考慮上下文,比之前的方法維度更少,所以速度更快.
    • 通用性很強,可以用在各種 NLP 任務中.
  • 缺點:
    • 由于詞和向量是一對一的關(guān)系,所以多義詞的問題無法解決.
    • Word2vec 是一種靜態(tài)的方式,雖然通用性強,但是無法針對特定任務做動態(tài)優(yōu)化.

2.3 Word Embeding的表示

  • Word Embedding使用了浮點型的稠密句子表示詞向量.
  • 形象的表示就是:

2.4 Word Embedding的實現(xiàn)過程

  • 首先把單詞使用數(shù)字來表示,再把數(shù)字使用向量來表示.
  • 單詞–>數(shù)字----->向量:

2.5 Wode Embeding數(shù)據(jù)的形狀變化

2.6 完整代碼

# coding:utf-8from sklearn.feature_extraction.text import CountVectorizer import torch from torch import nn as nntexts = ["orange banana apple grape dineapple",] # 語料庫cv = CountVectorizer() # 詞袋模型對象 cv_fit = cv.fit_transform(texts) # 完成文本到向量的表示 print(cv.vocabulary_) # 詞匯表 print(cv_fit.toarray()) # 文本向量表示的數(shù)組格式""" 詞向量 """ # Embedding(num_embeddings,embedding_dim) embedding = nn.Embedding(len(cv.vocabulary_), 7) # 5個詞,每個詞3維 input = torch.tensor(cv_fit.toarray())output = embedding(input) print(output) # (4, 5, 3) print(embedding.weight.size())

總結(jié)

以上是生活随笔為你收集整理的十六、词向量总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。