日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

11种必知的word embeddings模型

發(fā)布時(shí)間:2025/3/8 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 11种必知的word embeddings模型 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者:Fabio Chiusano

單詞嵌入為序列標(biāo)注和文本分類等下游任務(wù)提供輸入特征,在過去的十年中,已經(jīng)提出了幾種單詞嵌入方法。

Context-independent

每個(gè)單詞都會(huì)學(xué)習(xí)一個(gè)唯一的表達(dá)而不考慮上下文

Context-independent without machine learning

  • Bag-of-words
  • TFIDF

Context-independent with machine learning

  • Word2Vec: CBOW & SkipGram。
  • GloVe(Global Vectors for Word Representation):對(duì)語料庫中聚合的全局單詞共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行訓(xùn)練。
  • FastText:與GloVe不同的是,它通過將每個(gè)單詞視為由字符n-grams組成而不是一個(gè)單詞整體來做單詞嵌入。此做法不僅可以學(xué)習(xí)罕見的單詞,還可以學(xué)習(xí)詞匯表外的單詞。

Context-dependent

相同單詞不同上下文也會(huì)embedding不一樣。

Context-dependent and RNN based

  • ELMO(Embeddings from Language Model):基于字粒度的雙向lstm編碼層學(xué)習(xí)每個(gè)單詞的embedding。
  • CoVe(Contextualized Word Vectors): 基于一個(gè)訓(xùn)練好的用于翻譯的sequence-2-sequence的帶有attention的模型的encoder,對(duì)word進(jìn)行詞嵌入。

Context-dependent and transformer-based

  • Bert(Bidirectional Encoder Representations from Transformers): 大語料,基于transformer進(jìn)行訓(xùn)練,使用隨機(jī)mask機(jī)制做完型填空,同時(shí)通過預(yù)測(cè)下一個(gè)句子的任務(wù)挖掘句子之間的關(guān)聯(lián)。
  • XLM(Cross-lingual Language Model): 同樣是transformer,預(yù)估下一個(gè)token,類似bert的mask訓(xùn)練方式,和翻譯目標(biāo)。
  • RoBERTa(Robustly Optimized BERT Pretraining Approach):同樣是BERT,修改了超參,刪除了下個(gè)句子的任務(wù),用更大的batch和學(xué)習(xí)率訓(xùn)練。
  • ALBERT(A Lite BERT for Self-supervised Learning of Language Representation):減少了參數(shù),降低了內(nèi)存,提升了訓(xùn)練速度。

總結(jié)

以上是生活随笔為你收集整理的11种必知的word embeddings模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。