11种必知的word embeddings模型
生活随笔
收集整理的這篇文章主要介紹了
11种必知的word embeddings模型
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
作者:Fabio Chiusano
單詞嵌入為序列標(biāo)注和文本分類等下游任務(wù)提供輸入特征,在過去的十年中,已經(jīng)提出了幾種單詞嵌入方法。
Context-independent
每個(gè)單詞都會(huì)學(xué)習(xí)一個(gè)唯一的表達(dá)而不考慮上下文
Context-independent without machine learning
- Bag-of-words
- TFIDF
Context-independent with machine learning
- Word2Vec: CBOW & SkipGram。
- GloVe(Global Vectors for Word Representation):對(duì)語料庫中聚合的全局單詞共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行訓(xùn)練。
- FastText:與GloVe不同的是,它通過將每個(gè)單詞視為由字符n-grams組成而不是一個(gè)單詞整體來做單詞嵌入。此做法不僅可以學(xué)習(xí)罕見的單詞,還可以學(xué)習(xí)詞匯表外的單詞。
Context-dependent
相同單詞不同上下文也會(huì)embedding不一樣。
Context-dependent and RNN based
- ELMO(Embeddings from Language Model):基于字粒度的雙向lstm編碼層學(xué)習(xí)每個(gè)單詞的embedding。
- CoVe(Contextualized Word Vectors): 基于一個(gè)訓(xùn)練好的用于翻譯的sequence-2-sequence的帶有attention的模型的encoder,對(duì)word進(jìn)行詞嵌入。
Context-dependent and transformer-based
- Bert(Bidirectional Encoder Representations from Transformers): 大語料,基于transformer進(jìn)行訓(xùn)練,使用隨機(jī)mask機(jī)制做完型填空,同時(shí)通過預(yù)測(cè)下一個(gè)句子的任務(wù)挖掘句子之間的關(guān)聯(lián)。
- XLM(Cross-lingual Language Model): 同樣是transformer,預(yù)估下一個(gè)token,類似bert的mask訓(xùn)練方式,和翻譯目標(biāo)。
- RoBERTa(Robustly Optimized BERT Pretraining Approach):同樣是BERT,修改了超參,刪除了下個(gè)句子的任務(wù),用更大的batch和學(xué)習(xí)率訓(xùn)練。
- ALBERT(A Lite BERT for Self-supervised Learning of Language Representation):減少了參數(shù),降低了內(nèi)存,提升了訓(xùn)練速度。
總結(jié)
以上是生活随笔為你收集整理的11种必知的word embeddings模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LightGBM笔记
- 下一篇: 时间序列里面最强特征之一