當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络

發布時間：2025/3/20 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

讀論文是做AI的人必需要下的功夫，所以咱們開通了專欄《每周NLP論文推薦》。本著有三AI的一貫原則，即系統性學習，所以每次的論文推薦也會是成系統的，爭取每次能夠把一個領域內的“故事”基本說清楚。

先通過無監督學習在大規模語料上進行Pre-Training，再通過Fine-tune的方式，在一定語料上進行有監督學習，進行下游任務的學習，是NLP領域近來的以大趨勢。這次論文推薦就從詞向量開始，依次介紹到最新的XLnet。

作者&編輯 | 小Dream哥

1 詞向量的提出

在這篇文章中，Bengio等人提出了神經語言模型(NNLM)，而它的副產品，詞向量，可以實現詞的分布式表征。詞向量模型是一個重要的工具，可以把真實世界抽象存在的文字轉換成可以進行數學公式操作的向量，對這些向量的操作，是NLP所有任務都在做的事情。NNLM提出了一種可能的獲得詞向量的稠密式表征的手段，具有重要意義。

[1] D'informatique Et Recherche Operationnelle, Departement & Bengio, Y & Ejean Ducharme, R & Vincent, Pascal & De Recherche Mathematiques, Centre. (2001). A Neural Probabilistic Language Model.

2 Word2vec的提出

這篇文章提出了一種能夠真正高效獲得詞向量的手段，進而促進了后續NLP的快速發展。Mikolov等研究者在這篇論文中提出了連續詞袋模型CBOW和 Skip-Gram 模型，通過引入負采樣等可行性的措施。使得學習高質量的詞向量成為現實。

[2] Mikolov T , Sutskever I , Chen K , et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013.

3 ELMo詞向量的動態表征

訓練得到的詞向量表征的詞語之間的信息其實有限。詞向量一個難以解決的問題就是多義詞的問題，例如“bank”在英文中有“河岸”和“銀行”兩種完全不同意思，但是在詞向量中確實相同的向量來表征，這顯然不合理。

ELMO的本質思想是：用事先訓練好的語言模型學好一個單詞的Word Embedding，此時多義詞無法區分，不過這沒關系。在實際使用Word Embedding的時候，單詞特定的上下文就可以知道，這個時候模型可以根據上下文單詞的語義去調整單詞的Word Embedding表示，這樣經過調整后的Word Embedding更能表達在這個上下文中的具體含義，也就能克服多義詞動態表征的問題。

[3] Peters, Matthew E. , et al. "Deep contextualized word representations." (2018).

4 通用語言模型GPT

Generative Pre-Training(GPT)采用單向語言模型，用Transformer作為特征抽取器，在當時NLP領域的各項任務中都取得了非常不錯的效果。

從GPT中可以看到一個明顯的趨勢：越來越多的將原來在下游任務中做的事情，搬到預訓練時來做。

[4] Alec RadfordKarthik, NarasimhanTim, SalimansIlya Sutskever. (2018). Improving Language Understanding by Generative Pre-Training.

5 BERT的橫空出世

谷歌推出BERT(Bidirectional Encoder Representation from Transformers)模型，刷新了幾乎所有NLP任務的榜單，一時風頭無兩。仔細看BERT的實現，其與GPT的主要差別在于，BERT用的“雙向語言模型”，它通過MASK掉預料中的部分詞再重建的過程來學習預料中詞語序列中的語義表示信息，同樣采用Transformer作為特征抽取器。BERT的出現，因其效果太好，幾乎讓其他所有的NLP工作都黯然失色。

[5] Devlin, Jacob , et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." (2018).

6 能寫故事的GPT2.0

2019年2月openAI用更大的模型，規模更大質量更好的數據推出了GPT2.0，其語言生成能力令人驚嘆。相比于BERT，得益于以語言模型為訓練任務，GPT2.0的生成能力要更強，在文本生成領域獲得很大的反響。

值得關注的一點是，GPT的創造者們認為，Finetune的過程其實是不必要的，不同的任務用不同的處理方式即可。也就是說，自然語言處理中，幾乎所有的事情都放在無監督中的預訓練就可以了。是不是聽著就覺得帶勁？當然，這個還需要時間來考證，至少BERT還不這么認為。

[6] Alec Radford,? Jeffrey Wu, Rewon Child,? David Luan,? Dario Amodei , Ilya Sutskever.(2019) Language Models are Unsupervised Multitask Learners.

7 GPT與BERT的結合體XLnet

在2019年6月，XLNet: Generalized Autoregressive Pretraining for Language Understanding誕生，其基于BERT和GPT等兩類預訓練模型來進行改進，分別吸取了兩類模型的長處，獲得的很好的效果。

在XLnet中，提出了AutoRegressive (AR) 語言模型和AutoEncoding (AE)語言模型的說法，分別對應GPT和BERT，分析他們的優劣勢，然后做出結合，模型的效果超過BERT，暫時占據自然語言處理頭牌。

[7] Zhilin Yang, Zihang Dai, Yiming Yang , Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le(2019). XLNet: Generalized Autoregressive Pretraining for Language Understanding.

8 如何獲取文章與交流

找到有三AI github開源項目即可獲取。

https://github.com/longpeng2008/yousan.ai

文章細節眾多，閱讀交流都在有三AI-NLP知識星球中進行，感興趣可以加入，掃描下圖中的二維碼即可。

總結

這一期我們從頭到尾，看了現在最火爆的預訓練語言模型的發展過程，細細看過來，你能夠品味到NLP這些年發展的脈絡，非常有益處。后面我們的每周論文分享會從不同的自然語言處理任務來展開。

轉載文章請后臺聯系

侵權必究

往期NLP精選

【NLP】自然語言處理專欄上線，帶你一步一步走進“人工智能技術皇冠上的明珠”。
【NLP】用于語音識別、分詞的隱馬爾科夫模型HMM
【NLP】用于序列標注問題的條件隨機場（Conditional Random Field, CRF）
【NLP】經典分類模型樸素貝葉斯解讀
【NLP】 NLP專欄欄主自述，說不出口的話就交給AI說吧
【NLP】深度學習NLP開篇-循環神經網絡(RNN)
【NLP】 NLP中應用最廣泛的特征抽取模型-LSTM
【NLP】聊聊NLP中的attention機制
【NLP】理解NLP中網紅特征抽取器Tranformer
【技術綜述】深度學習在自然語言處理中的應用發展

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【NLP】理解NLP中网红特征抽取器T
下一篇：【GAN模型结构】从最简单的全卷积GAN