當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

ELECTRA 超过bert预训练NLP模型

發布時間：2023/11/28 生活经验 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 ELECTRA 超过bert预训练NLP模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文：ELECTRA: Pre-training Text Encoders As Discriminators Rather Then Generators

本文目前在ICLR 2020盲審中，前幾天有審稿人發表文章對它大夸特夸，被稱為19年最佳NLP預訓練模型，另外，在上周的智源北京人工智能大會上，Christopher Manning對這個工作也做了詳細介紹，那么，已經不用匿名了，這就是Manning大師的工作，懷著崇拜加欣喜的心情，細細學習了這篇文章，筆記如下。

摘要：雖然諸如BERT之類的掩碼語言建模（MLM）預訓練方法在下游NLP任務上產生了出色的結果，但它們需要大量的計算才能有效。這些方法通過用[MASK]替換一些詞來改變輸入，然后訓練模型以重建原始詞。作為替代方案，我們提出了一種更加樣本有效的預訓練任務，稱為替換詞檢測。我們的方法不是掩蓋輸入，而是通過使用從小的生成網絡采樣的詞替換一些輸入詞來改變輸入。然后，我們訓練一個判別模型，該模型可以預測損壞的輸入中的每個詞是否被生成器樣本替換，而不是訓練一個預測損壞的詞的原始身份的模型。實驗表明，這種新的預訓練任務比MLM更有效，因為該模型從所有輸入詞中學習，而不僅僅是從被掩蓋的小子集中學習。結果顯示，在相同的模型大小、數據和計算條件下，通過我們的方法學習的上下文表示大大優于通過BERT和XLNet等方法學習的上下文表示，小模型的收益特別大，例如，在GLUE自然語言理解基準上，我們在一個GPU上訓練了4天的模型優于GPT（使用30倍的計算能力訓練）。我們的方法在規模上也能很好地發揮作用，我們和RoBERTa（當前最先進的預訓練transformer）的性能相當，而使用的計算量不到它的1/4。

1. 簡介

當前最先進的語言表示學習方法可以看作是學習降噪自動編碼，這類僅選擇未標記輸入序列的一小部分（通常為15％），掩蓋這些標記或注意這些標記，然后訓練網絡以恢復原始輸入的標記。這些方法可以學習雙向表示，因此比語言模型預訓練更有效，但是這些掩碼語言模型（MLM）方法僅從每個樣本15%的詞中學習，計算成本非常大。

我們提出了一個新的預訓練任務replaced token detection，它的目標是學習區分輸入的詞。這個方法不采用mask，而是從一個建議分布中采樣詞來替換輸入，這個過程解決了[mask]帶來的預訓練和fine-tune不一致的問題，然后我們訓練一個判別器來預測每個詞是原始詞還是替換詞。判別任務的一個好處是模型從輸入的所有詞中學習，而不是MLM中那樣僅使用掩蓋的詞，因此計算更加有效。我們的方法很容易讓人想起GAN，但其實并不是對抗學習，我們采用的是最大似然，目前GAN應用在文本領域還是有不少困難。

我們的方法稱為 ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately)，與之前的工作一樣，我們用它來訓練transformer的文本編碼器，然后在下游任務上進行fine-tune。通過一系列的擴展，我們證明從所有輸入序列中學習使得ELECTRA比BERT訓練的更快，并且當完全訓練時在下游任務上取得的效果也更好。

我們訓練了不同大小的ELECTRA模型并在GLUE上評價它們的效果，發現：在相同的模型大小、數據、計算量的情況下，ELECTRA顯著優于MLM類的方法，例如BERT和XLNet，詳細對比如下圖所示。此外，ELECTRA小模型僅需要在1塊GPU訓練4天即可得到，這個小模型比BERT小模型在GLUE上高5個點，甚至比更大的GPT模型效果還要好。此外，我們的方法在大規模情況下也取得了與當前最先進模型RoBERTa相當的效果，并且具有更少的參數，訓練過程需要的計算不到它的1/4。我們的方法證明，區分真實數據和有挑戰的負樣本的判別式任務是一種更加計算有效和參數有效的語言表示學習方法。

2. 方法

本文提出的方法包括兩個神經網絡：一個生成器G和一個判別器D，兩者都采用形如transformer的編碼網絡來獲取輸入序列x的向量表示h(x)。生成器的目標是訓練成掩碼語言模型，即給定輸入序列x，首先按照一定的比例（通常15%）將輸入中的詞替換成[MASK]得到，然后通過網絡得到向量表示hG(x)，接著采用softmax層來為輸入序列中掩蓋的位置預測一個詞，訓練的目標函數為最大化掩蓋詞的似然。判別器的目標是判斷輸入序列每個位置的詞是否被生成器替換過，如果與原始輸入序列對應位置的詞不相同就認為替換過。

生成器和判別器的損失函數如下：

最終的損失函數為生成器和判別器的加權和：

盡管我們的訓練與GAN非常相似，但是有以下重要不同：

(1) 如果生成器生成的詞恰好與輸入相同，那么我們認為是沒有替換過；

(2) 生成器的訓練目標是最大似然，這點跟GAN的對抗訓練非常不同；

(3) 我們并沒有像GAN那樣，給生成器應用噪聲向量。

預訓練結束后，我們采用判別器的來fine-tune下游任務。

3. 實驗

1. 模型擴展

(1) 權重共享

如果生成器和判別器采用相同的size，那么它們編碼器的權重參數都可以共享，但是我們發現：采用更小的生成器，并將生成器和判別器的embeddings共享更加有效。具體地，當不采用權重共享時GLUE分數為83.6，當共享embeddings時分數為84.3，當所有參數共享時分數為84.4。考慮到所有參數共享時提升很少，但是還要求生成器和判別器的size相同，不夠靈活，我們選擇僅僅共享embeddings。

(2) 更小的生成器

如果生成器和判別器采用相同的size，那么總體的訓練時間差不多是MLM的兩倍，為了提高效率，我們嘗試更小的生成器。我們在保持其他參數不變的情況下，減少生成器的layer size進行實驗，同時我們還采用簡單的unigram生成器作為對比，實驗結果如下左圖。我們發現，判別器的size越大越好（256 -> 512 -> 768），生成器的size介于判別器size的1/4-1/2時效果最佳。原因大概是太強的生成器對判別器太難了吧。

(3) 訓練算法

我們對比了多種訓練算法，效果如上右圖：

(1) 兩階段訓練方法：將聯合訓練的目標函數分成兩步來做，首先訓練生成器，然后固定生成器，并用它的參數來初始化判別器，訓練判別器；

(2) 嘗試GAN的對抗訓練，利用強化學習來適應生成器采樣的離散操作；

(3) 此外還對比了BERT。

我們發現：兩階段的訓練算法在切換到第二階段時提升明顯，另外對抗訓練的方法優于BERT，但是不如最大似然的聯合訓練。

2. 小模型

基于BERT-base的超參數，我們減少序列長度（512 -> 128），減少batch size（256 -> 128），減少隱層大小（768 -> 256），采用更小的embedding（768 -> 128），在相同算力的情況下進行模型效果對比，如下圖。我們發現：ELECTRA小模型的效果比其他更多參數的模型更好，ELECTRA中等模型的效果甚至超越了BERT大模型。

3. 大模型

我們的ELECTRA大模型采用BERT大模型相同的size，實驗結果如下圖，我們發現：ELECTRA達到了當前最先進模型RoBERTa的效果，但是訓練的計算量不到它的1/4，簡直是厲害！我們相信ELECTRA訓練更久會有更好的結果。

4. 效率分析

為了更好地理解ELECTRA效果提升的原因在哪里，作者對比了一系列預訓練方法：

(1) ELECTRA 15%：判別器在計算損失時僅考慮那些被掩蓋的詞（15%），除此之外都與標準的ELECTRA相同；

(2) Replace MLM：不同于MLM中用[MASK]替換掩蓋的詞，它用一個生成器模型預測的詞來替換掩蓋的詞，其他的都與MLM保持一致，這是為了分析解決[MASK]在預訓練和fine-tune過程不一致問題的收益有多大。

(3) All-Token MLM：與Replace MLM一樣，采用生成器模型預測的詞來替換掩蓋的詞，并且，該模型預測所有輸入對應的輸出，而不僅僅是掩蓋的詞。我們發現采用一個顯式的拷貝機制，對每個詞輸出一個拷貝概率D，最終預測概率為拷貝概率D乘以輸入，再加上 (1-D) 乘以MLM的softmax輸出。這個模型結合了BERT和ELECTRA。

實驗結果如下表所示，我們發現：

(1) ELECTRA 15%的效果相比ELECTRA差很多，說明ELECTRA對輸入的所有詞計算損失這一點收益非常大；

(2) Replace MLM效果略好于BERT，說明BERT采用[MASK]替換掩蓋詞會略微降低模型效果；

(3) All-Token MLM的幾乎快彌補了BERT和ELECTRA之間的gap，是最接近ELECTRA效果的模型。

總的來說，ELECTRA的提升一大部分來自于從所有詞中學習，一小部分來自于解決[MASK]在預訓練和fine-tune過程的不一致。

我們進一步對比了BERT和ELECTRA在不同模型大小的效果，如下圖所示。我們發現：

(1) ELECTRA模型越小，相比BERT的提升就越明顯（下圖左邊和中間）;

(2) 模型收斂后ELECTRA效果明顯優于BERT（下圖右圖）。

4. 總結

本文提出的ELECTRA在取得當前最先進模型相當效果的同時，計算量僅不到原來的1/4，非常有效。有效的原因一大部分來自于從所有詞中學習，一小部分來自于解決[MASK]在預訓練和fine-tune過程的不一致。

個人覺得，NLP預訓練模型目前已經發展到了爆發期，新模型出來的節奏越來越快，非常期待更多的工作出來，對于我輩NLPer，這是一個最美好的時代，一定要跟緊節奏。

總結

以上是生活随笔為你收集整理的ELECTRA 超过bert预训练NLP模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：排列组合中分组(分堆)与分配问题
下一篇：掩码语言模型(Masked Langua