當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

NLP领域预训练模型

發(fā)布時(shí)間：2023/12/13 综合教程 39 生活家

生活随笔收集整理的這篇文章主要介紹了 NLP领域预训练模型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

聲明

本文原文來(lái)自于：arxiv

介紹

在大語(yǔ)料上訓(xùn)練的預(yù)訓(xùn)練模型可以學(xué)習(xí)得到通用的語(yǔ)言表達(dá)知識(shí)，對(duì)很多下游任務(wù)表現(xiàn)有幫助。隨著算力的提升、訓(xùn)練方法越來(lái)越強(qiáng)，這些模型也越來(lái)越深。

第一代預(yù)訓(xùn)練模型學(xué)習(xí)詞嵌入模型，由于模型本身不會(huì)用在后面的任務(wù)中，因此大多比較淺；

第二代預(yù)訓(xùn)練模型關(guān)注結(jié)合上下文語(yǔ)境的詞嵌入，這一些模型一般仍然需要在后續(xù)的任務(wù)中繼續(xù)學(xué)習(xí)具體的單詞表達(dá)。

背景

自然語(yǔ)言表示

一個(gè)好的表達(dá)應(yīng)該表達(dá)通用先驗(yàn)，這些先驗(yàn)不是特定于任務(wù)的，但可能對(duì)學(xué)習(xí)機(jī)器解決人工智能任務(wù)有用。對(duì)語(yǔ)言來(lái)說(shuō)，包括語(yǔ)法規(guī)則和語(yǔ)義知識(shí)。通用的方法是用一個(gè)低維的非稀疏向量來(lái)表示句子語(yǔ)義。

上下文表示，([h_1,h_2,cdots,h_T] = f_{enc}(x_1, x_2,cdots,x_T))

編碼器

序列模型學(xué)習(xí)的是順序的特征，訓(xùn)練成本低，但不容易捕捉跨度較大的信息。非序列模型表達(dá)能力更強(qiáng)，訓(xùn)練需要更大的語(yǔ)料。

序列模型

卷積網(wǎng)絡(luò)

循環(huán)網(wǎng)絡(luò)

非序列模型

fully-connected self-attention

預(yù)訓(xùn)練模型的意義

在大語(yǔ)料上訓(xùn)練的預(yù)訓(xùn)練模型可以學(xué)到通用的語(yǔ)言表達(dá)知識(shí)

初始化較好，加速模型收斂

PTM可以視為一種正則化，減少過(guò)擬合

PTM歷史

第一代PTM

在大量的未標(biāo)注語(yǔ)料上訓(xùn)練可以輔助其他任務(wù)。CBOW和Skip-Gram是非常經(jīng)典的模型。Word2vec 是這些模型最流行的實(shí)現(xiàn)之一，它使預(yù)訓(xùn)練的詞嵌入可用于 NLP 中的不同任務(wù)。此外，GloVe也是一種廣泛使用的用于獲得預(yù)訓(xùn)練詞嵌入的模型，該模型是通過(guò)大型語(yǔ)料庫(kù)中的全局(詞-詞)共現(xiàn)統(tǒng)計(jì)計(jì)算得出的。

還有一些聚焦于段落或者文章的，如paragraph vector， Skip-thought vectors， Context2Vec。

第二代PTM

第二代PTM考慮每個(gè)詞的上下文語(yǔ)義。Dai 和 Le 為 NLP 提出了第一個(gè)成功的 PTM 實(shí)例，他們使用語(yǔ)言模型和序列自動(dòng)編碼器初始化 LSTM，發(fā)現(xiàn)預(yù)訓(xùn)練可以提高 LSTM 在許多文本分類(lèi)任務(wù)中的訓(xùn)練和泛化能力。Ramachandran等人發(fā)現(xiàn)無(wú)監(jiān)督預(yù)訓(xùn)練可以顯著改善 Seq2Seq 模型。編碼器和解碼器的權(quán)重均使用兩種語(yǔ)言模型的預(yù)訓(xùn)練權(quán)重進(jìn)行初始化，然后使用標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)。除了用 LM 預(yù)訓(xùn)練上下文編碼器外，McCann 等人使用機(jī)器翻譯從使用注意力的seq2seq模型預(yù)訓(xùn)練了一個(gè)深度 LSTM 編碼器。預(yù)訓(xùn)練編碼器輸出的CoVe可以提高各種常見(jiàn) NLP任務(wù)的性能。

Peters等得到了帶有雙向語(yǔ)言模型 (BiLM) 的預(yù)訓(xùn)練 2 層 LSTM 編碼器，由前向 LM 和后向 LM 組成。預(yù)訓(xùn)練的ELMo輸出的上下文表示在廣泛的 NLP 任務(wù)中帶來(lái)了巨大的改進(jìn)。阿克比克等人使用字符級(jí) LM 預(yù)訓(xùn)練的上下文字符串嵌入捕獲詞義。然而，這兩個(gè) PTM 通常用作特征提取器來(lái)生成上下文詞嵌入，這些詞嵌入被輸入到主模型中以執(zhí)行下游任務(wù)。這些模型參數(shù)固定，下游任務(wù)的網(wǎng)絡(luò)參數(shù)是從頭開(kāi)始訓(xùn)練的，ULMFiT嘗試對(duì)用于文本分類(lèi)（TC）的預(yù)訓(xùn)練 LM 進(jìn)行微調(diào)，并在六個(gè)廣泛使用的文本分類(lèi)數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果。 ULMFiT 由 3 個(gè)階段組成：

在通用領(lǐng)域數(shù)據(jù)上預(yù)訓(xùn)練 LM；
在目標(biāo)數(shù)據(jù)上微調(diào)LM；
對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)。

ULMFiT 還研究了一些有效的微調(diào)策略，包括判別式微調(diào)、傾斜三角學(xué)習(xí)率和逐步解凍。

最近，非常深的 PTM 顯示了它們?cè)趯W(xué)習(xí)通用語(yǔ)言表示方面的強(qiáng)大能力：例如，OpenAI GPT和 BERT。除了 LM，還提出了越來(lái)越多的自監(jiān)督任務(wù)，以使 PTM 從大規(guī)模文本語(yǔ)料庫(kù)中捕獲更多知識(shí)。

概覽

預(yù)訓(xùn)練任務(wù)

監(jiān)督學(xué)習(xí)
非監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí)

在本節(jié)中，我們將介紹現(xiàn)有 PTM 中一些廣泛使用的預(yù)訓(xùn)練任務(wù)。我們可以將這些任務(wù)視為自監(jiān)督學(xué)習(xí)。下表還總結(jié)了他們的損失函數(shù)。

Language Modeling，用之前所有的詞預(yù)測(cè)下一個(gè)詞，問(wèn)題是只能預(yù)測(cè)單向。
Masked Language Modeling (MLM)，隨機(jī)用[MASK]標(biāo)識(shí)遮住一些單詞，然后用上下文預(yù)測(cè)這些單詞。為了解決訓(xùn)練和應(yīng)用過(guò)程中的不匹配，BERT使用了80%的[MASK]，10%的隨機(jī)token和10%的原字符。
Sequence-to-Sequence MLM (Seq2Seq MLM)，用seq2seq思想編碼帶掩碼的序列，然后再解碼得到掩碼序列。
Permuted Language Modeling (PLM)，XLNet論文中指出，MASK方法本質(zhì)上還將各個(gè)被蓋住的字符視為獨(dú)立的，過(guò)度簡(jiǎn)化。PTM將原始序列隨機(jī)打亂，然后預(yù)測(cè)某些位置上的詞。在實(shí)踐中，由于收斂緩慢，只能預(yù)測(cè)置換序列中的最后幾個(gè)標(biāo)記。并且為目標(biāo)感知表示引入了特殊的雙流自注意力。
Denoising Autoencoder (DAE)，恢復(fù)被破壞的輸入語(yǔ)句。方法有：

使用mask遮蓋。
刪除某些字符（相比于1，需要預(yù)測(cè)位置）
文本填充。
恢復(fù)隨機(jī)打亂的句子。
文本旋轉(zhuǎn)，隨機(jī)地選擇一個(gè)詞并旋轉(zhuǎn)文檔，使其以該詞開(kāi)始。模型需要識(shí)別文檔的真正開(kāi)始位置。

Contrastive Learning (CTL)，對(duì)比學(xué)習(xí)主要通過(guò)提高正確的詞對(duì)相對(duì)于隨機(jī)詞對(duì)的表現(xiàn)來(lái)訓(xùn)練的。

Deep InfoMax (DIM)，需要(f_{enc}( extrm{x}_{i:j})^T f_{enc}(hat{ extrm{x}}_{i:j}) > f_{enc}( ilde{ extrm{x}}_{i:j})^Tf_{enc}( extrm{x}_{i:j}))，其中( extrm{x}_{i:j},hat{ extrm{x}}_{i:j}, ilde{ extrm{x}}_{i:j})分別表示(i, j)子段、被蓋住后的掩碼序列和一段隨機(jī)序列。
Replaced Token Detection (RTD)，替換標(biāo)記檢測(cè) (RTD) 與 NCE 相同，但根據(jù)其周?chē)纳舷挛念A(yù)測(cè)標(biāo)記是否被替換。帶負(fù)采樣的 CBOW (CBOW-NS) [129] 可以看作是 RTD 的一個(gè)簡(jiǎn)單版本，其中負(fù)樣本是從詞匯表中隨機(jī)采樣的，具有簡(jiǎn)單的分布。
Next Sentence Prediction (NSP) ，預(yù)測(cè)兩個(gè)句子間的關(guān)系。
Sentence Order Prediction (SOP)，與NSP相似，但負(fù)樣本可以為連續(xù)兩個(gè)句子顛倒順序，這樣就不能用主題進(jìn)行預(yù)測(cè)了。

分類(lèi)角度

為了闡明現(xiàn)有 PTM 與 NLP 的關(guān)系，我們構(gòu)建了 PTM 分類(lèi)法，從四個(gè)不同的角度對(duì)現(xiàn)有 PTM 進(jìn)行分類(lèi)：

表示類(lèi)型：根據(jù)下游任務(wù)使用的表示，我們可以將 PTM 分為非上下文模型和上下文模型。
結(jié)構(gòu)：PTM 使用的骨干網(wǎng)絡(luò)，包括 LSTM、Transformer 編碼器、Transformer 解碼器和完整的 Transformer 架構(gòu)。“Transformer”是指標(biāo)準(zhǔn)的編碼器-解碼器架構(gòu)。 “Transformer 編碼器”和“Transformer 解碼器”分別表示標(biāo)準(zhǔn) Transformer 架構(gòu)的編碼器和解碼器部分。它們的區(qū)別在于解碼器部分使用帶有三角矩陣的掩碼自注意力來(lái)防止單詞出現(xiàn)在它們未來(lái)（正確）的位置上。
預(yù)訓(xùn)練任務(wù)類(lèi)型：PTM 使用的預(yù)訓(xùn)練任務(wù)類(lèi)型。
擴(kuò)展：為各種場(chǎng)景設(shè)計(jì)的 PTM，包括知識(shí)豐富的 PTM、多語(yǔ)言或特定語(yǔ)言的 PTM、多模型 PTM、特定領(lǐng)域的 PTM 和壓縮的 PTM。

模型分析

由于 PTM 的巨大成功，了解它們捕獲了哪些類(lèi)型的知識(shí)以及如何從它們中歸納出知識(shí)非常重要。有大量文獻(xiàn)分析存儲(chǔ)在預(yù)訓(xùn)練的非上下文和上下文嵌入中的語(yǔ)言知識(shí)和世界知識(shí)。

非上下文詞嵌入

首先探索靜態(tài)詞嵌入以獲取各種知識(shí)。米科洛夫等人發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)的單詞表示能夠捕捉語(yǔ)言中的語(yǔ)言規(guī)律，單詞之間的關(guān)系可以用關(guān)系特定的向量偏移來(lái)表征。有研究發(fā)現(xiàn)，Skip-Grame生成的詞向量可以捕獲句法和語(yǔ)義詞關(guān)系，例如 vec(“China”) ? vec(“Beijing”) ≈ vec(“Japan”) ? vec(“Tokyo”)。此外，他們發(fā)現(xiàn)詞向量的組合屬性，例如，vec(“Germany”) + vec(“capital”) 接近 vec(“Berlin”)。受這些工作的啟發(fā)，Rubinstein 等人。發(fā)現(xiàn)分布詞表示擅長(zhǎng)預(yù)測(cè)分類(lèi)屬性（例如，狗是一種動(dòng)物），但無(wú)法學(xué)習(xí)屬性（例如，天鵝是白色的）。同樣，古普塔等人表明 word2vec 嵌入隱式編碼實(shí)體的參考屬性。分布式詞向量與簡(jiǎn)單的監(jiān)督模型一起，可以學(xué)習(xí)以合理的準(zhǔn)確度預(yù)測(cè)實(shí)體的數(shù)字和二進(jìn)制屬性。

上下文詞嵌入

大量研究在上下文嵌入中探索和誘導(dǎo)了不同類(lèi)型的知識(shí)。一般來(lái)說(shuō)，有兩種類(lèi)型的知識(shí)：語(yǔ)言知識(shí)和世界知識(shí)。

語(yǔ)言知識(shí)

廣泛的探索任務(wù)旨在調(diào)查 PTM 中的語(yǔ)言知識(shí)。坦尼，劉等人發(fā)現(xiàn) BERT 在許多句法任務(wù)上表現(xiàn)良好，例如詞性標(biāo)注和成分標(biāo)注。然而，相比于簡(jiǎn)單的句法任務(wù)，BERT 在語(yǔ)義和細(xì)粒度句法任務(wù)上還不夠好，此外，Tenney 等人分析了 BERT 層在不同任務(wù)中的作用，發(fā)現(xiàn) BERT 解決任務(wù)的順序與 NLP 管道中的順序相似。此外，BERT 中也證實(shí)了主謂一致和語(yǔ)義角色的知識(shí)。此外，休伊特和曼寧、賈瓦哈爾、金等人提出了幾種從 BERT 中提取依賴(lài)樹(shù)和選區(qū)樹(shù)的方法，證明了 BERT 編碼語(yǔ)法結(jié)構(gòu)的能力。雷夫等人探索了 BERT 內(nèi)部表示的幾何結(jié)構(gòu)并找到了一些證據(jù)：1）語(yǔ)言特征似乎在單獨(dú)的語(yǔ)義和句法子空間中表示； 2）注意力矩陣包含語(yǔ)法表示； 3）BERT 在非常精細(xì)的層面上區(qū)分詞義。

世界知識(shí)

除了語(yǔ)言知識(shí)，PTM 還可以存儲(chǔ)訓(xùn)練數(shù)據(jù)中呈現(xiàn)的世界知識(shí)。探索世界知識(shí)的一種直接方法是使用“填空”完形填空語(yǔ)句查詢(xún) BERT，例如，“但丁出生于 [MASK]”。彼得羅尼等人通過(guò)從多個(gè)知識(shí)源手動(dòng)創(chuàng)建單標(biāo)記完形填空語(yǔ)句（查詢(xún)）來(lái)構(gòu)建 LAMA（語(yǔ)言模型分析）任務(wù)。他們的實(shí)驗(yàn)表明，BERT 包含與傳統(tǒng)信息提取方法競(jìng)爭(zhēng)的世界知識(shí)。由于LAMA的查詢(xún)生成方式簡(jiǎn)單，江等人認(rèn)為 LAMA 只是測(cè)量語(yǔ)言模型知道的下限，并提出更先進(jìn)的方法來(lái)生成更有效的查詢(xún)。盡管 LAMA 的發(fā)現(xiàn)令人驚訝，但它也受到了后續(xù)工作的質(zhì)疑。同樣，一些研究從 BERT 中為下游任務(wù)引入了關(guān)系知識(shí)和常識(shí)知識(shí)。

PTM擴(kuò)展

知識(shí)增強(qiáng)PTM

PTM 通常從通用的大規(guī)模文本語(yǔ)料庫(kù)中學(xué)習(xí)通用語(yǔ)言表示，但缺乏特定領(lǐng)域的知識(shí)。將外部知識(shí)庫(kù)中的領(lǐng)域知識(shí)合并到 PTM 中已被證明是有效的。外部知識(shí)范圍從語(yǔ)言、語(yǔ)義、常識(shí) 、事實(shí)到特定領(lǐng)域的知識(shí)。

一方面，可以在預(yù)訓(xùn)練期間注入外部知識(shí)。早期的研究側(cè)重于聯(lián)合學(xué)習(xí)知識(shí)圖嵌入和詞嵌入。自 BERT 以來(lái)，設(shè)計(jì)了一些輔助預(yù)訓(xùn)練任務(wù)，將外部知識(shí)整合到深度 PTM 中。 LIBERT （基于語(yǔ)言的 BERT）通過(guò)額外的語(yǔ)言約束任務(wù)整合了語(yǔ)言知識(shí)。柯等人整合每個(gè)詞的情感極性，將 MLM 擴(kuò)展到 Label-Aware MLM (LA-MLM)。因此，他們提出的模型 SentiLR 在多個(gè)句子和方面級(jí)別的情感分類(lèi)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能。萊文等人提出了 SenseBERT，它經(jīng)過(guò)預(yù)訓(xùn)練，不僅可以預(yù)測(cè)被屏蔽的標(biāo)記，還可以預(yù)測(cè)它們?cè)?WordNet 中的超意義。

ERNIE(THU)將在知識(shí)圖譜上預(yù)訓(xùn)練的實(shí)體嵌入與文本中相應(yīng)的實(shí)體提及相結(jié)合，以增強(qiáng)文本表示。同樣，KnowBERT與實(shí)體鏈接模型聯(lián)合訓(xùn)練 BERT，以端到端的方式合并實(shí)體表示。王等人提出了KEPLER，它聯(lián)合優(yōu)化了知識(shí)嵌入和語(yǔ)言建模目標(biāo)。這些工作通過(guò)實(shí)體嵌入注入知識(shí)圖的結(jié)構(gòu)信息。相比之下，K-BERT顯式地將從 KG 中提取的相關(guān)三元組注入到句子中，以獲得 BERT 的擴(kuò)展樹(shù)形輸入。此外，熊等人采用實(shí)體替換識(shí)別來(lái)鼓勵(lì)模型更加了解事實(shí)知識(shí)。然而，大部分這些方法，都在注入知識(shí)時(shí)修改了模型參數(shù)，在注入多種知識(shí)時(shí)可能會(huì)遭受災(zāi)難性的遺忘。為了解決這個(gè)問(wèn)題，K-Adapter 通過(guò)針對(duì)不同的預(yù)訓(xùn)練任務(wù)獨(dú)立訓(xùn)練不同的適配器來(lái)注入多種知識(shí)，從而實(shí)現(xiàn)持續(xù)的知識(shí)注入。

另一方面，人們可以將外部知識(shí)整合到預(yù)先訓(xùn)練的模型中，而無(wú)需從頭開(kāi)始重新訓(xùn)練。例如，K-BERT允許在對(duì)下游任務(wù)進(jìn)行微調(diào)期間注入事實(shí)知識(shí)。關(guān)等人使用常識(shí)知識(shí)庫(kù)、ConceptNet 和 ATOMIC 來(lái)增強(qiáng) GPT-2 以生成故事。楊等人提出了一種知識(shí)-文本融合模型，用于獲取機(jī)器閱讀理解的相關(guān)語(yǔ)言和事實(shí)知識(shí)。

此外，Logan IV 等人和 Hayashi 等人分別將語(yǔ)言模型擴(kuò)展到知識(shí)圖語(yǔ)言模型（KGLM）和潛在關(guān)系語(yǔ)言模型（LRLM），兩者都允許以知識(shí)圖為條件進(jìn)行預(yù)測(cè)。這些新穎的 KG 條件語(yǔ)言模型顯示出預(yù)訓(xùn)練的潛力。

多語(yǔ)種與特定語(yǔ)種的預(yù)訓(xùn)練模型

多語(yǔ)種

學(xué)習(xí)跨語(yǔ)言共享的多語(yǔ)言文本表示在許多跨語(yǔ)言 NLP 任務(wù)中起著重要作用。

跨語(yǔ)種語(yǔ)言理解

大多數(shù)早期工作都集中在學(xué)習(xí)多語(yǔ)言詞嵌入，它在單個(gè)語(yǔ)義空間中表示來(lái)自多種語(yǔ)言的文本。然而，這些方法通常需要語(yǔ)言之間的（弱）對(duì)齊。

多語(yǔ)言 BERT (mBERT) 由 MLM 預(yù)訓(xùn)練，使用來(lái)自前 104 種語(yǔ)言的維基百科文本的共享詞匯和權(quán)重。每個(gè)訓(xùn)練樣本都是一個(gè)單語(yǔ)文檔，沒(méi)有專(zhuān)門(mén)設(shè)計(jì)的跨語(yǔ)言目標(biāo)，也沒(méi)有任何跨語(yǔ)言數(shù)據(jù)。即便如此，mBERT 在跨語(yǔ)言泛化方面的表現(xiàn)還是出奇地好。凱等人表明語(yǔ)言之間的詞匯重疊在跨語(yǔ)言成功中的作用可以忽略不計(jì)。

XLM通過(guò)合并跨語(yǔ)言任務(wù)、翻譯語(yǔ)言建模 (TLM) 改進(jìn)了 mBERT，該任務(wù)在并行雙語(yǔ)句子對(duì)的串聯(lián)上執(zhí)行 MLM。 Unicoder進(jìn)一步提出了三個(gè)新的跨語(yǔ)言預(yù)訓(xùn)練任務(wù)，包括跨語(yǔ)言單詞恢復(fù)、跨語(yǔ)言釋義分類(lèi)和跨語(yǔ)言掩碼語(yǔ)言模型（XMLM）。

XLM-RoBERTa (XLM-R)是一個(gè)在超大的數(shù)據(jù)上預(yù)訓(xùn)練的多語(yǔ)種編碼器，數(shù)據(jù)為100 種不同語(yǔ)言的 2.5TB 清洗過(guò)的CommonCrawl數(shù)據(jù)。XLM-RoBERTa 的預(yù)訓(xùn)練任務(wù)僅是單語(yǔ) MLM。 XLM-R 在多個(gè)跨語(yǔ)言基準(zhǔn)測(cè)試中取得了最先進(jìn)的結(jié)果，包括 XNLI、MLQA 和 NER。

跨語(yǔ)種語(yǔ)言生成

多語(yǔ)言生成是一種從輸入語(yǔ)言中生成不同語(yǔ)言文本的任務(wù)，例如機(jī)器翻譯和跨語(yǔ)言抽象摘要。

與用于多語(yǔ)言分類(lèi)的 PTM 不同，用于多語(yǔ)言生成的 PTM 通常需要對(duì)編碼器和解碼器進(jìn)行聯(lián)合預(yù)訓(xùn)練，而不是只關(guān)注編碼器。

MASS使用單語(yǔ)Seq2Seq MLM在多種語(yǔ)言上預(yù)訓(xùn)練了Seq2Seq模型，并在無(wú)監(jiān)督NMT上取得了顯著改進(jìn)。XNLG執(zhí)行跨語(yǔ)言自然語(yǔ)言生成的兩階段預(yù)訓(xùn)練。第一階段使用單語(yǔ) MLM 和跨語(yǔ)言 MLM (XMLM) 任務(wù)預(yù)訓(xùn)練編碼器。第二階段通過(guò)使用單語(yǔ) DAE 和跨語(yǔ)言自動(dòng)編碼 (XAE) 任務(wù)預(yù)訓(xùn)練解碼器，同時(shí)保持編碼器固定。實(shí)驗(yàn)表明 XNLG 在跨語(yǔ)言問(wèn)題生成和跨語(yǔ)言抽象摘要方面的優(yōu)勢(shì)。 mBART是 BART 的多語(yǔ)言擴(kuò)展，在跨 25 種語(yǔ)言的大規(guī)模單語(yǔ)語(yǔ)料庫(kù)上與 Seq2Seq 去噪自動(dòng)編碼器 (DAE) 任務(wù)聯(lián)合預(yù)訓(xùn)練編碼器和解碼器。實(shí)驗(yàn)表明，mBART 在各種機(jī)器翻譯 (MT) 任務(wù)中產(chǎn)生了顯著的性能提升。

特定語(yǔ)種

盡管多語(yǔ)言 PTM 在多種語(yǔ)言上表現(xiàn)良好，但最近的工作表明，在單一語(yǔ)言上訓(xùn)練的 PTM 明顯優(yōu)于多語(yǔ)言結(jié)果。

對(duì)于沒(méi)有明確詞邊界的中文，建模更大的粒度和多粒度詞表示已經(jīng)取得了巨大的成功。 Kuratov 和 Arkhipov 使用遷移學(xué)習(xí)技術(shù)將多語(yǔ)言 PTM 適配為俄語(yǔ)的單語(yǔ) PTM。此外，還針對(duì)不同語(yǔ)言發(fā)布了一些單語(yǔ) PTM，例如法語(yǔ)的 CamemBERT和 FlauBERT，芬蘭的 FinBERT，荷蘭語(yǔ)的 BERTje 和 RobBERT ，阿拉伯語(yǔ)的AraBERT。

多模態(tài)PTM

觀察 PTM 在許多 NLP 任務(wù)中的成功，一些研究集中在獲得 PTM 的跨模態(tài)版本。這些模型中的絕大多數(shù)是為一般的視覺(jué)和語(yǔ)言特征編碼而設(shè)計(jì)的。并且這些模型在一些龐大的跨模態(tài)數(shù)據(jù)語(yǔ)料庫(kù)上進(jìn)行了預(yù)訓(xùn)練，例如帶有口語(yǔ)的視頻或帶有字幕的圖像，并結(jié)合了擴(kuò)展的預(yù)訓(xùn)練任務(wù)以充分利用多模態(tài)特征。通常，基于視覺(jué)的 MLM、屏蔽視覺(jué)特征建模和視覺(jué)語(yǔ)言匹配等任務(wù)廣泛用于多模態(tài)預(yù)訓(xùn)練，例如 VideoBERT、VisualBERT、ViLBERT。

視頻-文本

VideoBERT 和 CBT是聯(lián)合視頻和文本模型。為了獲得用于預(yù)訓(xùn)練的視覺(jué)和語(yǔ)言標(biāo)記序列，視頻分別由基于 CNN 的編碼器和現(xiàn)成的語(yǔ)音識(shí)別技術(shù)進(jìn)行預(yù)處理。單個(gè) Transformer 編碼器在處理后的數(shù)據(jù)上接受訓(xùn)練，以學(xué)習(xí)視頻字幕等下游任務(wù)的視覺(jué)語(yǔ)言表示。此外，UniViLM建議引入生成任務(wù)以進(jìn)一步預(yù)訓(xùn)練在下游任務(wù)中使用的解碼器。

圖像-文本

除了用于視頻語(yǔ)言預(yù)訓(xùn)練的方法外，還有一些作品在圖像文本對(duì)上引入了 PTM，旨在適應(yīng)視覺(jué)問(wèn)答 (VQA) 和視覺(jué)常識(shí)推理 (VCR) 等下游任務(wù)。幾個(gè)提議的模型采用兩個(gè)獨(dú)立的編碼器進(jìn)行圖像和文本表示，例如 ViLBERT和 LXMERT。而其他方法如 VisualBERT、B2T2、VLBERT、Unicoder-VL和 UNITER則提出了單流統(tǒng)一 Transformer。盡管這些模型架構(gòu)不同，但在這些方法中引入了類(lèi)似的預(yù)訓(xùn)練任務(wù)，例如 MLM 和圖像文本匹配。為了更好地利用視覺(jué)元素，在由預(yù)訓(xùn)練的 Transformer 編碼之前，通過(guò)應(yīng)用 RoI 或邊界框檢索技術(shù)將圖像轉(zhuǎn)換為區(qū)域序列。

音頻-文本

此外，有幾種方法探索了 PTM 在音頻-文本對(duì)上的可能性，例如 SpeechBERT。這項(xiàng)工作試圖通過(guò)使用單個(gè) Transformer 編碼器對(duì)音頻和文本進(jìn)行編碼來(lái)構(gòu)建端到端語(yǔ)音問(wèn)答 (SQA) 模型，該編碼器在語(yǔ)音和文本語(yǔ)料庫(kù)上使用 MLM 進(jìn)行了預(yù)訓(xùn)練，并在問(wèn)答上進(jìn)行了微調(diào)。

指定域與指定任務(wù)PTM

大多數(shù)公開(kāi)可用的 PTM 都是在通用領(lǐng)域語(yǔ)料庫(kù)（例如維基百科）上進(jìn)行訓(xùn)練的，這將它們的應(yīng)用程序限制在特定領(lǐng)域或任務(wù)上。最近，一些研究提出了在專(zhuān)業(yè)語(yǔ)料庫(kù)上訓(xùn)練的 PTM，例如 BioBERT 用于生物醫(yī)學(xué)文本，SciBERT用于科學(xué)文本，ClinicalBERT用于臨床文本。

除了對(duì)特定領(lǐng)域的 PTM 進(jìn)行預(yù)訓(xùn)練外，一些工作還嘗試使可用的預(yù)訓(xùn)練模型適應(yīng)目標(biāo)應(yīng)用，例如生物醫(yī)學(xué)實(shí)體規(guī)范化、專(zhuān)利分類(lèi) 、進(jìn)度筆記分類(lèi)和關(guān)鍵字提取。

還提出了一些面向任務(wù)的預(yù)訓(xùn)練任務(wù)，例如用于情感分析的SentiLR 中的情感標(biāo)簽感知 MLM、用于文本摘要的 Gap Sentence Generation (GSG)和用于不流暢檢測(cè)的噪聲詞檢測(cè)。

模型壓縮

由于 PTM 通常至少包含數(shù)億個(gè)參數(shù)，因此它們很難部署在現(xiàn)實(shí)生活應(yīng)用中的在線(xiàn)服務(wù)和資源受限的設(shè)備上。模型壓縮是一種減小模型大小和提高計(jì)算效率的潛在方法。

有五種壓縮 PTM的方法：(1) 模型剪枝，刪除不太重要的參數(shù)，(2) 權(quán)重量化，使用更少的比特來(lái)表示參數(shù)，(3) 相似模型單元之間的參數(shù)共享, (4) 知識(shí)蒸餾，它訓(xùn)練一個(gè)較小的學(xué)生模型，該模型從原始模型的中間輸出中學(xué)習(xí)；(5) 模塊替換，用更緊湊的替代品替換原始 PTM 的模塊。

模型剪枝

模型剪枝是指去除部分神經(jīng)網(wǎng)絡(luò)（例如權(quán)重、神經(jīng)元、層、通道、注意力頭），從而達(dá)到減小模型尺寸和加快推理時(shí)間的效果。

戈登等人探討了剪枝的時(shí)間（例如，在預(yù)訓(xùn)練期間，下游微調(diào)之后的修剪）和剪枝制度。米歇爾等人和 Voita 等人試圖修剪transformer中的整個(gè)自注意力頭。

量化

量化是指將精度較高的參數(shù)壓縮到較低的精度。沉等人的作品和 Zafrir 等人只關(guān)注這個(gè)領(lǐng)域。請(qǐng)注意，量化通常需要兼容的硬件。

參數(shù)共享

另一種眾所周知的減少參數(shù)數(shù)量的方法是參數(shù)共享，它廣泛用于 CNN、RNN 和 Transformer 。 ALBERT使用跨層參數(shù)共享和分解嵌入?yún)?shù)化來(lái)減少 PTM 的參數(shù)。雖然參數(shù)數(shù)量大大減少，但 ALBERT 的訓(xùn)練和推理時(shí)間甚至比標(biāo)準(zhǔn) BERT 還要長(zhǎng)。

通常，參數(shù)共享不會(huì)提高推理階段的計(jì)算效率。

知識(shí)蒸餾

知識(shí)蒸餾 (KD) 是一種壓縮技術(shù)，其中訓(xùn)練稱(chēng)為學(xué)生模型的小模型來(lái)重現(xiàn)稱(chēng)為教師模型的大型模型的行為。在這里，教師模型可以是許多模型的集合，并且通常經(jīng)過(guò)良好的預(yù)訓(xùn)練。與模型壓縮不同，蒸餾技術(shù)通過(guò)一些優(yōu)化目標(biāo)從固定的教師模型中學(xué)習(xí)一個(gè)小的學(xué)生模型，而壓縮技術(shù)旨在搜索更稀疏的架構(gòu)。

一般來(lái)說(shuō)，蒸餾機(jī)制可以分為三種類(lèi)型：（1）從軟目標(biāo)概率蒸餾，（2）從其他知識(shí)蒸餾，以及（3）蒸餾到其他結(jié)構(gòu)：

從軟目標(biāo)概率蒸餾。Bucilua 等人表明讓學(xué)生接近教師模型可以將知識(shí)從教師轉(zhuǎn)移到學(xué)生。一種常見(jiàn)的方法是逼近教師模型的對(duì)數(shù)。 DistilBERT在教師的軟目標(biāo)概率上使用蒸餾損失訓(xùn)練學(xué)生模型：

[mathcal{L}_{KD-CE} = sum_i t_i cdot log (s_i)
]

(t_i, s_i)分別表示老師和學(xué)生評(píng)估的概率。

從軟目標(biāo)概率中提取也可用于特定于任務(wù)的模型，例如信息檢索和序列標(biāo)記。

從其他知識(shí)蒸餾。軟目標(biāo)概率的提煉將教師模型視為一個(gè)黑匣子，只關(guān)注其輸出。分解教師模型，提煉更多的知識(shí)可以為學(xué)生模型帶來(lái)改進(jìn)。

TinyBERT使用嵌入輸出、隱藏狀態(tài)和自注意力分布執(zhí)行層到層蒸餾。 MobileBERT還使用軟目標(biāo)概率、隱藏狀態(tài)和自注意力分布執(zhí)行層到層蒸餾。 MiniLM從教師模型中提取自注意力分布和自注意力值關(guān)系。

此外，其他模型通過(guò)多種方法提煉知識(shí)。孫等人介紹了一種“耐心”的師生機(jī)制，Liu 等人利用 KD 來(lái)改進(jìn)預(yù)訓(xùn)練的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)。

蒸餾成其他結(jié)構(gòu)。一般來(lái)說(shuō)，學(xué)生模型除了較小的層尺寸和較小的隱藏尺寸，結(jié)構(gòu)與教師模型相同。然而，不僅減少參數(shù)而且簡(jiǎn)化從 Transformer 到 RNN或 CNN的模型結(jié)構(gòu)可以降低計(jì)算復(fù)雜度。

模塊替換

模塊替換是一種有趣且簡(jiǎn)單的減小模型尺寸的方法，它用更緊湊的替代品替換了原始 PTM 的大模塊。徐等人提出了忒修斯壓縮，由一個(gè)名為“忒修斯之船”的著名思想實(shí)驗(yàn)激發(fā)，該實(shí)驗(yàn)逐漸將源模型中的模塊替換為更少的參數(shù)。與KD不同，忒修斯壓縮只需要一個(gè)特定任務(wù)的損失函數(shù)。壓縮過(guò)的模型，BERT-of-Theseus，比之前快1.94倍，表現(xiàn)為原來(lái)的98%。

提前退出

另一種減少推理時(shí)間的有效方法是提前退出，它允許模型在出口處提前退出，而不是通過(guò)整個(gè)模型。要執(zhí)行的層數(shù)取決于輸入。

提前退出的想法首先應(yīng)用于計(jì)算機(jī)視覺(jué)，例如 BranchyNet和 Shallow-Deep Network。隨著深度預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn)，最近采用提前退出來(lái)加速基于 Transformer 的模型。作為一項(xiàng)先驅(qū)工作，Universal Transformer使用自適應(yīng)計(jì)算時(shí)間（ACT）機(jī)制來(lái)實(shí)現(xiàn)輸入自適應(yīng)計(jì)算。埃爾巴亞德等人。提出了用于機(jī)器翻譯的深度自適應(yīng)變換器，它學(xué)習(xí)預(yù)測(cè)特定序列或標(biāo)記需要多少解碼層。 Liu 等人沒(méi)有學(xué)習(xí)需要多少計(jì)算量。分別提出了基于互信息（MI）和重建損失的兩種估計(jì)方法，以直接為每個(gè)樣本分配適當(dāng)?shù)挠?jì)算。

最近，DeeBERT、RightTool、FastBERT、ELBERT、PABEE被提出來(lái)減少Transformer編碼器的計(jì)算。他們的方法通常包含兩個(gè)步驟：（a）訓(xùn)練注入的出口匝道（又名內(nèi)部分類(lèi)器），以及（b）設(shè)計(jì)退出策略來(lái)決定是否退出。

通常，訓(xùn)練目標(biāo)是所有出口匝道交叉熵?fù)p失的加權(quán)和

[mathcal{L}_{early-exit} = sum_{i=1}^M w_i cdot mathcal{L}_i
]

其中(M)是出口匝道的數(shù)量。 FastBERT 采用自蒸餾損失，用最終分類(lèi)器生成的軟目標(biāo)訓(xùn)練每個(gè)出口。廖等人通過(guò)考慮過(guò)去和未來(lái)的信息來(lái)改進(jìn)目標(biāo)。特別是，出口匝道被訓(xùn)練為聚合過(guò)去層的隱藏狀態(tài)，并近似于未來(lái)層的隱藏狀態(tài)。此外，Sun 等人從集成學(xué)習(xí)和互信息的角度開(kāi)發(fā)了一個(gè)新的訓(xùn)練目標(biāo)，通過(guò)該目標(biāo)將出口作為一個(gè)集成進(jìn)行訓(xùn)練。他們提出的目標(biāo)不僅優(yōu)化了每個(gè)出口匝道的準(zhǔn)確性，還優(yōu)化了出口匝道的多樣性。

在推理過(guò)程中，需要一個(gè)退出策略來(lái)決定是提前退出還是繼續(xù)下一層。 DeeBERT、FastBERT、Liao 等人采用預(yù)測(cè)分布的熵作為現(xiàn)有標(biāo)準(zhǔn)。同樣，RightTool使用最大的 softmax 分?jǐn)?shù)來(lái)決定是否退出。 PABEE 開(kāi)發(fā)了一種基于耐心的策略，當(dāng)連續(xù)層的預(yù)測(cè)不變時(shí)，允許樣本退出。此外，Sun 等人采用基于投票的策略，讓所有過(guò)去的出口匝道投票決定是否退出。此外，李等人提出了一種基于窗口的不確定性作為退出標(biāo)準(zhǔn)，以實(shí)現(xiàn)序列標(biāo)記任務(wù)的字符級(jí)提前退出（TokEE）。

使 PTM 適應(yīng)下游任務(wù)

盡管 PTM 從大型語(yǔ)料庫(kù)中捕獲通用語(yǔ)言知識(shí)，但如何有效地將其知識(shí)應(yīng)用于下游任務(wù)仍然是一個(gè)關(guān)鍵問(wèn)題。

遷移學(xué)習(xí)

遷移學(xué)習(xí)是將源任務(wù)（或領(lǐng)域）的知識(shí)調(diào)整到目標(biāo)任務(wù)（或領(lǐng)域）。

NLP中的遷移學(xué)習(xí)有很多種，如領(lǐng)域適應(yīng)、跨語(yǔ)言學(xué)習(xí)、多任務(wù)學(xué)習(xí)等。使 PTM 適應(yīng)下游任務(wù)是順序遷移學(xué)習(xí)任務(wù)，其中任務(wù)是順序?qū)W習(xí)的，目標(biāo)任務(wù)有標(biāo)記數(shù)據(jù)。

如何遷移

要將 PTM 的知識(shí)轉(zhuǎn)移到下游 NLP 任務(wù)，我們需要考慮以下問(wèn)題：

選擇合適的預(yù)訓(xùn)練任務(wù)、結(jié)構(gòu)和語(yǔ)料

不同的 PTM 通常對(duì)同一個(gè)下游任務(wù)有不同的影響，因?yàn)檫@些 PTM 是用各種預(yù)訓(xùn)練任務(wù)、模型架構(gòu)和語(yǔ)料庫(kù)進(jìn)行訓(xùn)練的。

目前，語(yǔ)言模型是最流行的預(yù)訓(xùn)練任務(wù)，可以更有效地解決范圍廣泛的 NLP 問(wèn)題。然而，不同的預(yù)訓(xùn)練任務(wù)有自己的偏差，對(duì)不同的任務(wù)產(chǎn)生不同的效果。例如，NSP 任務(wù)使 PTM 理解兩個(gè)句子之間的關(guān)系。因此，PTM 可以使諸如問(wèn)答 (QA) 和自然語(yǔ)言推理 (NLI) 等下游任務(wù)受益。
PTM 的架構(gòu)對(duì)于下游任務(wù)也很重要。例如，盡管 BERT 有助于大多數(shù)自然語(yǔ)言理解任務(wù)，但生成語(yǔ)言卻很困難。
下游任務(wù)的數(shù)據(jù)分布應(yīng)該近似于 PTM。目前，有大量現(xiàn)成的 PTM，它們可以方便地用于各種特定領(lǐng)域或特定語(yǔ)言的下游任務(wù)。

因此，給定一個(gè)目標(biāo)任務(wù)，選擇經(jīng)過(guò)適當(dāng)?shù)念A(yù)訓(xùn)練任務(wù)、架構(gòu)和語(yǔ)料庫(kù)訓(xùn)練的 PTM 總是一個(gè)很好的解決方案。

選擇合適的網(wǎng)絡(luò)層

給出一個(gè)預(yù)訓(xùn)練深度網(wǎng)絡(luò)，不同的層應(yīng)該捕捉到不同類(lèi)型的信息，例如位置標(biāo)簽、語(yǔ)法規(guī)則、長(zhǎng)距離依賴(lài)、語(yǔ)義角色、互指。對(duì)于基于RNN的模型來(lái)說(shuō)，Belinkov 和 Melamud表示，一個(gè)多層LSTM編碼器的不同層學(xué)習(xí)得到的表示對(duì)不同任務(wù)的作用不同。對(duì)于基于transformer的預(yù)訓(xùn)練模型，Tenny發(fā)現(xiàn)BERT表達(dá)傳統(tǒng)NLP的各個(gè)步驟：基礎(chǔ)的句法信息在網(wǎng)絡(luò)的早期表現(xiàn)出來(lái)，而高級(jí)的語(yǔ)義信息在高層出現(xiàn)。

用(H^{(l)}(1 leq l leq L))表示共(L)層的預(yù)訓(xùn)練模型第(l)層網(wǎng)絡(luò)的表示，(g(cdot))代表目標(biāo)任務(wù)的特定模型。

有三種方式選擇表達(dá)：

只選擇詞嵌入：一種方法是只選擇預(yù)先訓(xùn)練好的靜態(tài)嵌入，而模型的其余部分仍然需要為新的目標(biāo)任務(wù)從頭開(kāi)始訓(xùn)練。

它們無(wú)法捕獲可能更有用的更高級(jí)別的信息。詞嵌入僅用于捕獲詞的語(yǔ)義含義，但我們還需要理解詞義等更高層次的概念。

頂層：最簡(jiǎn)單有效的方法是將頂層的表示輸入特定任務(wù)的模型 (g(H(L) ))。

所有層：一種更靈活的方法是通過(guò)軟概率自動(dòng)選擇最佳層，如ELMO：

[r_t = gamma sum_{l=1}^L alpha_l h_t^{(l)}
]

其中(alpha_l)是第(l)層的softmax歸一化權(quán)重，(gamma)是對(duì)預(yù)訓(xùn)練模型輸出的縮放系數(shù)。該混合表示傳給模型(g(r_l))

是否要進(jìn)行微調(diào)

目前，模型遷移有兩種常見(jiàn)的方式：特征提取（預(yù)訓(xùn)練參數(shù)被凍結(jié)）和微調(diào)（預(yù)訓(xùn)練參數(shù)被解凍和微調(diào)）。

在特征提取方式中，預(yù)訓(xùn)練的模型被視為現(xiàn)成的特征提取器。此外，暴露內(nèi)部層很重要，因?yàn)樗鼈兺ǔ＞幋a最可轉(zhuǎn)移的表示。

盡管這兩種方式都可以顯著受益于大多數(shù) NLP 任務(wù)，但特征提取方式需要更復(fù)雜的特定于任務(wù)的架構(gòu)。因此，對(duì)于許多不同的下游任務(wù)，微調(diào)方式通常比特征提取方式更通用和方便。

微調(diào)策略

隨著 PTM 深度的增加，它們捕獲的表示使得下游任務(wù)變得更加容易。因此，整個(gè)模型的任務(wù)特定層很簡(jiǎn)單。自 ULMFit 和 BERT 以來(lái)，fine-tuning 成為 PTMs 的主要適應(yīng)方法。然而，微調(diào)的過(guò)程通常很脆弱：即使具有相同的超參數(shù)值，不同的隨機(jī)種子也會(huì)導(dǎo)致截然不同的結(jié)果。

除了標(biāo)準(zhǔn)的微調(diào)之外，還有一些有用的微調(diào)策略。

兩階段微調(diào)

另一種解決方案是兩階段轉(zhuǎn)移，它在預(yù)訓(xùn)練和微調(diào)之間引入了一個(gè)中間階段。在第一階段，PTM 被轉(zhuǎn)換成一個(gè)由中間任務(wù)或語(yǔ)料庫(kù)微調(diào)的模型。在第二階段，遷移的模型針對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)。孫等人表明，對(duì)相關(guān)領(lǐng)域語(yǔ)料庫(kù)的“進(jìn)一步預(yù)訓(xùn)練”可以進(jìn)一步提高 BERT 的能力，并在八個(gè)廣泛研究的文本分類(lèi)數(shù)據(jù)集上取得了最先進(jìn)的性能。彭等人和 Garg 等人引入了與目標(biāo)任務(wù)相關(guān)的中間監(jiān)督任務(wù)，為BERT、GPT和ELMo帶來(lái)了很大的改進(jìn)。李等人還對(duì)故事結(jié)局預(yù)測(cè)使用了兩階段轉(zhuǎn)移。提出的 TransBERT（可轉(zhuǎn)移 BERT）不僅可以從大規(guī)模未標(biāo)記數(shù)據(jù)中轉(zhuǎn)移通用語(yǔ)言知識(shí)，還可以從各種語(yǔ)義相關(guān)的監(jiān)督任務(wù)中轉(zhuǎn)移特定種類(lèi)的知識(shí)。

多任務(wù)微調(diào)

劉等人在多任務(wù)學(xué)習(xí)框架下對(duì)BERT進(jìn)行了微調(diào)，這表明多任務(wù)學(xué)習(xí)和預(yù)訓(xùn)練是互補(bǔ)的技術(shù)。

使用額外的適配模塊進(jìn)行微調(diào)

微調(diào)的主要缺點(diǎn)是參數(shù)效率低下：每個(gè)下游任務(wù)都有自己的微調(diào)參數(shù)。因此，更好的解決方案是在原始參數(shù)固定的情況下，在 PTM 中注入一些可微調(diào)的適配模塊。

Stickland 和 Murray 為單個(gè)共享 BERT 模型配備了小的附加任務(wù)特定的適應(yīng)模塊、投影注意層（PAL）。與 PAL 共享的 BERT 與 GLUE 基準(zhǔn)測(cè)試中單獨(dú)微調(diào)的模型相匹配，參數(shù)減少了大約 7 倍。同樣，Houlsby 等人通過(guò)添加適配器模塊修改了預(yù)訓(xùn)練 BERT 的架構(gòu)。適配器模塊產(chǎn)生緊湊且可擴(kuò)展的模型；他們只為每個(gè)任務(wù)添加幾個(gè)可訓(xùn)練的參數(shù)，并且可以在不重新訪(fǎng)問(wèn)以前的任務(wù)的情況下添加新任務(wù)。原始網(wǎng)絡(luò)的參數(shù)保持固定，產(chǎn)生高度的參數(shù)共享。

其他

受廣泛使用的集成模型的成功啟發(fā)，Xu 等人通過(guò)兩種有效機(jī)制改進(jìn)了BERT的微調(diào)：自集成和自蒸餾，可以在不利用外部資源或顯著降低訓(xùn)練效率的情況下提高BERT在下游任務(wù)上的性能。他們?cè)趩蝹€(gè)訓(xùn)練過(guò)程中集成了集成和蒸餾。教師模型是一個(gè)集成模型，通過(guò)在之前的時(shí)間步驟中對(duì)幾個(gè)學(xué)生模型進(jìn)行參數(shù)平均。

逐漸解凍也是從頂層開(kāi)始逐漸解凍 PTM 層的有效方法，不是同時(shí)微調(diào)所有層。 Chronopoulou 等提出了一種更簡(jiǎn)單的解凍方法，順序解凍，它首先只微調(diào)隨機(jī)初始化的任務(wù)特定層，然后解凍PTM的隱藏層，最后解凍嵌入層。

李和Eisner使用可變信息平靜模塊，在只保持對(duì)目標(biāo)任務(wù)有用信息的情況下，壓縮了ELMo的詞嵌入。

總的來(lái)說(shuō)，以上工作表現(xiàn)了PTM的表現(xiàn)可以通過(guò)更好的微調(diào)策略來(lái)提高。

基于提示的調(diào)優(yōu)

縮小預(yù)訓(xùn)練和微調(diào)之間的差距可以進(jìn)一步提高 PTM 在下游任務(wù)上的性能。另一種方法是通過(guò)設(shè)計(jì)適當(dāng)?shù)奶崾緦⑾掠稳蝿?wù)重新構(gòu)成 MLM 任務(wù)。基于提示的方法在少樣本設(shè)置、零樣本設(shè)置甚至全監(jiān)督設(shè)置中顯示出強(qiáng)大的力量。當(dāng)前的基于提示的方法可以根據(jù)提示是離散的還是連續(xù)的分為兩個(gè)分支。

離散提示

離散提示是要插入到輸入文本中的一系列單詞，它有助于 PTM 更好地對(duì)下游任務(wù)進(jìn)行建模。孫等人通過(guò)將基于方面的情感分析 (ABSA) 任務(wù)轉(zhuǎn)換為句子對(duì)分類(lèi)任務(wù)來(lái)構(gòu)建輔助句子，但其模型參數(shù)仍需要微調(diào)。 GPT-3提出了上下文學(xué)習(xí)，將原始輸入與任務(wù)描述和一些示例連接起來(lái)。通過(guò)這種方式，GPT-3 可以在不調(diào)整參數(shù)的情況下實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的性能。此外，Petroni 等人發(fā)現(xiàn)在適當(dāng)?shù)氖謩?dòng)提示下，BERT 可以在沒(méi)有訓(xùn)練的情況下在實(shí)體預(yù)測(cè)任務(wù)（LAMA）上表現(xiàn)良好。除了 LAMA，Schick 和 Schutze提出了 PET，它為各種文本分類(lèi)和蘊(yùn)含任務(wù)設(shè)計(jì)了離散提示。然而，手動(dòng)設(shè)計(jì)提示是一種次優(yōu)化，因此，許多方法都試圖自動(dòng)生成提示，LPAQA使用了兩種方法，即基于挖掘的生成和基于釋義的生成，以找到表達(dá)特定關(guān)系的最佳模式。AutoPrompt通過(guò)梯度引導(dǎo)搜索找到最佳提示。 LM-BFF采用 T5自動(dòng)生成提示。

連續(xù)提示

另一種選擇不是尋找最佳的具體提示，而是直接在連續(xù)空間中優(yōu)化提示，即提示向量不一定是 PTM 的詞類(lèi)型嵌入。優(yōu)化的連續(xù)提示與詞類(lèi)型嵌入連接，然后輸入 PTM。秦和艾斯納和鐘等人發(fā)現(xiàn)優(yōu)化的連續(xù)提示在關(guān)系任務(wù)上可以勝過(guò)具體提示（包括手動(dòng)、挖掘（LPAQA）和梯度搜索（AutoPrompt提示）。WARP在輸入序列之前、之間和之后插入可訓(xùn)練的連續(xù)提示標(biāo)記，同時(shí)保持 PTM 的參數(shù)固定，從而在 GLUE 基準(zhǔn)測(cè)試中獲得可觀的性能。Prefix-Tuning插入連續(xù)的提示作為表格-文字生成任務(wù)中的GPT-2或總結(jié)任務(wù)中的BART的輸入前綴。Prefix-Tuning作為一種高效調(diào)參策略，在全監(jiān)督設(shè)置中得到了相當(dāng)有競(jìng)爭(zhēng)力的表現(xiàn)，并在少鏡頭設(shè)置中優(yōu)于模型微調(diào)。此外，P-Tuning 表明，在連續(xù)提示的情況下，GPT 在自然語(yǔ)言理解 (NLU) 任務(wù)上也可以達(dá)到與類(lèi)似大小的 BERT 相當(dāng)甚至更好的性能。最近，萊斯特等人表明，提示微調(diào)隨著規(guī)模的擴(kuò)大而更具競(jìng)爭(zhēng)力。當(dāng) PTM 超過(guò)數(shù)十億個(gè)參數(shù)時(shí)，模型微調(diào)和提示微調(diào)之間的差距可以縮小，這使得基于提示的調(diào)優(yōu)成為高效服務(wù)大規(guī)模 PTM 的一種非常有前景的方法。

應(yīng)用

在本節(jié)中，我們總結(jié)了 PTM 在幾個(gè)經(jīng)典 NLP 任務(wù)中的一些應(yīng)用。

一般評(píng)價(jià)基準(zhǔn)

NLP 社區(qū)有一個(gè)基本問(wèn)題，即我們?nèi)绾我钥杀容^的指標(biāo)評(píng)估 PTM。因此，大規(guī)模基準(zhǔn)測(cè)試是必要的。

通用語(yǔ)言理解評(píng)估 (GLUE) 基準(zhǔn)是九個(gè)自然語(yǔ)言理解任務(wù)的集合，包括單句分類(lèi)任務(wù)（CoLA 和 SST-2）、成對(duì)文本分類(lèi)任務(wù)（MNLI、RTE、WNLI、QQP 和MRPC)、文本相似性任務(wù) (STSB) 和相關(guān)排序任務(wù) (QNLI)。 GLUE 基準(zhǔn)是為評(píng)估模型的穩(wěn)健性和泛化而精心設(shè)計(jì)的。 GLUE 不提供測(cè)試集的標(biāo)簽，而是設(shè)置評(píng)估服務(wù)器。

然而，由于近年來(lái)的進(jìn)步極大地侵蝕了 GLUE 基準(zhǔn)的凈空，因此提出了一個(gè)名為 SuperGLUE的新基準(zhǔn)。與GLUE相比，SuperGLUE具有更加挑戰(zhàn)性的任務(wù)和更多樣化的任務(wù)格式。

問(wèn)答

問(wèn)答（QA），或狹義的機(jī)器閱讀理解（MRC）概念，是 NLP 社區(qū)的重要應(yīng)用。從易到難，QA 任務(wù)分為三種類(lèi)型：?jiǎn)屋喅槿∈?QA (SQuAD) 、多輪生成式 QA (CoQA) 和多跳 QA (HotpotQA) 。

BERT創(chuàng)造性地將抽取式QA轉(zhuǎn)換為跨度預(yù)測(cè)任務(wù)，包括預(yù)測(cè)起始跨度標(biāo)簽和結(jié)束跨度標(biāo)簽。之后，預(yù)訓(xùn)練模型作為預(yù)測(cè)跨度的編碼器，一直有很好的表現(xiàn)。對(duì)于抽取式QA，張等人提出了一個(gè)回顧閱讀器結(jié)構(gòu)并用預(yù)訓(xùn)練模型初始化編碼器。對(duì)于多輪對(duì)話(huà)來(lái)說(shuō)，Ju等人提出“預(yù)訓(xùn)練+對(duì)抗訓(xùn)練+基本原理標(biāo)記+知識(shí)蒸餾”模型，對(duì)于多跳QA，Tu等人提出了可解釋的“選擇、解答、解釋”（SAE）系統(tǒng)，預(yù)訓(xùn)練模型在選擇模塊中作為編碼器。

通常，所提出的 QA 模型中的編碼器參數(shù)通過(guò) PTM 初始化，其他參數(shù)隨機(jī)初始化。

情感分析

BERT通過(guò)簡(jiǎn)單地對(duì) SST-2 進(jìn)行微調(diào)，性能優(yōu)于以前的最先進(jìn)模型，SST-2 是一種廣泛使用的情緒分析 (SA) 數(shù)據(jù)集。 Bataa 和 Wu將 BERT 與遷移學(xué)習(xí)技術(shù)結(jié)合使用，并在日本 SA 中實(shí)現(xiàn)了新的最新?tīng)顟B(tài)。

盡管他們?cè)诤?jiǎn)單的情感分類(lèi)方面取得了成功，但將 BERT 直接應(yīng)用于基于方面的情感分析（ABSA），這是一項(xiàng)細(xì)粒度的 SA 任務(wù)，顯示出不太顯著的改進(jìn)。為了更好地利用 BERT 的強(qiáng)大表示，Sun 等人通過(guò)將 ABSA 從單個(gè)句子分類(lèi)任務(wù)轉(zhuǎn)換為句子對(duì)分類(lèi)任務(wù)來(lái)構(gòu)建輔助句子。徐等人提出了后訓(xùn)練，使 BERT 從其源域和任務(wù)適應(yīng) ABSA 域和任務(wù)。此外，Rietzler 等人通過(guò)分析具有 ABSA 性能的跨域后訓(xùn)練的行為，擴(kuò)展了的工作。卡里米等人表明可以通過(guò)對(duì)抗性訓(xùn)練進(jìn)一步提高后訓(xùn)練 BERT 的性能。宋等人添加了一個(gè)額外的池化模塊，它可以實(shí)現(xiàn)為 LSTM 或注意力機(jī)制，以利用 BERT 中間層進(jìn)行 ABSA。此外，李等人共同學(xué)習(xí)面向端到端 ABSA 的方面檢測(cè)和情感分類(lèi)。 SentiLR從 SentiWordNet 獲取詞性標(biāo)簽和先驗(yàn)情感極性，并采用標(biāo)簽感知 MLM 利用引入的語(yǔ)言知識(shí)來(lái)捕捉句子級(jí)情感標(biāo)簽和詞級(jí)情感轉(zhuǎn)變之間的關(guān)系。 SentiLR 在多個(gè)句子和方面級(jí)別的情感分類(lèi)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能。

對(duì)于情感轉(zhuǎn)移，Wu 等人提出了基于 BERT 的“Mask and Infill”。在掩碼步驟中，該模型通過(guò)掩蔽情感標(biāo)記將情感與內(nèi)容分開(kāi)。在填充步驟中，它使用 BERT 和目標(biāo)情緒嵌入來(lái)填充掩碼區(qū)域。

命名體識(shí)別

命名實(shí)體識(shí)別 (NER) 在信息提取中并在許多 NLP 下游任務(wù)中發(fā)揮著重要作用。在深度學(xué)習(xí)中，大多數(shù) NER 方法都在序列標(biāo)注框架中。句子中的實(shí)體信息會(huì)轉(zhuǎn)化為標(biāo)簽序列，一個(gè)標(biāo)簽對(duì)應(yīng)一個(gè)詞。該模型用于預(yù)測(cè)每個(gè)單詞的標(biāo)簽。由于ELMo和BERT在 NLP 中展示了他們的力量，關(guān)于NER的預(yù)訓(xùn)練模型有很多工作。

阿克比克等人使用預(yù)訓(xùn)練的字符級(jí)語(yǔ)言模型為 NER 生成詞級(jí)嵌入。 TagLM和 ELMo使用預(yù)訓(xùn)練語(yǔ)言模型的最后一層輸出和每層輸出的加權(quán)和作為詞嵌入的一部分。劉等人使用逐層修剪和全連接來(lái)加速 ELMo 對(duì) NER 的推理。德夫林等人使用第一個(gè) BPE 的 BERT 表示在沒(méi)有 CRF 的情況下預(yù)測(cè)每個(gè)單詞的標(biāo)簽。皮雷斯等人通過(guò)多語(yǔ)言 BERT 實(shí)現(xiàn)了零樣本 NER。蔡等人利用知識(shí)蒸餾在單個(gè) CPU 上為 NER 運(yùn)行小型 BERT。此外，BERT 還用于特定領(lǐng)域的 NER，例如生物醫(yī)學(xué)等。

機(jī)器翻譯

機(jī)器翻譯 (MT) 是 NLP 社區(qū)中的一項(xiàng)重要任務(wù)，吸引了許多研究人員。幾乎所有的神經(jīng)機(jī)器翻譯 (NMT) 模型都共享編碼器-解碼器框架，該框架首先通過(guò)編碼器將輸入標(biāo)記編碼為隱藏表示，然后從解碼器解碼目標(biāo)語(yǔ)言中的輸出標(biāo)記。拉馬錢(qián)德蘭等人發(fā)現(xiàn)編碼器-解碼器模型可以通過(guò)使用兩種語(yǔ)言模型的預(yù)訓(xùn)練權(quán)重初始化編碼器和解碼器來(lái)顯著改進(jìn)。埃杜諾夫等人使用 ELMo 在 NMT 模型中設(shè)置詞嵌入層。這項(xiàng)工作通過(guò)使用預(yù)訓(xùn)練的語(yǔ)言模型進(jìn)行源詞嵌入初始化，展示了英語(yǔ)-土耳其語(yǔ)和英語(yǔ)-德語(yǔ) NMT 模型的性能改進(jìn)。

鑒于 BERT 在其他 NLP 任務(wù)上的出色表現(xiàn)，研究如何將 BERT 納入 NMT 模型是很自然的。 Conneau 和 Lample嘗試通過(guò)多語(yǔ)言預(yù)訓(xùn)練 BERT 模型初始化整個(gè)編碼器和解碼器，并表明在無(wú)監(jiān)督 MT 和英語(yǔ)-羅馬尼亞語(yǔ)監(jiān)督 MT 上可以實(shí)現(xiàn)顯著改進(jìn)。類(lèi)似地，Clinchant等人推薦了一系列不同的實(shí)驗(yàn)來(lái)測(cè)試使用BERT作為NMT模型的編碼器的最佳方法。他們通過(guò)使用 BERT 作為編碼器的初始化實(shí)現(xiàn)了一些改進(jìn)。此外，他們發(fā)現(xiàn)這些模型可以在域外數(shù)據(jù)集上獲得更好的性能。Imamura 和 Sumita提出了一種用于 NMT 的兩階段 BERT 微調(diào)方法。在第一階段，編碼器由預(yù)訓(xùn)練的 BERT 模型初始化，它們僅在訓(xùn)練集上訓(xùn)練解碼器。在第二階段，整個(gè) NMT 模型在訓(xùn)練集上聯(lián)合微調(diào)。通過(guò)實(shí)驗(yàn)，他們表明這種方法可以超越直接對(duì)整個(gè)模型進(jìn)行微調(diào)的單階段微調(diào)方法。除此之外，朱等人建議使用預(yù)訓(xùn)練的 BERT 作為額外的內(nèi)存來(lái)促進(jìn) NMT 模型。具體來(lái)說(shuō)，他們首先通過(guò)預(yù)訓(xùn)練的 BERT 對(duì)輸入單詞進(jìn)行編碼，并使用最后一層的輸出作為額外的內(nèi)存。然后，NMT 模型可以通過(guò)編碼器和解碼器每一層中的額外注意力模塊訪(fǎng)問(wèn)內(nèi)存。他們?cè)诒O(jiān)督方面表現(xiàn)出明顯的改善，半監(jiān)督和無(wú)監(jiān)督 MT。

MASS（Masked Sequence-to-Sequence Pre-Training）不是僅預(yù)訓(xùn)練編碼器，而是利用 Seq2Seq MLM 聯(lián)合預(yù)訓(xùn)練編碼器和解碼器。在實(shí)驗(yàn)中，這種方法在無(wú)監(jiān)督 MT 和英語(yǔ)-羅馬尼亞語(yǔ)監(jiān)督 MT 上都可以超越 Conneau 和 Lample 提出的 BERT 式預(yù)訓(xùn)練。與 MASS 不同，mBART是 BART的多語(yǔ)言擴(kuò)展，它與 Seq2Seq 去噪自動(dòng)編碼器 (DAE) 任務(wù)一起在 25 種語(yǔ)言的大規(guī)模單語(yǔ)語(yǔ)料庫(kù)上預(yù)訓(xùn)練編碼器和解碼器。實(shí)驗(yàn)表明，mBART 可以在句子級(jí)別和文檔級(jí)別顯著改善有監(jiān)督和無(wú)監(jiān)督機(jī)器翻譯。

摘要

摘要，旨在產(chǎn)生一個(gè)較短的文本，保留較長(zhǎng)文本的大部分含義，近年來(lái)引起了 NLP 社區(qū)的關(guān)注。自從廣泛使用 PTM 以來(lái)，該任務(wù)得到了顯著改善。鐘等人引入了可轉(zhuǎn)移的知識(shí)（例如，BERT）進(jìn)行總結(jié)并超越了以前的模型。張等人嘗試預(yù)訓(xùn)練一個(gè)文檔級(jí)模型，該模型預(yù)測(cè)句子而不是單詞，然后將其應(yīng)用于諸如摘要之類(lèi)的下游任務(wù)。更詳細(xì)地說(shuō)，張等人為預(yù)訓(xùn)練設(shè)計(jì)了 Gap Sentence Generation (GSG) 任務(wù)，其目標(biāo)涉及從輸入生成類(lèi)似摘要的文本。另外，Liu和Lapata設(shè)計(jì)了BERTSUM。BERTSUM 包括一個(gè)新穎的文檔級(jí)編碼器，以及一個(gè)用于提取摘要和抽象摘要的通用框架。

在編碼器框架中，BERTSUM 通過(guò)插入多個(gè) [CLS] 標(biāo)記來(lái)學(xué)習(xí)句子表示來(lái)擴(kuò)展 BERT。對(duì)于抽取式摘要，BERTSUM 堆疊了幾個(gè)句間 Transformer 層。對(duì)于抽象摘要，BERTSUM 提出了一種使用新微調(diào)計(jì)劃的兩階段微調(diào)方法。鐘等人提出了一種新穎的摘要級(jí)框架 MATCHSUM 并將概念化的提取摘要作為語(yǔ)義文本匹配問(wèn)題。他們提出了一種 Siamese-BERT 架構(gòu)來(lái)計(jì)算源文檔和候選摘要之間的相似度，并僅使用基本版本的 BERT 在 CNN / DailyMail 上取得了最先進(jìn)的結(jié)果。

對(duì)抗攻擊預(yù)防御

深度神經(jīng)模型容易受到對(duì)抗性示例的影響，這些示例可能會(huì)誤導(dǎo)模型產(chǎn)生特定的錯(cuò)誤預(yù)測(cè)，而原始輸入的擾動(dòng)卻難以察覺(jué)。在 CV 中，對(duì)抗性攻擊和防御已被廣泛研究。然而，由于語(yǔ)言的離散性，它對(duì)文本仍然具有挑戰(zhàn)性。為文本生成對(duì)抗樣本需要具備以下品質(zhì)：(1) 人類(lèi)法官難以察覺(jué)但會(huì)誤導(dǎo)神經(jīng)模型； (2) 語(yǔ)法流利，語(yǔ)義與原始輸入一致。金等人使用對(duì)抗性示例成功地攻擊了經(jīng)過(guò)微調(diào)的 BERT 在文本分類(lèi)和文本蘊(yùn)涵方面。華萊士等定義了通用對(duì)抗性觸發(fā)器，當(dāng)連接到任何輸入時(shí)，它可以誘導(dǎo)模型產(chǎn)生特定目的的預(yù)測(cè)。某些觸發(fā)器甚至?xí)?dǎo)致 GPT-2 模型生成種族主義文本。孫等人表明 BERT 在拼寫(xiě)錯(cuò)誤方面并不穩(wěn)健。

PTM 還具有生成對(duì)抗樣本的巨大潛力。李等人提出了 BERT-Attack，這是一種基于 BERT 的高質(zhì)量有效攻擊者。他們?cè)谙掠稳蝿?wù)上將 BERT 與另一個(gè)經(jīng)過(guò)微調(diào)的 BERT 進(jìn)行了對(duì)比，并成功誤導(dǎo)目標(biāo)模型進(jìn)行錯(cuò)誤預(yù)測(cè)，在成功率和擾動(dòng)百分比方面均優(yōu)于最先進(jìn)的攻擊策略，同時(shí)生成的對(duì)抗樣本流暢且語(yǔ)義保留。

此外，PTMs 的對(duì)抗性防御也很有前景，它提高了 PTMs 的魯棒性并使它們對(duì)對(duì)抗性攻擊免疫。

對(duì)抗訓(xùn)練旨在通過(guò)最小化嵌入空間中標(biāo)簽保留擾動(dòng)的最大風(fēng)險(xiǎn)來(lái)提高泛化能力。最近的工作表明對(duì)抗性預(yù)訓(xùn)練或微調(diào)可以提高 NLP 的 PTM 的泛化和魯棒性。

未來(lái)研究方向

盡管 PTM 已經(jīng)證明了它們?cè)诟鞣N NLP 任務(wù)中的能力，但由于語(yǔ)言的復(fù)雜性，挑戰(zhàn)仍然存在。在本節(jié)中，我們提出了 PTM 的五個(gè)未來(lái)方向。

預(yù)訓(xùn)練模型的上限

目前，PTM 尚未達(dá)到其上限。大多數(shù)當(dāng)前的 PTM 可以通過(guò)更多的訓(xùn)練步驟和更大的語(yǔ)料庫(kù)進(jìn)一步改進(jìn)。

NLP 的最新技術(shù)可以通過(guò)增加模型的深度來(lái)進(jìn)一步推進(jìn)，例如 Megatron-LM（83 億個(gè)參數(shù)，72 個(gè) Transformer 層，隱藏大小為 3072 和 32 個(gè)注意力頭）和 Turing-NLG（170 億個(gè)參數(shù)，78 個(gè) Transformer 層，隱藏大小為 4256 和 28 個(gè)注意力頭）。

通用 PTM 一直是我們學(xué)習(xí)語(yǔ)言?xún)?nèi)在普遍知識(shí)（甚至世界知識(shí)）的追求。然而，此類(lèi) PTM 通常需要更深的架構(gòu)、更大的語(yǔ)料庫(kù)和具有挑戰(zhàn)性的預(yù)訓(xùn)練任務(wù)，這進(jìn)一步導(dǎo)致更高的訓(xùn)練成本。然而，訓(xùn)練龐大的模型也是一個(gè)具有挑戰(zhàn)性的問(wèn)題，需要更復(fù)雜、更高效的訓(xùn)練技術(shù)，如分布式訓(xùn)練、混合精度、梯度累積等。因此，更實(shí)際的方向是設(shè)計(jì)更高效的模型架構(gòu)，自監(jiān)督預(yù)訓(xùn)練任務(wù)、優(yōu)化器和訓(xùn)練技能，以及使用現(xiàn)有硬件和軟件訓(xùn)練的技巧。 ELECTRA是朝著這個(gè)方向的一個(gè)很好的解決方案。

PTM 的架構(gòu)

Transformer已被證明是一種有效的預(yù)訓(xùn)練架構(gòu)。然而，Transformer 的主要限制是它的計(jì)算復(fù)雜度，它是輸入長(zhǎng)度的二次方。受 GPU 內(nèi)存的限制，當(dāng)前大多數(shù) PTM 無(wú)法處理超過(guò) 512 個(gè)標(biāo)記的序列。打破這個(gè)限制需要改進(jìn)Transformer的架構(gòu)。盡管許多工作試圖提高 Transformer 的效率，但仍有很大的改進(jìn)空間。此外，為 PTM 尋找更有效的替代非 Transformer 架構(gòu)對(duì)于捕獲更遠(yuǎn)距離的上下文信息很重要。深度架構(gòu)的設(shè)計(jì)具有挑戰(zhàn)性，我們可能會(huì)尋求一些自動(dòng)方法的幫助，例如神經(jīng)架構(gòu)搜索（NAS）。

面向任務(wù)的預(yù)訓(xùn)練和模型壓縮

在實(shí)踐中，不同的下游任務(wù)需要不同的 PTM 能力。 PTMs 和下游任務(wù)之間的差異通常在于兩個(gè)方面：模型架構(gòu)和數(shù)據(jù)分布。較大的差異可能導(dǎo)致 PTM 的好處可能微不足道。例如，文本生成通常需要一個(gè)明確的任務(wù)來(lái)預(yù)訓(xùn)練編碼器和解碼器，然而文本匹配需要設(shè)計(jì)句子對(duì)的預(yù)訓(xùn)練任務(wù)。

此外，雖然更大的 PTM 通常可以帶來(lái)更好的性能，但一個(gè)實(shí)際的問(wèn)題是如何在特殊場(chǎng)景中利用這些巨大的 PTM，例如低容量設(shè)備和低延遲應(yīng)用程序。因此，我們可以為下游任務(wù)精心設(shè)計(jì)特定的模型架構(gòu)和預(yù)訓(xùn)練任務(wù)，或者從現(xiàn)有的 PTM 中提取部分特定于任務(wù)的知識(shí)。

與其從頭開(kāi)始訓(xùn)練面向任務(wù)的 PTM，我們可以通過(guò)使用模型壓縮等技術(shù)使用現(xiàn)有的通用 PTM 來(lái)教授它們。盡管 CV中廣泛研究了 CNN 的模型壓縮，但 NLP 的PTM壓縮才剛剛開(kāi)始。Transformer 的全連接結(jié)構(gòu)也讓模型壓縮更具挑戰(zhàn)性。

微調(diào)之外的知識(shí)轉(zhuǎn)移

目前，微調(diào)是將 PTM 的知識(shí)轉(zhuǎn)移到下游任務(wù)的主要方法，但一個(gè)不足是其參數(shù)效率低下：每個(gè)下游任務(wù)都有自己的微調(diào)參數(shù)。一個(gè)改進(jìn)的解決方案是修復(fù) PTM 的原始參數(shù)，并為特定任務(wù)添加小的微調(diào)自適應(yīng)模塊。因此，我們可以使用共享 PTM 來(lái)服務(wù)多個(gè)下游任務(wù)。實(shí)際上，從 PTM 挖掘知識(shí)可以更靈活，例如特征提取、知識(shí)蒸餾、數(shù)據(jù)增強(qiáng)，使用 PTM 作為外部知識(shí)。期待更有效的方法。

PTM 的可解釋性和可靠性

盡管 PTM 達(dá)到了令人印象深刻的性能，但其深度非線(xiàn)性架構(gòu)使得決策過(guò)程高度不透明。

最近，可解釋的人工智能 (XAI) 已成為一般 AI 社區(qū)的熱點(diǎn)。與用于圖像的 CNN 不同，由于類(lèi)似 Transformer 的架構(gòu)和語(yǔ)言的復(fù)雜性，解釋 PTM 更加困難。已經(jīng)做出了廣泛的努力來(lái)分析 PTM 中包含的語(yǔ)言和世界知識(shí)，這有助于我們以一定程度的透明度理解這些 PMT。然而，模型分析的很多工作依賴(lài)于注意力機(jī)制，注意力對(duì)可解釋性的有效性仍然存在爭(zhēng)議。

另外PTM面對(duì)對(duì)抗攻擊也十分脆弱。隨著PTM的應(yīng)用在生產(chǎn)環(huán)境中越來(lái)越廣泛，他們的可靠性也倍受關(guān)心，那些關(guān)于對(duì)抗性攻擊的研究通過(guò)充分暴露缺點(diǎn)來(lái)幫助我們理解他們的能力，對(duì)抗防御也十分有前景，可以提高PTM的魯棒性，增強(qiáng)對(duì)對(duì)抗攻擊的免疫力。

總體而言，作為許多 NLP 應(yīng)用中的關(guān)鍵組件，PTM 的可解釋性和可靠性在許多方面仍有待進(jìn)一步探索，這有助于我們了解 PTM 的工作原理，并為更好地使用和進(jìn)一步改進(jìn)提供指導(dǎo)。

總結(jié)

在本次調(diào)查中，我們對(duì) NLP 的 PTM 進(jìn)行了全面概述，包括背景知識(shí)、模型架構(gòu)、預(yù)訓(xùn)練任務(wù)、各種擴(kuò)展、適應(yīng)方法、相關(guān)資源和應(yīng)用。基于當(dāng)前的 PTM，我們從四個(gè)不同的角度提出了一種新的 PTM 分類(lèi)法。我們還為 PTM 提出了幾個(gè)可能的未來(lái)研究方向。

一個(gè)人沒(méi)有夢(mèng)想，和咸魚(yú)有什么區(qū)別！

總結(jié)

以上是生活随笔為你收集整理的NLP领域预训练模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。