NLP领域预训练模型
聲明
本文原文來(lái)自于:arxiv
介紹
在大語(yǔ)料上訓(xùn)練的預(yù)訓(xùn)練模型可以學(xué)習(xí)得到通用的語(yǔ)言表達(dá)知識(shí),對(duì)很多下游任務(wù)表現(xiàn)有幫助。隨著算力的提升、訓(xùn)練方法越來(lái)越強(qiáng),這些模型也越來(lái)越深。
第一代預(yù)訓(xùn)練模型學(xué)習(xí)詞嵌入模型,由于模型本身不會(huì)用在后面的任務(wù)中,因此大多比較淺;
第二代預(yù)訓(xùn)練模型關(guān)注結(jié)合上下文語(yǔ)境的詞嵌入,這一些模型一般仍然需要在后續(xù)的任務(wù)中繼續(xù)學(xué)習(xí)具體的單詞表達(dá)。
背景
自然語(yǔ)言表示
一個(gè)好的表達(dá)應(yīng)該表達(dá)通用先驗(yàn),這些先驗(yàn)不是特定于任務(wù)的,但可能對(duì)學(xué)習(xí)機(jī)器解決人工智能任務(wù)有用。對(duì)語(yǔ)言來(lái)說(shuō),包括語(yǔ)法規(guī)則和語(yǔ)義知識(shí)。通用的方法是用一個(gè)低維的非稀疏向量來(lái)表示句子語(yǔ)義。
上下文表示,([h_1,h_2,cdots,h_T] = f_{enc}(x_1, x_2,cdots,x_T))
編碼器
序列模型學(xué)習(xí)的是順序的特征,訓(xùn)練成本低,但不容易捕捉跨度較大的信息。非序列模型表達(dá)能力更強(qiáng),訓(xùn)練需要更大的語(yǔ)料。
序列模型
卷積網(wǎng)絡(luò)
循環(huán)網(wǎng)絡(luò)
非序列模型
fully-connected self-attention
預(yù)訓(xùn)練模型的意義
在大語(yǔ)料上訓(xùn)練的預(yù)訓(xùn)練模型可以學(xué)到通用的語(yǔ)言表達(dá)知識(shí)
初始化較好,加速模型收斂
PTM可以視為一種正則化,減少過(guò)擬合
PTM歷史
第一代PTM
在大量的未標(biāo)注語(yǔ)料上訓(xùn)練可以輔助其他任務(wù)。CBOW和Skip-Gram是非常經(jīng)典的模型。Word2vec 是這些模型最流行的實(shí)現(xiàn)之一,它使預(yù)訓(xùn)練的詞嵌入可用于 NLP 中的不同任務(wù)。此外,GloVe也是一種廣泛使用的用于獲得預(yù)訓(xùn)練詞嵌入的模型,該模型是通過(guò)大型語(yǔ)料庫(kù)中的全局(詞-詞)共現(xiàn)統(tǒng)計(jì)計(jì)算得出的。
還有一些聚焦于段落或者文章的,如paragraph vector, Skip-thought vectors, Context2Vec。
第二代PTM
第二代PTM考慮每個(gè)詞的上下文語(yǔ)義。Dai 和 Le 為 NLP 提出了第一個(gè)成功的 PTM 實(shí)例,他們使用語(yǔ)言模型和序列自動(dòng)編碼器初始化 LSTM,發(fā)現(xiàn)預(yù)訓(xùn)練可以提高 LSTM 在許多文本分類(lèi)任務(wù)中的訓(xùn)練和泛化能力。Ramachandran等人發(fā)現(xiàn)無(wú)監(jiān)督預(yù)訓(xùn)練可以顯著改善 Seq2Seq 模型。編碼器和解碼器的權(quán)重均使用兩種語(yǔ)言模型的預(yù)訓(xùn)練權(quán)重進(jìn)行初始化,然后使用標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)。除了用 LM 預(yù)訓(xùn)練上下文編碼器外,McCann 等人使用機(jī)器翻譯從使用注意力的seq2seq模型預(yù)訓(xùn)練了一個(gè)深度 LSTM 編碼器。預(yù)訓(xùn)練編碼器輸出的CoVe可以提高各種常見(jiàn) NLP任務(wù)的性能。
Peters等得到了帶有雙向語(yǔ)言模型 (BiLM) 的預(yù)訓(xùn)練 2 層 LSTM 編碼器,由前向 LM 和后向 LM 組成。預(yù)訓(xùn)練的ELMo輸出的上下文表示在廣泛的 NLP 任務(wù)中帶來(lái)了巨大的改進(jìn)。阿克比克等人使用字符級(jí) LM 預(yù)訓(xùn)練的上下文字符串嵌入捕獲詞義。然而,這兩個(gè) PTM 通常用作特征提取器來(lái)生成上下文詞嵌入,這些詞嵌入被輸入到主模型中以執(zhí)行下游任務(wù)。這些模型參數(shù)固定,下游任務(wù)的網(wǎng)絡(luò)參數(shù)是從頭開(kāi)始訓(xùn)練的,ULMFiT嘗試對(duì)用于文本分類(lèi)(TC)的預(yù)訓(xùn)練 LM 進(jìn)行微調(diào),并在六個(gè)廣泛使用的文本分類(lèi)數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果。 ULMFiT 由 3 個(gè)階段組成:
在通用領(lǐng)域數(shù)據(jù)上預(yù)訓(xùn)練 LM;
在目標(biāo)數(shù)據(jù)上微調(diào)LM;
對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)。
ULMFiT 還研究了一些有效的微調(diào)策略,包括判別式微調(diào)、傾斜三角學(xué)習(xí)率和逐步解凍。
最近,非常深的 PTM 顯示了它們?cè)趯W(xué)習(xí)通用語(yǔ)言表示方面的強(qiáng)大能力:例如,OpenAI GPT和 BERT。除了 LM,還提出了越來(lái)越多的自監(jiān)督任務(wù),以使 PTM 從大規(guī)模文本語(yǔ)料庫(kù)中捕獲更多知識(shí)。
概覽
預(yù)訓(xùn)練任務(wù)
監(jiān)督學(xué)習(xí)
非監(jiān)督學(xué)習(xí)
自監(jiān)督學(xué)習(xí)
在本節(jié)中,我們將介紹現(xiàn)有 PTM 中一些廣泛使用的預(yù)訓(xùn)練任務(wù)。我們可以將這些任務(wù)視為自監(jiān)督學(xué)習(xí)。下表還總結(jié)了他們的損失函數(shù)。
Language Modeling,用之前所有的詞預(yù)測(cè)下一個(gè)詞,問(wèn)題是只能預(yù)測(cè)單向。
Masked Language Modeling (MLM),隨機(jī)用[MASK]標(biāo)識(shí)遮住一些單詞,然后用上下文預(yù)測(cè)這些單詞。為了解決訓(xùn)練和應(yīng)用過(guò)程中的不匹配,BERT使用了80%的[MASK],10%的隨機(jī)token和10%的原字符。
Sequence-to-Sequence MLM (Seq2Seq MLM),用seq2seq思想編碼帶掩碼的序列,然后再解碼得到掩碼序列。
Permuted Language Modeling (PLM),XLNet論文中指出,MASK方法本質(zhì)上還將各個(gè)被蓋住的字符視為獨(dú)立的,過(guò)度簡(jiǎn)化。PTM將原始序列隨機(jī)打亂,然后預(yù)測(cè)某些位置上的詞。在實(shí)踐中,由于收斂緩慢,只能預(yù)測(cè)置換序列中的最后幾個(gè)標(biāo)記。并且為目標(biāo)感知表示引入了特殊的雙流自注意力。
Denoising Autoencoder (DAE),恢復(fù)被破壞的輸入語(yǔ)句。方法有:
使用mask遮蓋。
刪除某些字符(相比于1,需要預(yù)測(cè)位置)
文本填充。
恢復(fù)隨機(jī)打亂的句子。
文本旋轉(zhuǎn),隨機(jī)地選擇一個(gè)詞并旋轉(zhuǎn)文檔,使其以該詞開(kāi)始。模型需要識(shí)別文檔的真正開(kāi)始位置。
Contrastive Learning (CTL),對(duì)比學(xué)習(xí)主要通過(guò)提高正確的詞對(duì)相對(duì)于隨機(jī)詞對(duì)的表現(xiàn)來(lái)訓(xùn)練的。
Deep InfoMax (DIM),需要(f_{enc}( extrm{x}_{i:j})^T f_{enc}(hat{ extrm{x}}_{i:j}) > f_{enc}( ilde{ extrm{x}}_{i:j})^Tf_{enc}( extrm{x}_{i:j})),其中( extrm{x}_{i:j},hat{ extrm{x}}_{i:j}, ilde{ extrm{x}}_{i:j})分別表示(i, j)子段、被蓋住后的掩碼序列和一段隨機(jī)序列。
Replaced Token Detection (RTD),替換標(biāo)記檢測(cè) (RTD) 與 NCE 相同,但根據(jù)其周?chē)纳舷挛念A(yù)測(cè)標(biāo)記是否被替換。帶負(fù)采樣的 CBOW (CBOW-NS) [129] 可以看作是 RTD 的一個(gè)簡(jiǎn)單版本,其中負(fù)樣本是從詞匯表中隨機(jī)采樣的,具有簡(jiǎn)單的分布。
Next Sentence Prediction (NSP) ,預(yù)測(cè)兩個(gè)句子間的關(guān)系。
Sentence Order Prediction (SOP),與NSP相似,但負(fù)樣本可以為連續(xù)兩個(gè)句子顛倒順序,這樣就不能用主題進(jìn)行預(yù)測(cè)了。
分類(lèi)角度
為了闡明現(xiàn)有 PTM 與 NLP 的關(guān)系,我們構(gòu)建了 PTM 分類(lèi)法,從四個(gè)不同的角度對(duì)現(xiàn)有 PTM 進(jìn)行分類(lèi):
表示類(lèi)型:根據(jù)下游任務(wù)使用的表示,我們可以將 PTM 分為非上下文模型和上下文模型。
結(jié)構(gòu):PTM 使用的骨干網(wǎng)絡(luò),包括 LSTM、Transformer 編碼器、Transformer 解碼器和完整的 Transformer 架構(gòu)。“Transformer”是指標(biāo)準(zhǔn)的編碼器-解碼器架構(gòu)。 “Transformer 編碼器”和“Transformer 解碼器”分別表示標(biāo)準(zhǔn) Transformer 架構(gòu)的編碼器和解碼器部分。它們的區(qū)別在于解碼器部分使用帶有三角矩陣的掩碼自注意力來(lái)防止單詞出現(xiàn)在它們未來(lái)(正確)的位置上。
預(yù)訓(xùn)練任務(wù)類(lèi)型:PTM 使用的預(yù)訓(xùn)練任務(wù)類(lèi)型。
擴(kuò)展:為各種場(chǎng)景設(shè)計(jì)的 PTM,包括知識(shí)豐富的 PTM、多語(yǔ)言或特定語(yǔ)言的 PTM、多模型 PTM、特定領(lǐng)域的 PTM 和壓縮的 PTM。
模型分析
由于 PTM 的巨大成功,了解它們捕獲了哪些類(lèi)型的知識(shí)以及如何從它們中歸納出知識(shí)非常重要。有大量文獻(xiàn)分析存儲(chǔ)在預(yù)訓(xùn)練的非上下文和上下文嵌入中的語(yǔ)言知識(shí)和世界知識(shí)。
非上下文詞嵌入
首先探索靜態(tài)詞嵌入以獲取各種知識(shí)。米科洛夫等人發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)的單詞表示能夠捕捉語(yǔ)言中的語(yǔ)言規(guī)律,單詞之間的關(guān)系可以用關(guān)系特定的向量偏移來(lái)表征。有研究發(fā)現(xiàn),Skip-Grame生成的詞向量可以捕獲句法和語(yǔ)義詞關(guān)系,例如 vec(“China”) ? vec(“Beijing”) ≈ vec(“Japan”) ? vec(“Tokyo”)。此外,他們發(fā)現(xiàn)詞向量的組合屬性,例如,vec(“Germany”) + vec(“capital”) 接近 vec(“Berlin”)。受這些工作的啟發(fā),Rubinstein 等人。發(fā)現(xiàn)分布詞表示擅長(zhǎng)預(yù)測(cè)分類(lèi)屬性(例如,狗是一種動(dòng)物),但無(wú)法學(xué)習(xí)屬性(例如,天鵝是白色的)。同樣,古普塔等人表明 word2vec 嵌入隱式編碼實(shí)體的參考屬性。分布式詞向量與簡(jiǎn)單的監(jiān)督模型一起,可以學(xué)習(xí)以合理的準(zhǔn)確度預(yù)測(cè)實(shí)體的數(shù)字和二進(jìn)制屬性。
上下文詞嵌入
大量研究在上下文嵌入中探索和誘導(dǎo)了不同類(lèi)型的知識(shí)。一般來(lái)說(shuō),有兩種類(lèi)型的知識(shí):語(yǔ)言知識(shí)和世界知識(shí)。
語(yǔ)言知識(shí)
廣泛的探索任務(wù)旨在調(diào)查 PTM 中的語(yǔ)言知識(shí)。坦尼,劉等人發(fā)現(xiàn) BERT 在許多句法任務(wù)上表現(xiàn)良好,例如詞性標(biāo)注和成分標(biāo)注。然而,相比于簡(jiǎn)單的句法任務(wù),BERT 在語(yǔ)義和細(xì)粒度句法任務(wù)上還不夠好,此外,Tenney 等人分析了 BERT 層在不同任務(wù)中的作用,發(fā)現(xiàn) BERT 解決任務(wù)的順序與 NLP 管道中的順序相似。此外,BERT 中也證實(shí)了主謂一致和語(yǔ)義角色的知識(shí)。此外,休伊特和曼寧、賈瓦哈爾、金等人提出了幾種從 BERT 中提取依賴(lài)樹(shù)和選區(qū)樹(shù)的方法,證明了 BERT 編碼語(yǔ)法結(jié)構(gòu)的能力。雷夫等人探索了 BERT 內(nèi)部表示的幾何結(jié)構(gòu)并找到了一些證據(jù):1)語(yǔ)言特征似乎在單獨(dú)的語(yǔ)義和句法子空間中表示; 2)注意力矩陣包含語(yǔ)法表示; 3)BERT 在非常精細(xì)的層面上區(qū)分詞義。
世界知識(shí)
除了語(yǔ)言知識(shí),PTM 還可以存儲(chǔ)訓(xùn)練數(shù)據(jù)中呈現(xiàn)的世界知識(shí)。探索世界知識(shí)的一種直接方法是使用“填空”完形填空語(yǔ)句查詢(xún) BERT,例如,“但丁出生于 [MASK]”。彼得羅尼等人通過(guò)從多個(gè)知識(shí)源手動(dòng)創(chuàng)建單標(biāo)記完形填空語(yǔ)句(查詢(xún))來(lái)構(gòu)建 LAMA(語(yǔ)言模型分析)任務(wù)。他們的實(shí)驗(yàn)表明,BERT 包含與傳統(tǒng)信息提取方法競(jìng)爭(zhēng)的世界知識(shí)。由于LAMA的查詢(xún)生成方式簡(jiǎn)單,江等人認(rèn)為 LAMA 只是測(cè)量語(yǔ)言模型知道的下限,并提出更先進(jìn)的方法來(lái)生成更有效的查詢(xún)。盡管 LAMA 的發(fā)現(xiàn)令人驚訝,但它也受到了后續(xù)工作的質(zhì)疑。同樣,一些研究從 BERT 中為下游任務(wù)引入了關(guān)系知識(shí)和常識(shí)知識(shí)。
PTM擴(kuò)展
知識(shí)增強(qiáng)PTM
PTM 通常從通用的大規(guī)模文本語(yǔ)料庫(kù)中學(xué)習(xí)通用語(yǔ)言表示,但缺乏特定領(lǐng)域的知識(shí)。將外部知識(shí)庫(kù)中的領(lǐng)域知識(shí)合并到 PTM 中已被證明是有效的。外部知識(shí)范圍從語(yǔ)言 、語(yǔ)義、常識(shí) 、事實(shí)到特定領(lǐng)域的知識(shí)。
一方面,可以在預(yù)訓(xùn)練期間注入外部知識(shí)。早期的研究側(cè)重于聯(lián)合學(xué)習(xí)知識(shí)圖嵌入和詞嵌入。自 BERT 以來(lái),設(shè)計(jì)了一些輔助預(yù)訓(xùn)練任務(wù),將外部知識(shí)整合到深度 PTM 中。 LIBERT (基于語(yǔ)言的 BERT)通過(guò)額外的語(yǔ)言約束任務(wù)整合了語(yǔ)言知識(shí)。柯等人整合每個(gè)詞的情感極性,將 MLM 擴(kuò)展到 Label-Aware MLM (LA-MLM)。因此,他們提出的模型 SentiLR 在多個(gè)句子和方面級(jí)別的情感分類(lèi)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能。萊文等人提出了 SenseBERT,它經(jīng)過(guò)預(yù)訓(xùn)練,不僅可以預(yù)測(cè)被屏蔽的標(biāo)記,還可以預(yù)測(cè)它們?cè)?WordNet 中的超意義。
ERNIE(THU)將在知識(shí)圖譜上預(yù)訓(xùn)練的實(shí)體嵌入與文本中相應(yīng)的實(shí)體提及相結(jié)合,以增強(qiáng)文本表示。同樣,KnowBERT與實(shí)體鏈接模型聯(lián)合訓(xùn)練 BERT,以端到端的方式合并實(shí)體表示。王等人提出了KEPLER,它聯(lián)合優(yōu)化了知識(shí)嵌入和語(yǔ)言建模目標(biāo)。這些工作通過(guò)實(shí)體嵌入注入知識(shí)圖的結(jié)構(gòu)信息。相比之下,K-BERT顯式地將從 KG 中提取的相關(guān)三元組注入到句子中,以獲得 BERT 的擴(kuò)展樹(shù)形輸入。此外,熊等人采用實(shí)體替換識(shí)別來(lái)鼓勵(lì)模型更加了解事實(shí)知識(shí)。然而,大部分這些方法,都在注入知識(shí)時(shí)修改了模型參數(shù),在注入多種知識(shí)時(shí)可能會(huì)遭受災(zāi)難性的遺忘。為了解決這個(gè)問(wèn)題,K-Adapter 通過(guò)針對(duì)不同的預(yù)訓(xùn)練任務(wù)獨(dú)立訓(xùn)練不同的適配器來(lái)注入多種知識(shí),從而實(shí)現(xiàn)持續(xù)的知識(shí)注入。
另一方面,人們可以將外部知識(shí)整合到預(yù)先訓(xùn)練的模型中,而無(wú)需從頭開(kāi)始重新訓(xùn)練。例如,K-BERT允許在對(duì)下游任務(wù)進(jìn)行微調(diào)期間注入事實(shí)知識(shí)。關(guān)等人使用常識(shí)知識(shí)庫(kù)、ConceptNet 和 ATOMIC 來(lái)增強(qiáng) GPT-2 以生成故事。楊等人提出了一種知識(shí)-文本融合模型,用于獲取機(jī)器閱讀理解的相關(guān)語(yǔ)言和事實(shí)知識(shí)。
此外,Logan IV 等人和 Hayashi 等人分別將語(yǔ)言模型擴(kuò)展到知識(shí)圖語(yǔ)言模型(KGLM)和潛在關(guān)系語(yǔ)言模型(LRLM),兩者都允許以知識(shí)圖為條件進(jìn)行預(yù)測(cè)。這些新穎的 KG 條件語(yǔ)言模型顯示出預(yù)訓(xùn)練的潛力。
多語(yǔ)種與特定語(yǔ)種的預(yù)訓(xùn)練模型
多語(yǔ)種
學(xué)習(xí)跨語(yǔ)言共享的多語(yǔ)言文本表示在許多跨語(yǔ)言 NLP 任務(wù)中起著重要作用。
跨語(yǔ)種語(yǔ)言理解
大多數(shù)早期工作都集中在學(xué)習(xí)多語(yǔ)言詞嵌入,它在單個(gè)語(yǔ)義空間中表示來(lái)自多種語(yǔ)言的文本。然而,這些方法通常需要語(yǔ)言之間的(弱)對(duì)齊。
多語(yǔ)言 BERT (mBERT) 由 MLM 預(yù)訓(xùn)練,使用來(lái)自前 104 種語(yǔ)言的維基百科文本的共享詞匯和權(quán)重。每個(gè)訓(xùn)練樣本都是一個(gè)單語(yǔ)文檔,沒(méi)有專(zhuān)門(mén)設(shè)計(jì)的跨語(yǔ)言目標(biāo),也沒(méi)有任何跨語(yǔ)言數(shù)據(jù)。即便如此,mBERT 在跨語(yǔ)言泛化方面的表現(xiàn)還是出奇地好。凱等人表明語(yǔ)言之間的詞匯重疊在跨語(yǔ)言成功中的作用可以忽略不計(jì)。
XLM通過(guò)合并跨語(yǔ)言任務(wù)、翻譯語(yǔ)言建模 (TLM) 改進(jìn)了 mBERT,該任務(wù)在并行雙語(yǔ)句子對(duì)的串聯(lián)上執(zhí)行 MLM。 Unicoder進(jìn)一步提出了三個(gè)新的跨語(yǔ)言預(yù)訓(xùn)練任務(wù),包括跨語(yǔ)言單詞恢復(fù)、跨語(yǔ)言釋義分類(lèi)和跨語(yǔ)言掩碼語(yǔ)言模型(XMLM)。
XLM-RoBERTa (XLM-R)是一個(gè)在超大的數(shù)據(jù)上預(yù)訓(xùn)練的多語(yǔ)種編碼器,數(shù)據(jù)為100 種不同語(yǔ)言的 2.5TB 清洗過(guò)的CommonCrawl數(shù)據(jù)。XLM-RoBERTa 的預(yù)訓(xùn)練任務(wù)僅是單語(yǔ) MLM。 XLM-R 在多個(gè)跨語(yǔ)言基準(zhǔn)測(cè)試中取得了最先進(jìn)的結(jié)果,包括 XNLI、MLQA 和 NER。
跨語(yǔ)種語(yǔ)言生成
多語(yǔ)言生成是一種從輸入語(yǔ)言中生成不同語(yǔ)言文本的任務(wù),例如機(jī)器翻譯和跨語(yǔ)言抽象摘要。
與用于多語(yǔ)言分類(lèi)的 PTM 不同,用于多語(yǔ)言生成的 PTM 通常需要對(duì)編碼器和解碼器進(jìn)行聯(lián)合預(yù)訓(xùn)練,而不是只關(guān)注編碼器。
MASS使用單語(yǔ)Seq2Seq MLM在多種語(yǔ)言上預(yù)訓(xùn)練了Seq2Seq模型,并在無(wú)監(jiān)督NMT上取得了顯著改進(jìn)。XNLG執(zhí)行跨語(yǔ)言自然語(yǔ)言生成的兩階段預(yù)訓(xùn)練。第一階段使用單語(yǔ) MLM 和跨語(yǔ)言 MLM (XMLM) 任務(wù)預(yù)訓(xùn)練編碼器。第二階段通過(guò)使用單語(yǔ) DAE 和跨語(yǔ)言自動(dòng)編碼 (XAE) 任務(wù)預(yù)訓(xùn)練解碼器,同時(shí)保持編碼器固定。實(shí)驗(yàn)表明 XNLG 在跨語(yǔ)言問(wèn)題生成和跨語(yǔ)言抽象摘要方面的優(yōu)勢(shì)。 mBART是 BART 的多語(yǔ)言擴(kuò)展,在跨 25 種語(yǔ)言的大規(guī)模單語(yǔ)語(yǔ)料庫(kù)上與 Seq2Seq 去噪自動(dòng)編碼器 (DAE) 任務(wù)聯(lián)合預(yù)訓(xùn)練編碼器和解碼器。實(shí)驗(yàn)表明,mBART 在各種機(jī)器翻譯 (MT) 任務(wù)中產(chǎn)生了顯著的性能提升。
特定語(yǔ)種
盡管多語(yǔ)言 PTM 在多種語(yǔ)言上表現(xiàn)良好,但最近的工作表明,在單一語(yǔ)言上訓(xùn)練的 PTM 明顯優(yōu)于多語(yǔ)言結(jié)果。
對(duì)于沒(méi)有明確詞邊界的中文,建模更大的粒度和多粒度詞表示已經(jīng)取得了巨大的成功。 Kuratov 和 Arkhipov 使用遷移學(xué)習(xí)技術(shù)將多語(yǔ)言 PTM 適配為俄語(yǔ)的單語(yǔ) PTM。此外,還針對(duì)不同語(yǔ)言發(fā)布了一些單語(yǔ) PTM,例如法語(yǔ)的 CamemBERT和 FlauBERT,芬蘭的 FinBERT,荷蘭語(yǔ)的 BERTje 和 RobBERT ,阿拉伯語(yǔ)的AraBERT。
多模態(tài)PTM
觀察 PTM 在許多 NLP 任務(wù)中的成功,一些研究集中在獲得 PTM 的跨模態(tài)版本。這些模型中的絕大多數(shù)是為一般的視覺(jué)和語(yǔ)言特征編碼而設(shè)計(jì)的。并且這些模型在一些龐大的跨模態(tài)數(shù)據(jù)語(yǔ)料庫(kù)上進(jìn)行了預(yù)訓(xùn)練,例如帶有口語(yǔ)的視頻或帶有字幕的圖像,并結(jié)合了擴(kuò)展的預(yù)訓(xùn)練任務(wù)以充分利用多模態(tài)特征。通常,基于視覺(jué)的 MLM、屏蔽視覺(jué)特征建模和視覺(jué)語(yǔ)言匹配等任務(wù)廣泛用于多模態(tài)預(yù)訓(xùn)練,例如 VideoBERT、VisualBERT、ViLBERT。
視頻-文本
VideoBERT 和 CBT是聯(lián)合視頻和文本模型。為了獲得用于預(yù)訓(xùn)練的視覺(jué)和語(yǔ)言標(biāo)記序列,視頻分別由基于 CNN 的編碼器和現(xiàn)成的語(yǔ)音識(shí)別技術(shù)進(jìn)行預(yù)處理。單個(gè) Transformer 編碼器在處理后的數(shù)據(jù)上接受訓(xùn)練,以學(xué)習(xí)視頻字幕等下游任務(wù)的視覺(jué)語(yǔ)言表示。此外,UniViLM建議引入生成任務(wù)以進(jìn)一步預(yù)訓(xùn)練在下游任務(wù)中使用的解碼器。
圖像-文本
除了用于視頻語(yǔ)言預(yù)訓(xùn)練的方法外,還有一些作品在圖像文本對(duì)上引入了 PTM,旨在適應(yīng)視覺(jué)問(wèn)答 (VQA) 和視覺(jué)常識(shí)推理 (VCR) 等下游任務(wù)。幾個(gè)提議的模型采用兩個(gè)獨(dú)立的編碼器進(jìn)行圖像和文本表示,例如 ViLBERT和 LXMERT。而其他方法如 VisualBERT、B2T2、VLBERT、Unicoder-VL和 UNITER則提出了單流統(tǒng)一 Transformer。盡管這些模型架構(gòu)不同,但在這些方法中引入了類(lèi)似的預(yù)訓(xùn)練任務(wù),例如 MLM 和圖像文本匹配。為了更好地利用視覺(jué)元素,在由預(yù)訓(xùn)練的 Transformer 編碼之前,通過(guò)應(yīng)用 RoI 或邊界框檢索技術(shù)將圖像轉(zhuǎn)換為區(qū)域序列。
音頻-文本
此外,有幾種方法探索了 PTM 在音頻-文本對(duì)上的可能性,例如 SpeechBERT。這項(xiàng)工作試圖通過(guò)使用單個(gè) Transformer 編碼器對(duì)音頻和文本進(jìn)行編碼來(lái)構(gòu)建端到端語(yǔ)音問(wèn)答 (SQA) 模型,該編碼器在語(yǔ)音和文本語(yǔ)料庫(kù)上使用 MLM 進(jìn)行了預(yù)訓(xùn)練,并在問(wèn)答上進(jìn)行了微調(diào)。
指定域與指定任務(wù)PTM
大多數(shù)公開(kāi)可用的 PTM 都是在通用領(lǐng)域語(yǔ)料庫(kù)(例如維基百科)上進(jìn)行訓(xùn)練的,這將它們的應(yīng)用程序限制在特定領(lǐng)域或任務(wù)上。最近,一些研究提出了在專(zhuān)業(yè)語(yǔ)料庫(kù)上訓(xùn)練的 PTM,例如 BioBERT 用于生物醫(yī)學(xué)文本,SciBERT用于科學(xué)文本,ClinicalBERT用于臨床文本。
除了對(duì)特定領(lǐng)域的 PTM 進(jìn)行預(yù)訓(xùn)練外,一些工作還嘗試使可用的預(yù)訓(xùn)練模型適應(yīng)目標(biāo)應(yīng)用,例如生物醫(yī)學(xué)實(shí)體規(guī)范化、專(zhuān)利分類(lèi) 、進(jìn)度筆記分類(lèi)和關(guān)鍵字提取。
還提出了一些面向任務(wù)的預(yù)訓(xùn)練任務(wù),例如用于情感分析的SentiLR 中的情感標(biāo)簽感知 MLM、用于文本摘要的 Gap Sentence Generation (GSG)和用于不流暢檢測(cè)的噪聲詞檢測(cè)。
模型壓縮
由于 PTM 通常至少包含數(shù)億個(gè)參數(shù),因此它們很難部署在現(xiàn)實(shí)生活應(yīng)用中的在線(xiàn)服務(wù)和資源受限的設(shè)備上。模型壓縮是一種減小模型大小和提高計(jì)算效率的潛在方法。
有五種壓縮 PTM的方法:(1) 模型剪枝,刪除不太重要的參數(shù),(2) 權(quán)重量化,使用更少的比特來(lái)表示參數(shù),(3) 相似模型單元之間的參數(shù)共享, (4) 知識(shí)蒸餾,它訓(xùn)練一個(gè)較小的學(xué)生模型,該模型從原始模型的中間輸出中學(xué)習(xí);(5) 模塊替換,用更緊湊的替代品替換原始 PTM 的模塊。
模型剪枝
模型剪枝是指去除部分神經(jīng)網(wǎng)絡(luò)(例如權(quán)重、神經(jīng)元、層、通道、注意力頭),從而達(dá)到減小模型尺寸和加快推理時(shí)間的效果。
戈登等人探討了剪枝的時(shí)間(例如,在預(yù)訓(xùn)練期間,下游微調(diào)之后的修剪)和剪枝制度。米歇爾等人和 Voita 等人試圖修剪transformer中的整個(gè)自注意力頭。
量化
量化是指將精度較高的參數(shù)壓縮到較低的精度。沉等人的作品和 Zafrir 等人只關(guān)注這個(gè)領(lǐng)域。請(qǐng)注意,量化通常需要兼容的硬件。
參數(shù)共享
另一種眾所周知的減少參數(shù)數(shù)量的方法是參數(shù)共享,它廣泛用于 CNN、RNN 和 Transformer 。 ALBERT使用跨層參數(shù)共享和分解嵌入?yún)?shù)化來(lái)減少 PTM 的參數(shù)。雖然參數(shù)數(shù)量大大減少,但 ALBERT 的訓(xùn)練和推理時(shí)間甚至比標(biāo)準(zhǔn) BERT 還要長(zhǎng)。
通常,參數(shù)共享不會(huì)提高推理階段的計(jì)算效率。
知識(shí)蒸餾
知識(shí)蒸餾 (KD) 是一種壓縮技術(shù),其中訓(xùn)練稱(chēng)為學(xué)生模型的小模型來(lái)重現(xiàn)稱(chēng)為教師模型的大型模型的行為。在這里,教師模型可以是許多模型的集合,并且通常經(jīng)過(guò)良好的預(yù)訓(xùn)練。與模型壓縮不同,蒸餾技術(shù)通過(guò)一些優(yōu)化目標(biāo)從固定的教師模型中學(xué)習(xí)一個(gè)小的學(xué)生模型,而壓縮技術(shù)旨在搜索更稀疏的架構(gòu)。
一般來(lái)說(shuō),蒸餾機(jī)制可以分為三種類(lèi)型:(1)從軟目標(biāo)概率蒸餾,(2)從其他知識(shí)蒸餾,以及(3)蒸餾到其他結(jié)構(gòu):
從軟目標(biāo)概率蒸餾。Bucilua 等人表明讓學(xué)生接近教師模型可以將知識(shí)從教師轉(zhuǎn)移到學(xué)生。一種常見(jiàn)的方法是逼近教師模型的對(duì)數(shù)。 DistilBERT在教師的軟目標(biāo)概率上使用蒸餾損失訓(xùn)練學(xué)生模型:
[mathcal{L}_{KD-CE} = sum_i t_i cdot log (s_i)
]
(t_i, s_i)分別表示老師和學(xué)生評(píng)估的概率。
從軟目標(biāo)概率中提取也可用于特定于任務(wù)的模型,例如信息檢索 和序列標(biāo)記。
從其他知識(shí)蒸餾。 軟目標(biāo)概率的提煉將教師模型視為一個(gè)黑匣子,只關(guān)注其輸出。分解教師模型,提煉更多的知識(shí)可以為學(xué)生模型帶來(lái)改進(jìn)。
TinyBERT使用嵌入輸出、隱藏狀態(tài)和自注意力分布執(zhí)行層到層蒸餾。 MobileBERT還使用軟目標(biāo)概率、隱藏狀態(tài)和自注意力分布執(zhí)行層到層蒸餾。 MiniLM從教師模型中提取自注意力分布和自注意力值關(guān)系。
此外,其他模型通過(guò)多種方法提煉知識(shí)。孫等人介紹了一種“耐心”的師生機(jī)制,Liu 等人利用 KD 來(lái)改進(jìn)預(yù)訓(xùn)練的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)。
蒸餾成其他結(jié)構(gòu)。一般來(lái)說(shuō),學(xué)生模型除了較小的層尺寸和較小的隱藏尺寸,結(jié)構(gòu)與教師模型相同。然而,不僅減少參數(shù)而且簡(jiǎn)化從 Transformer 到 RNN或 CNN的模型結(jié)構(gòu)可以降低計(jì)算復(fù)雜度。
模塊替換
模塊替換是一種有趣且簡(jiǎn)單的減小模型尺寸的方法,它用更緊湊的替代品替換了原始 PTM 的大模塊。徐等人提出了忒修斯壓縮,由一個(gè)名為“忒修斯之船”的著名思想實(shí)驗(yàn)激發(fā),該實(shí)驗(yàn)逐漸將源模型中的模塊替換為更少的參數(shù)。與KD不同,忒修斯壓縮只需要一個(gè)特定任務(wù)的損失函數(shù)。壓縮過(guò)的模型,BERT-of-Theseus,比之前快1.94倍,表現(xiàn)為原來(lái)的98%。
提前退出
另一種減少推理時(shí)間的有效方法是提前退出,它允許模型在出口處提前退出,而不是通過(guò)整個(gè)模型。要執(zhí)行的層數(shù)取決于輸入。
提前退出的想法首先應(yīng)用于計(jì)算機(jī)視覺(jué),例如 BranchyNet和 Shallow-Deep Network。隨著深度預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn),最近采用提前退出來(lái)加速基于 Transformer 的模型。作為一項(xiàng)先驅(qū)工作,Universal Transformer使用自適應(yīng)計(jì)算時(shí)間(ACT)機(jī)制來(lái)實(shí)現(xiàn)輸入自適應(yīng)計(jì)算。埃爾巴亞德等人。提出了用于機(jī)器翻譯的深度自適應(yīng)變換器,它學(xué)習(xí)預(yù)測(cè)特定序列或標(biāo)記需要多少解碼層。 Liu 等人沒(méi)有學(xué)習(xí)需要多少計(jì)算量。分別提出了基于互信息(MI)和重建損失的兩種估計(jì)方法,以直接為每個(gè)樣本分配適當(dāng)?shù)挠?jì)算。
最近,DeeBERT、RightTool、FastBERT、ELBERT、PABEE被提出來(lái)減少Transformer編碼器的計(jì)算。他們的方法通常包含兩個(gè)步驟:(a)訓(xùn)練注入的出口匝道(又名內(nèi)部分類(lèi)器),以及(b)設(shè)計(jì)退出策略來(lái)決定是否退出。
通常,訓(xùn)練目標(biāo)是所有出口匝道交叉熵?fù)p失的加權(quán)和
[mathcal{L}_{early-exit} = sum_{i=1}^M w_i cdot mathcal{L}_i
]
其中(M)是出口匝道的數(shù)量。 FastBERT 采用自蒸餾損失,用最終分類(lèi)器生成的軟目標(biāo)訓(xùn)練每個(gè)出口。廖等人通過(guò)考慮過(guò)去和未來(lái)的信息來(lái)改進(jìn)目標(biāo)。特別是,出口匝道被訓(xùn)練為聚合過(guò)去層的隱藏狀態(tài),并近似于未來(lái)層的隱藏狀態(tài)。此外,Sun 等人從集成學(xué)習(xí)和互信息的角度開(kāi)發(fā)了一個(gè)新的訓(xùn)練目標(biāo),通過(guò)該目標(biāo)將出口作為一個(gè)集成進(jìn)行訓(xùn)練。他們提出的目標(biāo)不僅優(yōu)化了每個(gè)出口匝道的準(zhǔn)確性,還優(yōu)化了出口匝道的多樣性。
在推理過(guò)程中,需要一個(gè)退出策略來(lái)決定是提前退出還是繼續(xù)下一層。 DeeBERT、FastBERT、Liao 等人采用預(yù)測(cè)分布的熵作為現(xiàn)有標(biāo)準(zhǔn)。同樣,RightTool使用最大的 softmax 分?jǐn)?shù)來(lái)決定是否退出。 PABEE 開(kāi)發(fā)了一種基于耐心的策略,當(dāng)連續(xù)層的預(yù)測(cè)不變時(shí),允許樣本退出。此外,Sun 等人采用基于投票的策略,讓所有過(guò)去的出口匝道投票決定是否退出。此外,李等人提出了一種基于窗口的不確定性作為退出標(biāo)準(zhǔn),以實(shí)現(xiàn)序列標(biāo)記任務(wù)的字符級(jí)提前退出(TokEE)。
使 PTM 適應(yīng)下游任務(wù)
盡管 PTM 從大型語(yǔ)料庫(kù)中捕獲通用語(yǔ)言知識(shí),但如何有效地將其知識(shí)應(yīng)用于下游任務(wù)仍然是一個(gè)關(guān)鍵問(wèn)題。
遷移學(xué)習(xí)
遷移學(xué)習(xí)是將源任務(wù)(或領(lǐng)域)的知識(shí)調(diào)整到目標(biāo)任務(wù)(或領(lǐng)域)。
NLP中的遷移學(xué)習(xí)有很多種,如領(lǐng)域適應(yīng)、跨語(yǔ)言學(xué)習(xí)、多任務(wù)學(xué)習(xí)等。使 PTM 適應(yīng)下游任務(wù)是順序遷移學(xué)習(xí)任務(wù),其中任務(wù)是順序?qū)W習(xí)的,目標(biāo)任務(wù)有標(biāo)記數(shù)據(jù)。
如何遷移
要將 PTM 的知識(shí)轉(zhuǎn)移到下游 NLP 任務(wù),我們需要考慮以下問(wèn)題:
選擇合適的預(yù)訓(xùn)練任務(wù)、結(jié)構(gòu)和語(yǔ)料
不同的 PTM 通常對(duì)同一個(gè)下游任務(wù)有不同的影響,因?yàn)檫@些 PTM 是用各種預(yù)訓(xùn)練任務(wù)、模型架構(gòu)和語(yǔ)料庫(kù)進(jìn)行訓(xùn)練的。
目前,語(yǔ)言模型是最流行的預(yù)訓(xùn)練任務(wù),可以更有效地解決范圍廣泛的 NLP 問(wèn)題。然而,不同的預(yù)訓(xùn)練任務(wù)有自己的偏差,對(duì)不同的任務(wù)產(chǎn)生不同的效果。例如,NSP 任務(wù)使 PTM 理解兩個(gè)句子之間的關(guān)系。因此,PTM 可以使諸如問(wèn)答 (QA) 和自然語(yǔ)言推理 (NLI) 等下游任務(wù)受益。
PTM 的架構(gòu)對(duì)于下游任務(wù)也很重要。例如,盡管 BERT 有助于大多數(shù)自然語(yǔ)言理解任務(wù),但生成語(yǔ)言卻很困難。
下游任務(wù)的數(shù)據(jù)分布應(yīng)該近似于 PTM。目前,有大量現(xiàn)成的 PTM,它們可以方便地用于各種特定領(lǐng)域或特定語(yǔ)言的下游任務(wù)。
因此,給定一個(gè)目標(biāo)任務(wù),選擇經(jīng)過(guò)適當(dāng)?shù)念A(yù)訓(xùn)練任務(wù)、架構(gòu)和語(yǔ)料庫(kù)訓(xùn)練的 PTM 總是一個(gè)很好的解決方案。
選擇合適的網(wǎng)絡(luò)層
給出一個(gè)預(yù)訓(xùn)練深度網(wǎng)絡(luò),不同的層應(yīng)該捕捉到不同類(lèi)型的信息,例如位置標(biāo)簽、語(yǔ)法規(guī)則、長(zhǎng)距離依賴(lài)、語(yǔ)義角色、互指。對(duì)于基于RNN的模型來(lái)說(shuō),Belinkov 和 Melamud表示,一個(gè)多層LSTM編碼器的不同層學(xué)習(xí)得到的表示對(duì)不同任務(wù)的作用不同。對(duì)于基于transformer的預(yù)訓(xùn)練模型,Tenny發(fā)現(xiàn)BERT表達(dá)傳統(tǒng)NLP的各個(gè)步驟:基礎(chǔ)的句法信息在網(wǎng)絡(luò)的早期表現(xiàn)出來(lái),而高級(jí)的語(yǔ)義信息在高層出現(xiàn)。
用(H^{(l)}(1 leq l leq L))表示共(L)層的預(yù)訓(xùn)練模型第(l)層網(wǎng)絡(luò)的表示,(g(cdot))代表目標(biāo)任務(wù)的特定模型。
有三種方式選擇表達(dá):
只選擇詞嵌入:一種方法是只選擇預(yù)先訓(xùn)練好的靜態(tài)嵌入,而模型的其余部分仍然需要為新的目標(biāo)任務(wù)從頭開(kāi)始訓(xùn)練。
它們無(wú)法捕獲可能更有用的更高級(jí)別的信息。詞嵌入僅用于捕獲詞的語(yǔ)義含義,但我們還需要理解詞義等更高層次的概念。
頂層:最簡(jiǎn)單有效的方法是將頂層的表示輸入特定任務(wù)的模型 (g(H(L) ))。
所有層:一種更靈活的方法是通過(guò)軟概率自動(dòng)選擇最佳層,如ELMO:
[r_t = gamma sum_{l=1}^L alpha_l h_t^{(l)}
]
其中(alpha_l)是第(l)層的softmax歸一化權(quán)重,(gamma)是對(duì)預(yù)訓(xùn)練模型輸出的縮放系數(shù)。該混合表示傳給模型(g(r_l))
是否要進(jìn)行微調(diào)
目前,模型遷移有兩種常見(jiàn)的方式:特征提取(預(yù)訓(xùn)練參數(shù)被凍結(jié))和微調(diào)(預(yù)訓(xùn)練參數(shù)被解凍和微調(diào))。
在特征提取方式中,預(yù)訓(xùn)練的模型被視為現(xiàn)成的特征提取器。此外,暴露內(nèi)部層很重要,因?yàn)樗鼈兺ǔ>幋a最可轉(zhuǎn)移的表示 。
盡管這兩種方式都可以顯著受益于大多數(shù) NLP 任務(wù),但特征提取方式需要更復(fù)雜的特定于任務(wù)的架構(gòu)。因此,對(duì)于許多不同的下游任務(wù),微調(diào)方式通常比特征提取方式更通用和方便。
微調(diào)策略
隨著 PTM 深度的增加,它們捕獲的表示使得下游任務(wù)變得更加容易。因此,整個(gè)模型的任務(wù)特定層很簡(jiǎn)單。自 ULMFit 和 BERT 以來(lái),fine-tuning 成為 PTMs 的主要適應(yīng)方法。然而,微調(diào)的過(guò)程通常很脆弱:即使具有相同的超參數(shù)值,不同的隨機(jī)種子也會(huì)導(dǎo)致截然不同的結(jié)果。
除了標(biāo)準(zhǔn)的微調(diào)之外,還有一些有用的微調(diào)策略。
兩階段微調(diào)
另一種解決方案是兩階段轉(zhuǎn)移,它在預(yù)訓(xùn)練和微調(diào)之間引入了一個(gè)中間階段。在第一階段,PTM 被轉(zhuǎn)換成一個(gè)由中間任務(wù)或語(yǔ)料庫(kù)微調(diào)的模型。在第二階段,遷移的模型針對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)。孫等人表明,對(duì)相關(guān)領(lǐng)域語(yǔ)料庫(kù)的“進(jìn)一步預(yù)訓(xùn)練”可以進(jìn)一步提高 BERT 的能力,并在八個(gè)廣泛研究的文本分類(lèi)數(shù)據(jù)集上取得了最先進(jìn)的性能。彭等人和 Garg 等人引入了與目標(biāo)任務(wù)相關(guān)的中間監(jiān)督任務(wù),為BERT、GPT和ELMo帶來(lái)了很大的改進(jìn)。李等人還對(duì)故事結(jié)局預(yù)測(cè)使用了兩階段轉(zhuǎn)移。提出的 TransBERT(可轉(zhuǎn)移 BERT)不僅可以從大規(guī)模未標(biāo)記數(shù)據(jù)中轉(zhuǎn)移通用語(yǔ)言知識(shí),還可以從各種語(yǔ)義相關(guān)的監(jiān)督任務(wù)中轉(zhuǎn)移特定種類(lèi)的知識(shí)。
多任務(wù)微調(diào)
劉等人在多任務(wù)學(xué)習(xí)框架下對(duì)BERT進(jìn)行了微調(diào),這表明多任務(wù)學(xué)習(xí)和預(yù)訓(xùn)練是互補(bǔ)的技術(shù)。
使用額外的適配模塊進(jìn)行微調(diào)
微調(diào)的主要缺點(diǎn)是參數(shù)效率低下:每個(gè)下游任務(wù)都有自己的微調(diào)參數(shù)。因此,更好的解決方案是在原始參數(shù)固定的情況下,在 PTM 中注入一些可微調(diào)的適配模塊。
Stickland 和 Murray 為單個(gè)共享 BERT 模型配備了小的附加任務(wù)特定的適應(yīng)模塊、投影注意層(PAL)。與 PAL 共享的 BERT 與 GLUE 基準(zhǔn)測(cè)試中單獨(dú)微調(diào)的模型相匹配,參數(shù)減少了大約 7 倍。同樣,Houlsby 等人通過(guò)添加適配器模塊修改了預(yù)訓(xùn)練 BERT 的架構(gòu)。適配器模塊產(chǎn)生緊湊且可擴(kuò)展的模型;他們只為每個(gè)任務(wù)添加幾個(gè)可訓(xùn)練的參數(shù),并且可以在不重新訪(fǎng)問(wèn)以前的任務(wù)的情況下添加新任務(wù)。原始網(wǎng)絡(luò)的參數(shù)保持固定,產(chǎn)生高度的參數(shù)共享。
其他
受廣泛使用的集成模型的成功啟發(fā),Xu 等人通過(guò)兩種有效機(jī)制改進(jìn)了BERT的微調(diào):自集成和自蒸餾,可以在不利用外部資源或顯著降低訓(xùn)練效率的情況下提高BERT在下游任務(wù)上的性能。他們?cè)趩蝹€(gè)訓(xùn)練過(guò)程中集成了集成和蒸餾。教師模型是一個(gè)集成模型,通過(guò)在之前的時(shí)間步驟中對(duì)幾個(gè)學(xué)生模型進(jìn)行參數(shù)平均。
逐漸解凍也是從頂層開(kāi)始逐漸解凍 PTM 層的有效方法,不是同時(shí)微調(diào)所有層。 Chronopoulou 等提出了一種更簡(jiǎn)單的解凍方法,順序解凍,它首先只微調(diào)隨機(jī)初始化的任務(wù)特定層,然后解凍PTM的隱藏層,最后解凍嵌入層。
李和Eisner使用可變信息平靜模塊,在只保持對(duì)目標(biāo)任務(wù)有用信息的情況下,壓縮了ELMo的詞嵌入。
總的來(lái)說(shuō),以上工作表現(xiàn)了PTM的表現(xiàn)可以通過(guò)更好的微調(diào)策略來(lái)提高。
基于提示的調(diào)優(yōu)
縮小預(yù)訓(xùn)練和微調(diào)之間的差距可以進(jìn)一步提高 PTM 在下游任務(wù)上的性能。另一種方法是通過(guò)設(shè)計(jì)適當(dāng)?shù)奶崾緦⑾掠稳蝿?wù)重新構(gòu)成 MLM 任務(wù)。基于提示的方法在少樣本設(shè)置、零樣本設(shè)置甚至全監(jiān)督設(shè)置中顯示出強(qiáng)大的力量。當(dāng)前的基于提示的方法可以根據(jù)提示是離散的還是連續(xù)的分為兩個(gè)分支。
離散提示
離散提示是要插入到輸入文本中的一系列單詞,它有助于 PTM 更好地對(duì)下游任務(wù)進(jìn)行建模。孫等人通過(guò)將基于方面的情感分析 (ABSA) 任務(wù)轉(zhuǎn)換為句子對(duì)分類(lèi)任務(wù)來(lái)構(gòu)建輔助句子,但其模型參數(shù)仍需要微調(diào)。 GPT-3提出了上下文學(xué)習(xí),將原始輸入與任務(wù)描述和一些示例連接起來(lái)。通過(guò)這種方式,GPT-3 可以在不調(diào)整參數(shù)的情況下實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的性能。此外,Petroni 等人發(fā)現(xiàn)在適當(dāng)?shù)氖謩?dòng)提示下,BERT 可以在沒(méi)有訓(xùn)練的情況下在實(shí)體預(yù)測(cè)任務(wù)(LAMA)上表現(xiàn)良好。除了 LAMA,Schick 和 Schutze提出了 PET,它為各種文本分類(lèi)和蘊(yùn)含任務(wù)設(shè)計(jì)了離散提示。然而,手動(dòng)設(shè)計(jì)提示是一種次優(yōu)化,因此,許多方法都試圖自動(dòng)生成提示,LPAQA使用了兩種方法,即基于挖掘的生成和基于釋義的生成,以找到表達(dá)特定關(guān)系的最佳模式。AutoPrompt通過(guò)梯度引導(dǎo)搜索找到最佳提示。 LM-BFF采用 T5自動(dòng)生成提示。
連續(xù)提示
另一種選擇不是尋找最佳的具體提示,而是直接在連續(xù)空間中優(yōu)化提示,即提示向量不一定是 PTM 的詞類(lèi)型嵌入。優(yōu)化的連續(xù)提示與詞類(lèi)型嵌入連接,然后輸入 PTM。秦和艾斯納和鐘等人發(fā)現(xiàn)優(yōu)化的連續(xù)提示在關(guān)系任務(wù)上可以勝過(guò)具體提示(包括手動(dòng)、挖掘(LPAQA)和梯度搜索(AutoPrompt提示)。WARP在輸入序列之前、之間和之后插入可訓(xùn)練的連續(xù)提示標(biāo)記,同時(shí)保持 PTM 的參數(shù)固定,從而在 GLUE 基準(zhǔn)測(cè)試中獲得可觀的性能。Prefix-Tuning插入連續(xù)的提示作為表格-文字生成任務(wù)中的GPT-2或總結(jié)任務(wù)中的BART的輸入前綴。Prefix-Tuning作為一種高效調(diào)參策略,在全監(jiān)督設(shè)置中得到了相當(dāng)有競(jìng)爭(zhēng)力的表現(xiàn),并在少鏡頭設(shè)置中優(yōu)于模型微調(diào)。此外,P-Tuning 表明,在連續(xù)提示的情況下,GPT 在自然語(yǔ)言理解 (NLU) 任務(wù)上也可以達(dá)到與類(lèi)似大小的 BERT 相當(dāng)甚至更好的性能。最近,萊斯特等人表明,提示微調(diào)隨著規(guī)模的擴(kuò)大而更具競(jìng)爭(zhēng)力。當(dāng) PTM 超過(guò)數(shù)十億個(gè)參數(shù)時(shí),模型微調(diào)和提示微調(diào)之間的差距可以縮小,這使得基于提示的調(diào)優(yōu)成為高效服務(wù)大規(guī)模 PTM 的一種非常有前景的方法。
應(yīng)用
在本節(jié)中,我們總結(jié)了 PTM 在幾個(gè)經(jīng)典 NLP 任務(wù)中的一些應(yīng)用。
一般評(píng)價(jià)基準(zhǔn)
NLP 社區(qū)有一個(gè)基本問(wèn)題,即我們?nèi)绾我钥杀容^的指標(biāo)評(píng)估 PTM。因此,大規(guī)模基準(zhǔn)測(cè)試是必要的。
通用語(yǔ)言理解評(píng)估 (GLUE) 基準(zhǔn)是九個(gè)自然語(yǔ)言理解任務(wù)的集合,包括單句分類(lèi)任務(wù)(CoLA 和 SST-2)、成對(duì)文本分類(lèi)任務(wù)(MNLI、RTE、WNLI、QQP 和MRPC)、文本相似性任務(wù) (STSB) 和相關(guān)排序任務(wù) (QNLI)。 GLUE 基準(zhǔn)是為評(píng)估模型的穩(wěn)健性和泛化而精心設(shè)計(jì)的。 GLUE 不提供測(cè)試集的標(biāo)簽,而是設(shè)置評(píng)估服務(wù)器。
然而,由于近年來(lái)的進(jìn)步極大地侵蝕了 GLUE 基準(zhǔn)的凈空,因此提出了一個(gè)名為 SuperGLUE的新基準(zhǔn)。與GLUE相比,SuperGLUE具有更加挑戰(zhàn)性的任務(wù)和更多樣化的任務(wù)格式。
問(wèn)答
問(wèn)答(QA),或狹義的機(jī)器閱讀理解(MRC)概念,是 NLP 社區(qū)的重要應(yīng)用。從易到難,QA 任務(wù)分為三種類(lèi)型:?jiǎn)屋喅槿∈?QA (SQuAD) 、多輪生成式 QA (CoQA) 和多跳 QA (HotpotQA) 。
BERT創(chuàng)造性地將抽取式QA轉(zhuǎn)換為跨度預(yù)測(cè)任務(wù),包括預(yù)測(cè)起始跨度標(biāo)簽和結(jié)束跨度標(biāo)簽。之后,預(yù)訓(xùn)練模型作為預(yù)測(cè)跨度的編碼器,一直有很好的表現(xiàn)。對(duì)于抽取式QA,張等人提出了一個(gè)回顧閱讀器結(jié)構(gòu)并用預(yù)訓(xùn)練模型初始化編碼器。對(duì)于多輪對(duì)話(huà)來(lái)說(shuō),Ju等人提出“預(yù)訓(xùn)練+對(duì)抗訓(xùn)練+基本原理標(biāo)記+知識(shí)蒸餾”模型,對(duì)于多跳QA,Tu等人提出了可解釋的“選擇、解答、解釋”(SAE)系統(tǒng),預(yù)訓(xùn)練模型在選擇模塊中作為編碼器。
通常,所提出的 QA 模型中的編碼器參數(shù)通過(guò) PTM 初始化,其他參數(shù)隨機(jī)初始化。
情感分析
BERT通過(guò)簡(jiǎn)單地對(duì) SST-2 進(jìn)行微調(diào),性能優(yōu)于以前的最先進(jìn)模型,SST-2 是一種廣泛使用的情緒分析 (SA) 數(shù)據(jù)集。 Bataa 和 Wu將 BERT 與遷移學(xué)習(xí)技術(shù)結(jié)合使用,并在日本 SA 中實(shí)現(xiàn)了新的最新?tīng)顟B(tài)。
盡管他們?cè)诤?jiǎn)單的情感分類(lèi)方面取得了成功,但將 BERT 直接應(yīng)用于基于方面的情感分析(ABSA),這是一項(xiàng)細(xì)粒度的 SA 任務(wù),顯示出不太顯著的改進(jìn)。為了更好地利用 BERT 的強(qiáng)大表示,Sun 等人通過(guò)將 ABSA 從單個(gè)句子分類(lèi)任務(wù)轉(zhuǎn)換為句子對(duì)分類(lèi)任務(wù)來(lái)構(gòu)建輔助句子。徐等人提出了后訓(xùn)練,使 BERT 從其源域和任務(wù)適應(yīng) ABSA 域和任務(wù)。此外,Rietzler 等人通過(guò)分析具有 ABSA 性能的跨域后訓(xùn)練的行為,擴(kuò)展了的工作。卡里米等人表明可以通過(guò)對(duì)抗性訓(xùn)練進(jìn)一步提高后訓(xùn)練 BERT 的性能。宋等人添加了一個(gè)額外的池化模塊,它可以實(shí)現(xiàn)為 LSTM 或注意力機(jī)制,以利用 BERT 中間層進(jìn)行 ABSA。此外,李等人共同學(xué)習(xí)面向端到端 ABSA 的方面檢測(cè)和情感分類(lèi)。 SentiLR從 SentiWordNet 獲取詞性標(biāo)簽和先驗(yàn)情感極性,并采用標(biāo)簽感知 MLM 利用引入的語(yǔ)言知識(shí)來(lái)捕捉句子級(jí)情感標(biāo)簽和詞級(jí)情感轉(zhuǎn)變之間的關(guān)系。 SentiLR 在多個(gè)句子和方面級(jí)別的情感分類(lèi)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能。
對(duì)于情感轉(zhuǎn)移,Wu 等人提出了基于 BERT 的“Mask and Infill”。在掩碼步驟中,該模型通過(guò)掩蔽情感標(biāo)記將情感與內(nèi)容分開(kāi)。在填充步驟中,它使用 BERT 和目標(biāo)情緒嵌入來(lái)填充掩碼區(qū)域。
命名體識(shí)別
命名實(shí)體識(shí)別 (NER) 在信息提取中并在許多 NLP 下游任務(wù)中發(fā)揮著重要作用。在深度學(xué)習(xí)中,大多數(shù) NER 方法都在序列標(biāo)注框架中。句子中的實(shí)體信息會(huì)轉(zhuǎn)化為標(biāo)簽序列,一個(gè)標(biāo)簽對(duì)應(yīng)一個(gè)詞。該模型用于預(yù)測(cè)每個(gè)單詞的標(biāo)簽。由于ELMo和BERT在 NLP 中展示了他們的力量,關(guān)于NER的預(yù)訓(xùn)練模型有很多工作。
阿克比克等人使用預(yù)訓(xùn)練的字符級(jí)語(yǔ)言模型為 NER 生成詞級(jí)嵌入。 TagLM和 ELMo使用預(yù)訓(xùn)練語(yǔ)言模型的最后一層輸出和每層輸出的加權(quán)和作為詞嵌入的一部分。劉等人使用逐層修剪和全連接來(lái)加速 ELMo 對(duì) NER 的推理。德夫林等人使用第一個(gè) BPE 的 BERT 表示在沒(méi)有 CRF 的情況下預(yù)測(cè)每個(gè)單詞的標(biāo)簽。皮雷斯等人通過(guò)多語(yǔ)言 BERT 實(shí)現(xiàn)了零樣本 NER。蔡等人利用知識(shí)蒸餾在單個(gè) CPU 上為 NER 運(yùn)行小型 BERT。此外,BERT 還用于特定領(lǐng)域的 NER,例如生物醫(yī)學(xué)等。
機(jī)器翻譯
機(jī)器翻譯 (MT) 是 NLP 社區(qū)中的一項(xiàng)重要任務(wù),吸引了許多研究人員。幾乎所有的神經(jīng)機(jī)器翻譯 (NMT) 模型都共享編碼器-解碼器框架,該框架首先通過(guò)編碼器將輸入標(biāo)記編碼為隱藏表示,然后從解碼器解碼目標(biāo)語(yǔ)言中的輸出標(biāo)記。拉馬錢(qián)德蘭等人發(fā)現(xiàn)編碼器-解碼器模型可以通過(guò)使用兩種語(yǔ)言模型的預(yù)訓(xùn)練權(quán)重初始化編碼器和解碼器來(lái)顯著改進(jìn)。埃杜諾夫等人使用 ELMo 在 NMT 模型中設(shè)置詞嵌入層。這項(xiàng)工作通過(guò)使用預(yù)訓(xùn)練的語(yǔ)言模型進(jìn)行源詞嵌入初始化,展示了英語(yǔ)-土耳其語(yǔ)和英語(yǔ)-德語(yǔ) NMT 模型的性能改進(jìn)。
鑒于 BERT 在其他 NLP 任務(wù)上的出色表現(xiàn),研究如何將 BERT 納入 NMT 模型是很自然的。 Conneau 和 Lample嘗試通過(guò)多語(yǔ)言預(yù)訓(xùn)練 BERT 模型初始化整個(gè)編碼器和解碼器,并表明在無(wú)監(jiān)督 MT 和英語(yǔ)-羅馬尼亞語(yǔ)監(jiān)督 MT 上可以實(shí)現(xiàn)顯著改進(jìn)。類(lèi)似地,Clinchant等人推薦了一系列不同的實(shí)驗(yàn)來(lái)測(cè)試使用BERT作為NMT模型的編碼器的最佳方法。他們通過(guò)使用 BERT 作為編碼器的初始化實(shí)現(xiàn)了一些改進(jìn)。此外,他們發(fā)現(xiàn)這些模型可以在域外數(shù)據(jù)集上獲得更好的性能。Imamura 和 Sumita提出了一種用于 NMT 的兩階段 BERT 微調(diào)方法。在第一階段,編碼器由預(yù)訓(xùn)練的 BERT 模型初始化,它們僅在訓(xùn)練集上訓(xùn)練解碼器。在第二階段,整個(gè) NMT 模型在訓(xùn)練集上聯(lián)合微調(diào)。通過(guò)實(shí)驗(yàn),他們表明這種方法可以超越直接對(duì)整個(gè)模型進(jìn)行微調(diào)的單階段微調(diào)方法。除此之外,朱等人建議使用預(yù)訓(xùn)練的 BERT 作為額外的內(nèi)存來(lái)促進(jìn) NMT 模型。具體來(lái)說(shuō),他們首先通過(guò)預(yù)訓(xùn)練的 BERT 對(duì)輸入單詞進(jìn)行編碼,并使用最后一層的輸出作為額外的內(nèi)存。然后,NMT 模型可以通過(guò)編碼器和解碼器每一層中的額外注意力模塊訪(fǎng)問(wèn)內(nèi)存。他們?cè)诒O(jiān)督方面表現(xiàn)出明顯的改善, 半監(jiān)督和無(wú)監(jiān)督 MT。
MASS(Masked Sequence-to-Sequence Pre-Training)不是僅預(yù)訓(xùn)練編碼器,而是利用 Seq2Seq MLM 聯(lián)合預(yù)訓(xùn)練編碼器和解碼器。在實(shí)驗(yàn)中,這種方法在無(wú)監(jiān)督 MT 和英語(yǔ)-羅馬尼亞語(yǔ)監(jiān)督 MT 上都可以超越 Conneau 和 Lample 提出的 BERT 式預(yù)訓(xùn)練。與 MASS 不同,mBART是 BART的多語(yǔ)言擴(kuò)展,它與 Seq2Seq 去噪自動(dòng)編碼器 (DAE) 任務(wù)一起在 25 種語(yǔ)言的大規(guī)模單語(yǔ)語(yǔ)料庫(kù)上預(yù)訓(xùn)練編碼器和解碼器。實(shí)驗(yàn)表明,mBART 可以在句子級(jí)別和文檔級(jí)別顯著改善有監(jiān)督和無(wú)監(jiān)督機(jī)器翻譯。
摘要
摘要,旨在產(chǎn)生一個(gè)較短的文本,保留較長(zhǎng)文本的大部分含義,近年來(lái)引起了 NLP 社區(qū)的關(guān)注。自從廣泛使用 PTM 以來(lái),該任務(wù)得到了顯著改善。鐘等人引入了可轉(zhuǎn)移的知識(shí)(例如,BERT)進(jìn)行總結(jié)并超越了以前的模型。張等人嘗試預(yù)訓(xùn)練一個(gè)文檔級(jí)模型,該模型預(yù)測(cè)句子而不是單詞,然后將其應(yīng)用于諸如摘要之類(lèi)的下游任務(wù)。更詳細(xì)地說(shuō),張等人為預(yù)訓(xùn)練設(shè)計(jì)了 Gap Sentence Generation (GSG) 任務(wù),其目標(biāo)涉及從輸入生成類(lèi)似摘要的文本。另外,Liu和Lapata設(shè)計(jì)了BERTSUM。BERTSUM 包括一個(gè)新穎的文檔級(jí)編碼器,以及一個(gè)用于提取摘要和抽象摘要的通用框架。
在編碼器框架中,BERTSUM 通過(guò)插入多個(gè) [CLS] 標(biāo)記來(lái)學(xué)習(xí)句子表示來(lái)擴(kuò)展 BERT。對(duì)于抽取式摘要,BERTSUM 堆疊了幾個(gè)句間 Transformer 層。對(duì)于抽象摘要,BERTSUM 提出了一種使用新微調(diào)計(jì)劃的兩階段微調(diào)方法。鐘等人提出了一種新穎的摘要級(jí)框架 MATCHSUM 并將概念化的提取摘要作為語(yǔ)義文本匹配問(wèn)題。他們提出了一種 Siamese-BERT 架構(gòu)來(lái)計(jì)算源文檔和候選摘要之間的相似度,并僅使用基本版本的 BERT 在 CNN / DailyMail 上取得了最先進(jìn)的結(jié)果。
對(duì)抗攻擊預(yù)防御
深度神經(jīng)模型容易受到對(duì)抗性示例的影響,這些示例可能會(huì)誤導(dǎo)模型產(chǎn)生特定的錯(cuò)誤預(yù)測(cè),而原始輸入的擾動(dòng)卻難以察覺(jué)。在 CV 中,對(duì)抗性攻擊和防御已被廣泛研究。然而,由于語(yǔ)言的離散性,它對(duì)文本仍然具有挑戰(zhàn)性。為文本生成對(duì)抗樣本需要具備以下品質(zhì):(1) 人類(lèi)法官難以察覺(jué)但會(huì)誤導(dǎo)神經(jīng)模型; (2) 語(yǔ)法流利,語(yǔ)義與原始輸入一致。金等人使用對(duì)抗性示例成功地攻擊了經(jīng)過(guò)微調(diào)的 BERT 在文本分類(lèi)和文本蘊(yùn)涵方面。華萊士等定義了通用對(duì)抗性觸發(fā)器,當(dāng)連接到任何輸入時(shí),它可以誘導(dǎo)模型產(chǎn)生特定目的的預(yù)測(cè)。某些觸發(fā)器甚至?xí)?dǎo)致 GPT-2 模型生成種族主義文本。孫等人表明 BERT 在拼寫(xiě)錯(cuò)誤方面并不穩(wěn)健。
PTM 還具有生成對(duì)抗樣本的巨大潛力。李等人提出了 BERT-Attack,這是一種基于 BERT 的高質(zhì)量有效攻擊者。他們?cè)谙掠稳蝿?wù)上將 BERT 與另一個(gè)經(jīng)過(guò)微調(diào)的 BERT 進(jìn)行了對(duì)比,并成功誤導(dǎo)目標(biāo)模型進(jìn)行錯(cuò)誤預(yù)測(cè),在成功率和擾動(dòng)百分比方面均優(yōu)于最先進(jìn)的攻擊策略,同時(shí)生成的對(duì)抗樣本流暢且語(yǔ)義保留。
此外,PTMs 的對(duì)抗性防御也很有前景,它提高了 PTMs 的魯棒性并使它們對(duì)對(duì)抗性攻擊免疫。
對(duì)抗訓(xùn)練旨在通過(guò)最小化嵌入空間中標(biāo)簽保留擾動(dòng)的最大風(fēng)險(xiǎn)來(lái)提高泛化能力。最近的工作表明對(duì)抗性預(yù)訓(xùn)練或微調(diào)可以提高 NLP 的 PTM 的泛化和魯棒性。
未來(lái)研究方向
盡管 PTM 已經(jīng)證明了它們?cè)诟鞣N NLP 任務(wù)中的能力,但由于語(yǔ)言的復(fù)雜性,挑戰(zhàn)仍然存在。在本節(jié)中,我們提出了 PTM 的五個(gè)未來(lái)方向。
預(yù)訓(xùn)練模型的上限
目前,PTM 尚未達(dá)到其上限。大多數(shù)當(dāng)前的 PTM 可以通過(guò)更多的訓(xùn)練步驟和更大的語(yǔ)料庫(kù)進(jìn)一步改進(jìn)。
NLP 的最新技術(shù)可以通過(guò)增加模型的深度來(lái)進(jìn)一步推進(jìn),例如 Megatron-LM(83 億個(gè)參數(shù),72 個(gè) Transformer 層,隱藏大小為 3072 和 32 個(gè)注意力頭)和 Turing-NLG(170 億個(gè)參數(shù),78 個(gè) Transformer 層,隱藏大小為 4256 和 28 個(gè)注意力頭)。
通用 PTM 一直是我們學(xué)習(xí)語(yǔ)言?xún)?nèi)在普遍知識(shí)(甚至世界知識(shí))的追求。然而,此類(lèi) PTM 通常需要更深的架構(gòu)、更大的語(yǔ)料庫(kù)和具有挑戰(zhàn)性的預(yù)訓(xùn)練任務(wù),這進(jìn)一步導(dǎo)致更高的訓(xùn)練成本。然而,訓(xùn)練龐大的模型也是一個(gè)具有挑戰(zhàn)性的問(wèn)題,需要更復(fù)雜、更高效的訓(xùn)練技術(shù),如分布式訓(xùn)練、混合精度、梯度累積等。 因此,更實(shí)際的方向是設(shè)計(jì)更高效的模型架構(gòu),自監(jiān)督預(yù)訓(xùn)練任務(wù)、優(yōu)化器和訓(xùn)練技能,以及使用現(xiàn)有硬件和軟件訓(xùn)練的技巧。 ELECTRA是朝著這個(gè)方向的一個(gè)很好的解決方案。
PTM 的架構(gòu)
Transformer已被證明是一種有效的預(yù)訓(xùn)練架構(gòu)。然而,Transformer 的主要限制是它的計(jì)算復(fù)雜度,它是輸入長(zhǎng)度的二次方。受 GPU 內(nèi)存的限制,當(dāng)前大多數(shù) PTM 無(wú)法處理超過(guò) 512 個(gè)標(biāo)記的序列。打破這個(gè)限制需要改進(jìn)Transformer的架構(gòu)。盡管許多工作試圖提高 Transformer 的效率,但仍有很大的改進(jìn)空間。此外,為 PTM 尋找更有效的替代非 Transformer 架構(gòu)對(duì)于捕獲更遠(yuǎn)距離的上下文信息很重要。深度架構(gòu)的設(shè)計(jì)具有挑戰(zhàn)性,我們可能會(huì)尋求一些自動(dòng)方法的幫助,例如神經(jīng)架構(gòu)搜索(NAS)。
面向任務(wù)的預(yù)訓(xùn)練和模型壓縮
在實(shí)踐中,不同的下游任務(wù)需要不同的 PTM 能力。 PTMs 和下游任務(wù)之間的差異通常在于兩個(gè)方面:模型架構(gòu)和數(shù)據(jù)分布。較大的差異可能導(dǎo)致 PTM 的好處可能微不足道。例如,文本生成通常需要一個(gè)明確的任務(wù)來(lái)預(yù)訓(xùn)練編碼器和解碼器,然而文本匹配需要設(shè)計(jì)句子對(duì)的預(yù)訓(xùn)練任務(wù)。
此外,雖然更大的 PTM 通常可以帶來(lái)更好的性能,但一個(gè)實(shí)際的問(wèn)題是如何在特殊場(chǎng)景中利用這些巨大的 PTM,例如低容量設(shè)備和低延遲應(yīng)用程序。因此,我們可以為下游任務(wù)精心設(shè)計(jì)特定的模型架構(gòu)和預(yù)訓(xùn)練任務(wù),或者從現(xiàn)有的 PTM 中提取部分特定于任務(wù)的知識(shí)。
與其從頭開(kāi)始訓(xùn)練面向任務(wù)的 PTM,我們可以通過(guò)使用模型壓縮等技術(shù)使用現(xiàn)有的通用 PTM 來(lái)教授它們。盡管 CV中廣泛研究了 CNN 的模型壓縮,但 NLP 的PTM壓縮才剛剛開(kāi)始。Transformer 的全連接結(jié)構(gòu)也讓模型壓縮更具挑戰(zhàn)性。
微調(diào)之外的知識(shí)轉(zhuǎn)移
目前,微調(diào)是將 PTM 的知識(shí)轉(zhuǎn)移到下游任務(wù)的主要方法,但一個(gè)不足是其參數(shù)效率低下:每個(gè)下游任務(wù)都有自己的微調(diào)參數(shù)。一個(gè)改進(jìn)的解決方案是修復(fù) PTM 的原始參數(shù),并為特定任務(wù)添加小的微調(diào)自適應(yīng)模塊。因此,我們可以使用共享 PTM 來(lái)服務(wù)多個(gè)下游任務(wù)。實(shí)際上,從 PTM 挖掘知識(shí)可以更靈活,例如特征提取、知識(shí)蒸餾、數(shù)據(jù)增強(qiáng),使用 PTM 作為外部知識(shí)。期待更有效的方法。
PTM 的可解釋性和可靠性
盡管 PTM 達(dá)到了令人印象深刻的性能,但其深度非線(xiàn)性架構(gòu)使得決策過(guò)程高度不透明。
最近,可解釋的人工智能 (XAI) 已成為一般 AI 社區(qū)的熱點(diǎn)。與用于圖像的 CNN 不同,由于類(lèi)似 Transformer 的架構(gòu)和語(yǔ)言的復(fù)雜性,解釋 PTM 更加困難。已經(jīng)做出了廣泛的努力來(lái)分析 PTM 中包含的語(yǔ)言和世界知識(shí),這有助于我們以一定程度的透明度理解這些 PMT。然而,模型分析的很多工作依賴(lài)于注意力機(jī)制,注意力對(duì)可解釋性的有效性仍然存在爭(zhēng)議。
另外PTM面對(duì)對(duì)抗攻擊也十分脆弱。隨著PTM的應(yīng)用在生產(chǎn)環(huán)境中越來(lái)越廣泛,他們的可靠性也倍受關(guān)心,那些關(guān)于對(duì)抗性攻擊的研究通過(guò)充分暴露缺點(diǎn)來(lái)幫助我們理解他們的能力,對(duì)抗防御也十分有前景,可以提高PTM的魯棒性,增強(qiáng)對(duì)對(duì)抗攻擊的免疫力。
總體而言,作為許多 NLP 應(yīng)用中的關(guān)鍵組件,PTM 的可解釋性和可靠性在許多方面仍有待進(jìn)一步探索,這有助于我們了解 PTM 的工作原理,并為更好地使用和進(jìn)一步改進(jìn)提供指導(dǎo)。
總結(jié)
在本次調(diào)查中,我們對(duì) NLP 的 PTM 進(jìn)行了全面概述,包括背景知識(shí)、模型架構(gòu)、預(yù)訓(xùn)練任務(wù)、各種擴(kuò)展、適應(yīng)方法、相關(guān)資源和應(yīng)用。基于當(dāng)前的 PTM,我們從四個(gè)不同的角度提出了一種新的 PTM 分類(lèi)法。我們還為 PTM 提出了幾個(gè)可能的未來(lái)研究方向。
一個(gè)人沒(méi)有夢(mèng)想,和咸魚(yú)有什么區(qū)別!
總結(jié)
以上是生活随笔為你收集整理的NLP领域预训练模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python入门学习的第三天
- 下一篇: Json对象转Ts类