當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

最新综述：基于Transformer的NLP预训练模型已经发展到何种程度？

發(fā)布時(shí)間：2024/10/8 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了最新综述：基于Transformer的NLP预训练模型已经发展到何种程度？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者?|?機(jī)器之心編輯部

來源?|?機(jī)器之心

Transformer 為自然語(yǔ)言處理領(lǐng)域帶來的變革已無(wú)需多言。近日，印度國(guó)立理工學(xué)院、生物醫(yī)學(xué)人工智能創(chuàng)業(yè)公司 Nference.ai 的研究者全面調(diào)查了 NLP 領(lǐng)域中基于 Transformer 的預(yù)訓(xùn)練模型，并將調(diào)查結(jié)果匯集成了一篇綜述論文。本文將按大致脈絡(luò)翻譯介紹這篇論文，并重點(diǎn)關(guān)注其中的討論部分，因?yàn)檠芯空咴谄渲兄赋隽嗽擃I(lǐng)域新的研究機(jī)會(huì)。尤其需要說明：研究者將該論文命名為「 AMMUS 」，即? AMMU Smiles，這是為了紀(jì)念他們的朋友 K.S.Kalyan。

在如今的 NLP 領(lǐng)域，幾乎每項(xiàng)任務(wù)中都能看見「基于 Transformer 的預(yù)訓(xùn)練語(yǔ)言模型（T-PTLM）」成功的身影。這些模型的起點(diǎn)是 GPT 和 BERT。而這些模型的技術(shù)基礎(chǔ)包括 Transformer、自監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)。T-PTLM 可使用自監(jiān)督學(xué)習(xí)從大規(guī)模文本數(shù)據(jù)學(xué)習(xí)普適性的語(yǔ)言表征，然后將學(xué)到的知識(shí)遷移到下游任務(wù)。這些模型能為下游任務(wù)提供優(yōu)質(zhì)的背景知識(shí)，從而可避免從頭開始訓(xùn)練下游任務(wù)。

這篇詳盡調(diào)查 T-PTLM 的綜述論文首先將簡(jiǎn)要介紹自監(jiān)督學(xué)習(xí)。接下來將解釋多個(gè)核心概念，包括預(yù)訓(xùn)練、預(yù)訓(xùn)練方法、預(yù)訓(xùn)練任務(wù)、嵌入和下游任務(wù)適應(yīng)方法。接下來，文章將為 T-PTLM 給出一種新的分類方法，然后簡(jiǎn)要介紹多種不同的基準(zhǔn)，包括內(nèi)部基準(zhǔn)和外部基準(zhǔn)。研究者還歸納總結(jié)了一些適用于 T-PTLM 的軟件庫(kù)。最后討論了一些可能有助于進(jìn)一步改進(jìn)這些模型的未來研究方向。

論文地址：

https://arxiv.org/pdf/2108.05542.pdf

研究者相信，這篇全面詳盡的綜述論文能作為一份很好的參考資料，幫助讀者了解 T-PTLM 的相關(guān)核心概念和近期研究進(jìn)展。

引言

基于 Transformer 的預(yù)訓(xùn)練語(yǔ)言模型（T-PTLM）具備從大規(guī)模無(wú)標(biāo)注文本數(shù)據(jù)學(xué)習(xí)通用語(yǔ)言表征并將所學(xué)知識(shí)遷移到下游任務(wù)的能力，因此已經(jīng)在 NLP 領(lǐng)域取得了巨大的成功，這類模型包括 GPT-1、BERT、XLNet、RoBERTa、ELECTRA、T5、ALBERT、BART 和 PEGAUSUS。在更早期，NLP 系統(tǒng)大都采用了基于規(guī)則的方法，之后取而代之的是機(jī)器學(xué)習(xí)模型。機(jī)器學(xué)習(xí)模型需要特征工程，而特征工程又需要領(lǐng)域?qū)I(yè)知識(shí)并且需要較長(zhǎng)的時(shí)間。

隨著 GPU 等更好的計(jì)算機(jī)硬件以及 Word2Vec 和 Glove 等詞嵌入方法的出現(xiàn)，CNN 和 RNN 等深度學(xué)習(xí)模型在構(gòu)建 NLP 系統(tǒng)方面得到了更廣泛的應(yīng)用。這些深度學(xué)習(xí)模型的主要缺點(diǎn)是除了詞嵌入之外，需要從頭開始訓(xùn)練模型。從頭開始訓(xùn)練這類模型需要大量有標(biāo)注實(shí)例，而生成這些實(shí)例的成本很高。但是，我們希望僅使用少量有標(biāo)注實(shí)例來獲得表現(xiàn)良好的模型。

遷移學(xué)習(xí)讓我們可以將在源任務(wù)上學(xué)習(xí)到的知識(shí)很好地復(fù)用到目標(biāo)任務(wù)上。在這其中，目標(biāo)任務(wù)應(yīng)該與源任務(wù)相似。基于遷移學(xué)習(xí)的思想，計(jì)算機(jī)視覺領(lǐng)域的研究者已在使用 ImageNet 等大規(guī)模有標(biāo)注數(shù)據(jù)集來訓(xùn)練大型 CNN 模型。這些模型學(xué)習(xí)到的圖像表征對(duì)所有任務(wù)來說都是普適的。然后，這些大型預(yù)訓(xùn)練 CNN 模型可以適應(yīng)下游任務(wù)，具體做法是添加少數(shù)特定于任務(wù)的層，然后在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào)。由于預(yù)訓(xùn)練 CNN 模型能為下游模型提供很好的背景知識(shí)，因此它們?cè)谠S多計(jì)算機(jī)視覺任務(wù)上取得了巨大的成功。

CNN 和 RNN 等深度學(xué)習(xí)模型難以建模長(zhǎng)期上下文以及學(xué)習(xí)具有局部性偏差（locality bias）的詞表征。此外，由于 RNN 按順序處理輸入（逐詞處理），因此只能有限度地使用并行計(jì)算硬件。為了克服現(xiàn)有深度學(xué)習(xí)模型的這些缺點(diǎn)，Vaswani et al. 提出了完全基于自注意力的深度學(xué)習(xí)模型：Transformer。相比于 RNN，自注意力支持更高度的并行化，并且還能輕松地建模長(zhǎng)期上下文，因?yàn)檩斎胄蛄兄械拿總€(gè) token 都會(huì)關(guān)注其它所有 token。

Transformer 包含一些堆疊的編碼器和解碼器層。在堆疊編碼器和解碼器層的幫助下，Transformer 可以學(xué)習(xí)到復(fù)雜的語(yǔ)言信息。在 NLP 領(lǐng)域，生成大量有標(biāo)注數(shù)據(jù)的成本非常高，也非常耗時(shí)。但是，大量無(wú)標(biāo)注文本數(shù)據(jù)卻很容易獲得。在計(jì)算機(jī)視覺社區(qū)使用基于 CNN 的預(yù)訓(xùn)練模型所取得的成功的感召下，NLP 研究社區(qū)將 Transformer 和自監(jiān)督學(xué)習(xí)的能力組合到一起，開發(fā)出了 T-PTLM。自監(jiān)督學(xué)習(xí)讓 Transformer 可以使用由一個(gè)或多個(gè)預(yù)訓(xùn)練任務(wù)提供的偽監(jiān)督進(jìn)行學(xué)習(xí)。

GPT 和 BERT 是最早的 T-PTLM，它們分別是基于 Transformer 解碼器和編碼器層開發(fā)的。之后，又誕生了 XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART 和 PEGAUSUS 等模型。其中，XLNet、RoBERTa、ELECTRA 和 ALBERT 是基于 BERT 的改進(jìn)模型；T5、BART 和 PEGAUSUS 是基于編碼器 - 解碼器的模型。

Kaplan et al. 表明只需增加 T-PTLM 模型的規(guī)模就能帶來性能的提升。這一發(fā)現(xiàn)推動(dòng)了大規(guī)模 T-PTLM 的發(fā)展并催生了 GPT-3 (175B)、PANGU (200B)、GShard (600B) 等包含上千億參數(shù)的模型，而 Switch-Transformers (1.6T) 的參數(shù)量更是達(dá)到了萬(wàn)億級(jí)。

T-PTLM 在通用英語(yǔ)領(lǐng)域取得成功之后，又開始進(jìn)軍其它領(lǐng)域，包括金融、法律、新聞、編程、對(duì)話、網(wǎng)絡(luò)、學(xué)術(shù)和生物醫(yī)學(xué)。T-PTLM 還支持遷移學(xué)習(xí)，即通過在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào)和即時(shí)調(diào)整，可讓這些模型適用于下游任務(wù)。本文將全面回顧與 T-PTLM 有關(guān)的近期研究成果。這篇綜述論文的看點(diǎn)總結(jié)如下：

第 2 節(jié)將簡(jiǎn)單介紹自監(jiān)督學(xué)習(xí)，這是 T-PTLM 的核心技術(shù)。
第 3 節(jié)將介紹與 T-PTLM 相關(guān)的一些核心概念，包括預(yù)訓(xùn)練、預(yù)訓(xùn)練方法、預(yù)訓(xùn)練任務(wù)、嵌入和下游適應(yīng)方法。
第 4 節(jié)將給出一種針對(duì) T-PTLM 的新型分類法。這種分類法考慮了四大方面，即預(yù)訓(xùn)練語(yǔ)料庫(kù)、架構(gòu)、自監(jiān)督學(xué)習(xí)類型和擴(kuò)展方法。
第 5 節(jié)將給出一種針對(duì)不同下游適應(yīng)方法的新型分類法并將詳細(xì)解釋每個(gè)類別。
第 6 節(jié)將簡(jiǎn)要介紹多種用于評(píng)估 T-PTLM 進(jìn)展的基準(zhǔn)，包括內(nèi)部基準(zhǔn)和外部基準(zhǔn)。
第 7 節(jié)將給出一些適用于 T-PTLM 的軟件庫(kù)，從 Huggingface Transformers 到 Transformer-interpret。
第 8 節(jié)將簡(jiǎn)單討論一些可能有助于進(jìn)一步改進(jìn)這些模型的未來研究方向。

自監(jiān)督學(xué)習(xí)（SSL）

監(jiān)督學(xué)習(xí)的缺點(diǎn)總結(jié)如下：

嚴(yán)重依賴人類標(biāo)注的實(shí)例，而獲取這些實(shí)例耗時(shí)費(fèi)力。
缺乏泛化能力，容易出現(xiàn)虛假相關(guān)的問題。
醫(yī)療和法律等許多領(lǐng)域缺乏有標(biāo)注數(shù)據(jù)，這會(huì)限制 AI 模型在這些領(lǐng)域的應(yīng)用。
難以使用大量免費(fèi)可用的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。

SSL 與監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)等其它流行學(xué)習(xí)范式具有一些相似性。SSL 與無(wú)監(jiān)督學(xué)習(xí)的相似之處是它們都不需要人類標(biāo)注的實(shí)例。但是，它與無(wú)監(jiān)督學(xué)習(xí)也有不同之處：a) SSL 需要監(jiān)督，而無(wú)監(jiān)督學(xué)習(xí)沒有監(jiān)督；b) 無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)是識(shí)別隱藏模式，而 SSL 的目標(biāo)是學(xué)習(xí)有意義的表征。SSL 與監(jiān)督學(xué)習(xí)的相似之處是學(xué)習(xí)范式時(shí)都需要監(jiān)督。但是，它與監(jiān)督學(xué)習(xí)也有不同之處：a) SSL 會(huì)自動(dòng)生成標(biāo)簽，而無(wú)需任何人類干預(yù)；b) 監(jiān)督學(xué)習(xí)的目標(biāo)是提供特定于任務(wù)的知識(shí)，而 SSL 的目標(biāo)是向模型提供通用知識(shí)。

SSL 的目標(biāo)總結(jié)如下：

學(xué)習(xí)通用語(yǔ)言表征，這能為下游模型提供優(yōu)良的背景。
通過學(xué)習(xí)大量免費(fèi)可用的無(wú)標(biāo)注文本數(shù)據(jù)來獲得更好的泛化能力。

自監(jiān)督學(xué)習(xí)可大致分為生成式 SSL、對(duì)比式 SSL 和對(duì)抗式 SSL 三種。

T-PTLM 核心概念

預(yù)訓(xùn)練

預(yù)訓(xùn)練能帶來以下一些優(yōu)勢(shì)：

通過利用大量無(wú)標(biāo)注文本，預(yù)訓(xùn)練有助于模型學(xué)習(xí)通用語(yǔ)言表征。
只需增加一兩個(gè)特定的層，預(yù)訓(xùn)練模型可以適應(yīng)下游任務(wù)。因此這能提供很好的初始化，從而避免從頭開始訓(xùn)練下游模型（只需訓(xùn)練特定于任務(wù)的層）。
讓模型只需小型數(shù)據(jù)集就能獲得更好的表現(xiàn)，因此可以降低對(duì)大量有標(biāo)注實(shí)例的需求。
深度學(xué)習(xí)模型由于參數(shù)數(shù)量大，因此在使用小型數(shù)據(jù)集訓(xùn)練時(shí)，容易過擬合。而預(yù)訓(xùn)練可以提供很好的初始化，從而可避免在小型數(shù)據(jù)集上過擬合，因此可將預(yù)訓(xùn)練視為某種形式的正則化。

預(yù)訓(xùn)練的步驟

預(yù)訓(xùn)練一個(gè)模型涉及以下五個(gè)步驟：

準(zhǔn)備預(yù)訓(xùn)練語(yǔ)料庫(kù)
生成詞匯庫(kù)
設(shè)計(jì)預(yù)訓(xùn)練任務(wù)
選擇預(yù)訓(xùn)練方法
選擇預(yù)訓(xùn)練動(dòng)態(tài)

預(yù)訓(xùn)練語(yǔ)料庫(kù)

圖 1：預(yù)訓(xùn)練語(yǔ)料庫(kù)

圖 2：預(yù)訓(xùn)練方法，其中 PTS 是從頭開始型預(yù)訓(xùn)練、CPT 是持續(xù)型預(yù)訓(xùn)練、SPT 是同時(shí)型預(yù)訓(xùn)練、TAPT 是任務(wù)自適應(yīng)型預(yù)訓(xùn)練、KIPT 是知識(shí)繼承型預(yù)訓(xùn)練

預(yù)訓(xùn)練任務(wù)

閑聊語(yǔ)言建模（CLM）
掩碼語(yǔ)言建模（MLM）
替代 token 檢測(cè)（RTD）
混洗 token 檢測(cè)（STD）
隨機(jī) token 替換（RTS）
互換語(yǔ)言建模（SLM）
翻譯語(yǔ)言建模（TLM）
替代語(yǔ)言建模（ALM）
句子邊界目標(biāo)（SBO）
下一句子預(yù)測(cè)（NSP）
句子順序預(yù)測(cè)（SOP）
序列到序列語(yǔ)言模型（Seq2SeqLM）
去噪自動(dòng)編碼器（DAE）

嵌入

圖 8：T-PTLM 中的嵌入

分類法

為了了解以及跟蹤各種 T-PTLM 的發(fā)展，研究者從四個(gè)方面對(duì) T-PTLM 進(jìn)行了分類，即預(yù)訓(xùn)練語(yǔ)料庫(kù)、模型架構(gòu)、SSL 類型和擴(kuò)展方法。如下圖 9 所示：

圖 9：T-PTLM 的分類法。

下游適應(yīng)方法

一旦完成語(yǔ)言模型的訓(xùn)練，就可將其用于下游任務(wù)了。將預(yù)訓(xùn)練后的語(yǔ)言模型用于下游任務(wù)的方式有三種：基于特征的方法、微調(diào)和基于提示的微調(diào)（prompt-based tuning）。

如下圖 10 所示，基于特征的方法涉及到根據(jù)語(yǔ)言模型生成上下文的詞嵌入，然后在針對(duì)特定下游任務(wù)的模型中將它們用作輸入特征。微調(diào)涉及到根據(jù)下游任務(wù)，通過盡量降低針對(duì)特定任務(wù)的損失來調(diào)整模型權(quán)重。

圖 10：下游適應(yīng)方法。

評(píng)估

在預(yù)訓(xùn)練階段，T-PTLM 會(huì)獲取預(yù)訓(xùn)練語(yǔ)料庫(kù)中編碼的知識(shí)。這里的知識(shí)包括句法、語(yǔ)義、事實(shí)和常識(shí)。對(duì)于 T-PTLM 的效果，評(píng)估方式有兩種，即內(nèi)在方式和外在方式。見下圖 11。

內(nèi)在評(píng)估方式是通過探測(cè) T-PTLM 中編碼的知識(shí)進(jìn)行評(píng)估，而外在評(píng)估方式則是評(píng)估 T-PTLM 在真實(shí)世界下游任務(wù)中的效果如何。內(nèi)在評(píng)估方式可讓我們了解 T-PTLM 在預(yù)訓(xùn)練階段獲得的知識(shí)，這有助于我們?cè)O(shè)計(jì)更好的預(yù)訓(xùn)練任務(wù)，使得模型可以在預(yù)訓(xùn)練階段學(xué)習(xí)到更多知識(shí)。

圖 11：用于評(píng)估 T-PTLM 研究進(jìn)展的基準(zhǔn)。

有用的軟件庫(kù)

研究者還歸納總結(jié)了一些適用于 T-PTLM 的常用軟件庫(kù)。其中，Transformers 和 Fairseq 等軟件庫(kù)適用于模型訓(xùn)練和評(píng)估。SimpleTransformers、HappyTransformer、AdaptNLP 等則構(gòu)建于 Transformer 軟件庫(kù)之上，可讓用戶僅使用少量代碼就實(shí)現(xiàn)更輕松的訓(xùn)練和評(píng)估。FastSeq、DeepSpeed、FastT5、OnnxT5 和 LightSeq 等則可用于提升模型的推理速度。Ecco、BertViz 和 exBERT 都是可視化分析工具，可用于探索 Transformer 模型的層。Transformers-interpret 和 Captum 則能用于解釋模型決策。

表 11：適用于 T-PTLM 的軟件庫(kù)。

討論和未來方向

更好的預(yù)訓(xùn)練方法

僅使用 SSL 來訓(xùn)練模型（尤其是帶有成千上萬(wàn)億參數(shù)的大模型）的成本非常高。知識(shí)繼承型預(yù)訓(xùn)練（KIPT）等全新的預(yù)訓(xùn)練方法涉及到 SSL 和知識(shí)蒸餾。SSL 讓模型可以學(xué)習(xí)預(yù)訓(xùn)練語(yǔ)料庫(kù)中可用的知識(shí)，而知識(shí)蒸餾則讓模型可以學(xué)習(xí)已經(jīng)編碼在已有預(yù)訓(xùn)練模型中的知識(shí)。由于在通過知識(shí)蒸餾的預(yù)訓(xùn)練階段，模型可獲得額外的知識(shí)，因此 a) 模型可以更快速地收斂并由此縮短預(yù)訓(xùn)練時(shí)間，b) 相比于僅使用 SSL 預(yù)訓(xùn)練的模型，在下游任務(wù)上的表現(xiàn)會(huì)更好。研究社區(qū)必須重點(diǎn)關(guān)注開發(fā) KIPT 等更好的預(yù)訓(xùn)練方法，讓模型獲得更多知識(shí)以及降低預(yù)訓(xùn)練時(shí)間。

樣本高效型預(yù)訓(xùn)練任務(wù)

如果一個(gè)預(yù)訓(xùn)練任務(wù)能最大化地利用每個(gè)訓(xùn)練實(shí)例，那么就可以說該預(yù)訓(xùn)練任務(wù)是樣本高效的，即它應(yīng)該能在訓(xùn)練實(shí)例中的所有 token 上獲得定義。樣本高效型預(yù)訓(xùn)練任務(wù)能使預(yù)訓(xùn)練的計(jì)算效率更高。最常用的預(yù)訓(xùn)練任務(wù) MLM 的樣本效率就不太高，因?yàn)槠鋬H涉及到一個(gè) token 子集，即掩碼 token，其占總 token 數(shù)的 15%。RTD、RTS 和 STD 等預(yù)訓(xùn)練任務(wù)可被視為是開發(fā)樣本高效型預(yù)訓(xùn)練任務(wù)的早期嘗試。這三種預(yù)訓(xùn)練任務(wù)都定義在每個(gè)訓(xùn)練實(shí)例的所有 token 之上，即它們涉及到識(shí)別每個(gè) token 是否被替代、隨機(jī)替換或混洗。未來應(yīng)該還將出現(xiàn)使計(jì)算效率更高的樣本高效型預(yù)訓(xùn)練任務(wù)。

高效模型

由于模型尺寸較大并且需要大量無(wú)標(biāo)注的文本數(shù)據(jù)，因此預(yù)訓(xùn)練 T-PTLM 的成本也很高。但是，較長(zhǎng)的預(yù)訓(xùn)練時(shí)間對(duì)環(huán)境并不友好，因?yàn)檫@個(gè)過程會(huì)釋放二氧化碳；而在生物醫(yī)學(xué)等許多領(lǐng)域，也沒有大規(guī)模的無(wú)標(biāo)注文本數(shù)據(jù)。近期，在 BERT 模型基礎(chǔ)上進(jìn)行全新改進(jìn)的 DeBERTa 等模型實(shí)現(xiàn)了比 RoBERTa 模型更好的性能，盡管其僅使用了 78 GB 數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，這只是預(yù)訓(xùn)練 RoBERTa 模型所用的數(shù)據(jù)量的一半。類似地，ConvBERT 憑借全新的混合注意力模塊，僅使用 ELECTRA 模型四分之一的預(yù)訓(xùn)練成本就取得了更優(yōu)的表現(xiàn)。為了降低預(yù)訓(xùn)練的數(shù)據(jù)量和訓(xùn)練成本，人們需要 DeBERTa 和 ConvBERT 這樣的高效模型。

更好的位置編碼機(jī)制

自注意力機(jī)制是置換不變型的方法，不存在位置偏差。使用絕對(duì)或相對(duì)位置嵌入，可以提供位置偏差。此外，絕對(duì)位置嵌入可以預(yù)先確定或?qū)W習(xí)到。但是，這兩種方法各有優(yōu)缺點(diǎn)。絕對(duì)位置嵌入會(huì)有泛化問題，但卻很容易實(shí)現(xiàn)。不同于絕對(duì)位置，相對(duì)位置嵌入能穩(wěn)健地應(yīng)對(duì)序列長(zhǎng)度變化，但卻難以實(shí)現(xiàn)，性能也更差。我們還需要全新的位置編碼機(jī)制，比如 CAPE，其將絕對(duì)和相對(duì)位置嵌入的優(yōu)勢(shì)組合到了一起。

改進(jìn)現(xiàn)有的 T-PTLM

BERT 和 RoBERTa 等 T-PTLM 已經(jīng)在許多 NLP 任務(wù)上取得了優(yōu)良的結(jié)果。近期的研究表明，通過基于對(duì)抗或?qū)Ρ阮A(yù)訓(xùn)練任務(wù)的持續(xù)預(yù)訓(xùn)練注入句子層級(jí)的語(yǔ)義，還可以進(jìn)一步改進(jìn)這些模型。舉個(gè)例子，Panda et al. 表明使用混洗 token 檢測(cè)目標(biāo)的持續(xù)預(yù)訓(xùn)練可提升 RoBERTa 模型在 GLUE 任務(wù)上的性能，因?yàn)槠湓试S模型學(xué)習(xí)更連貫的句子表征。類似地，使用對(duì)比預(yù)訓(xùn)練目標(biāo)的持續(xù)性預(yù)訓(xùn)練可以提升 T-PTLM 在 GLUE 任務(wù)上的性能以及多語(yǔ)言 T-PTLM 在 Mickey Probe 上的表現(xiàn)。為了將其擴(kuò)展到其它單語(yǔ)言和特定領(lǐng)域的 T-PTLM，還需要進(jìn)一步的研究。

超越樸素的微調(diào)

為了將預(yù)訓(xùn)練模型用于下游任務(wù)，微調(diào)是最常用的方法。但是，樸素的微調(diào)的主要缺點(diǎn)是其會(huì)改變預(yù)訓(xùn)練模型中的所有層，因此我們需要為每個(gè)任務(wù)維持另一個(gè)副本，這會(huì)增加部署成本。為了以一種參數(shù)高效的方式將預(yù)訓(xùn)練模型用于下游任務(wù)，人們提出了 Adapters 和基于剪枝的微調(diào)等方法。

舉個(gè)例子，adapter 是添加到每個(gè) Transformer 層的針對(duì)特定任務(wù)的小層。而在下游任務(wù)適應(yīng)期間，僅更新 adapter 層的參數(shù)，Transformer 層的參數(shù)保持不變。此外，Poth et al. 表明 adapter 也可用于中間微調(diào)。近期，基于提示的微調(diào)（prompt-based tuning）方法在參數(shù)效率方面取得了明顯更優(yōu)的表現(xiàn)，并得到了研究社區(qū)的關(guān)注。舉個(gè)例子，Prefix-tuning 等基于提示的微調(diào)方法僅需要 0.1% 的針對(duì)特定任務(wù)的參數(shù)，而基于 adapter 的微調(diào)則需要 3% 的針對(duì)特定任務(wù)的參數(shù)。

基準(zhǔn)評(píng)測(cè)

在最后四層中，人們引入了很多基準(zhǔn)來評(píng)估通用型和領(lǐng)域特定型預(yù)訓(xùn)練模型的進(jìn)展。除了英語(yǔ)之外，也出現(xiàn)了一些用于評(píng)估其它單語(yǔ)言和多語(yǔ)言模型進(jìn)展的基準(zhǔn)。但是，現(xiàn)有的基準(zhǔn)不足以覆蓋所有場(chǎng)景。舉個(gè)例子，還沒有基準(zhǔn)用于評(píng)估 a) 緊湊預(yù)訓(xùn)練模型的進(jìn)展，b) 預(yù)訓(xùn)練模型的穩(wěn)健性，c) 針對(duì)社交媒體以及學(xué)術(shù)等專業(yè)領(lǐng)域開發(fā)的 PTLM。

近日，Explainboard 等排行榜不再只是使用已有基準(zhǔn)等單一指標(biāo)評(píng)估進(jìn)展，也會(huì)深挖或分析模型的長(zhǎng)項(xiàng)和短板。這類排行榜應(yīng)該也能擴(kuò)展到其它領(lǐng)域。此外，FewGLUE、FLEX 和 FewCLUE 等評(píng)估少量次學(xué)習(xí)技術(shù)的基準(zhǔn)也應(yīng)當(dāng)擴(kuò)展到其它語(yǔ)言和領(lǐng)域。

緊湊模型

T-PTLM 幾乎在每種 NLP 任務(wù)上都獲得了最佳表現(xiàn)。但是，這些模型都很大，需要更大的存儲(chǔ)空間。因?yàn)檫@些模型的層數(shù)很多，因此輸入需要一定時(shí)間才能完全通過模型，從而得到預(yù)測(cè)結(jié)果，因此延遲很高。而真實(shí)世界應(yīng)用的資源有限，需要更低的延遲，因此剪枝、量化、知識(shí)蒸餾、參數(shù)共享和分解等模型壓縮方法已經(jīng)在英語(yǔ)通用領(lǐng)域應(yīng)用方面得到了探索。研究這些模型壓縮方法在其它語(yǔ)言和領(lǐng)域的應(yīng)用具有很大的前景。

對(duì)噪聲的穩(wěn)健性

T-PTLM 容易受到噪聲影響，其中包括對(duì)抗噪聲和自然噪聲。其主要原因是使用了子詞嵌入。在使用子詞嵌入時(shí)，一個(gè)詞會(huì)被分解為多個(gè)子詞 token，因此即使很小的拼寫錯(cuò)誤也可能改變?cè)撛~的整體表征，進(jìn)而阻礙模型學(xué)習(xí)并影響模型預(yù)測(cè)。為了提升模型對(duì)噪聲的穩(wěn)健性，CharacterBERT 等模型采用了只使用字符嵌入的方法，而 CharBERT 等模型則會(huì)將字符嵌入和子詞嵌入一起使用。這兩種方法都能提升對(duì)噪聲的穩(wěn)健性。

近期，研究者們還提出了 CANINE、ByT5 和 Charformer 等無(wú) token 化模型來提升對(duì)噪聲的穩(wěn)健性。為了讓這些模型能在真實(shí)世界中得到應(yīng)用，尤其是在醫(yī)學(xué)等敏感領(lǐng)域，我們需要提升它們的穩(wěn)健性。

全新的適應(yīng)方法

為了將通用模型適應(yīng)到生物醫(yī)學(xué)等專業(yè)領(lǐng)域或?qū)⒍嗾Z(yǔ)言模型適應(yīng)到特定語(yǔ)言，常用的策略是使用持續(xù)性預(yù)訓(xùn)練。盡管這種方法通過調(diào)整模型以適應(yīng)特定的領(lǐng)域或語(yǔ)言能得到良好的結(jié)果，但如果缺少領(lǐng)域或語(yǔ)言特定的詞匯庫(kù)，下游模型的性能會(huì)受到影響。近期有研究者提出了擴(kuò)展詞匯表然后持續(xù)預(yù)訓(xùn)練的方法。這些方法能克服 OOV 詞的問題，但由于會(huì)在詞匯表中增加新詞，因此會(huì)增大詞匯表的規(guī)模。近日，Yao et al. 提出了 Adapt and Distill 方法，即使用詞匯表擴(kuò)展和知識(shí)蒸餾來使通用模型適應(yīng)特定領(lǐng)域。不同于已有的適應(yīng)方法，該方法不僅能讓通用模型適應(yīng)特定領(lǐng)域，而且還能減小模型的規(guī)模。這一注意值得進(jìn)一步研究并有望產(chǎn)出全新的適應(yīng)方法。

隱私問題

T-PTLM 已經(jīng)在許多 NLP 任務(wù)上取得了優(yōu)良的結(jié)果。但是，這些模型也存在一些超出預(yù)期且并無(wú)益處的風(fēng)險(xiǎn)。舉個(gè)例子，數(shù)據(jù)泄露是人們擔(dān)心的一個(gè)主要問題，尤其是當(dāng)這些模型的預(yù)訓(xùn)練使用了隱私數(shù)據(jù)時(shí)。由于模型是在大量文本數(shù)據(jù)上預(yù)訓(xùn)練的，因此有可能從中恢復(fù)敏感信息，比如可識(shí)別出個(gè)人身份的信息。因此，需要防止人們公開發(fā)布使用隱私數(shù)據(jù)預(yù)訓(xùn)練的模型。

近日，Carlini et al. 研究表明，GPT-2 模型可生成一個(gè)人的完整郵政地址，這些地址包含在訓(xùn)練數(shù)據(jù)中，可使用該人的名字通過提示得到。近期出現(xiàn)在生物醫(yī)學(xué)領(lǐng)域的 KART 框架可通過執(zhí)行多種攻擊來評(píng)估數(shù)據(jù)泄露情況。研究社區(qū)需要開發(fā)更復(fù)雜的攻擊來評(píng)估數(shù)據(jù)泄露情況并開發(fā)防止預(yù)訓(xùn)練模型泄露敏感數(shù)據(jù)的方法。

降低偏見

基于深度學(xué)習(xí)的方法正在現(xiàn)實(shí)世界中得到越來越廣泛的應(yīng)用，其中包括在生物醫(yī)學(xué)和法律等專業(yè)領(lǐng)域。但是，這些模型很容易學(xué)習(xí)并放大訓(xùn)練數(shù)據(jù)中已有的偏見。由此造成的結(jié)果是：這些模型會(huì)產(chǎn)生對(duì)特定種族、性別或年齡群體的偏見。我們完全不需要這樣的模型。

近期出現(xiàn)了一些重點(diǎn)關(guān)注識(shí)別和降低偏見的研究。比如，Minot et al. 提出了一種用于減少性別偏見的數(shù)據(jù)增強(qiáng)方法，Liang et al. 提出的 A-INLP 方法可以動(dòng)態(tài)地識(shí)別偏見敏感型 token。在這一領(lǐng)域進(jìn)行進(jìn)一步研究有助于降低預(yù)訓(xùn)練模型中的偏見并幫助它們做出公平的決定。

降低微調(diào)不穩(wěn)定性

為了讓預(yù)訓(xùn)練模型適應(yīng)下游任務(wù)，最常用的方法是微調(diào)。盡管微調(diào)的表現(xiàn)不錯(cuò)，但它并不穩(wěn)定，即使用不同隨機(jī)種子來執(zhí)行微調(diào)會(huì)令下游表現(xiàn)差距巨大。有人認(rèn)為，微調(diào)不穩(wěn)定的原因包括災(zāi)難性遺忘和數(shù)據(jù)集規(guī)模較小。但是，Mosbach et al. 表明這兩個(gè)原因都不是微調(diào)不穩(wěn)定的原因，并進(jìn)一步表明微調(diào)不穩(wěn)定的原因包括：a) 優(yōu)化困難，導(dǎo)致梯度消失，b) 泛化問題。為了降低微調(diào)不穩(wěn)定，可能的解決方案包括：a) 中間微調(diào)，b) 混合（mix-out），c) 在早期 epoch 采用更小的學(xué)習(xí)率并且增多微調(diào) epoch 的次數(shù)，d) 同時(shí)使用監(jiān)督式對(duì)比損失和交叉熵?fù)p失。讓微調(diào)更穩(wěn)定的方法值得進(jìn)一步研究。

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

📝?稿件基本要求：

? 文章確系個(gè)人原創(chuàng)作品，未曾在公開渠道發(fā)表，如為其他平臺(tái)已發(fā)表或待發(fā)表的文章，請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發(fā)送，要求圖片清晰，無(wú)版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請(qǐng)備注即時(shí)聯(lián)系方式（微信），以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

總結(jié)

以上是生活随笔為你收集整理的最新综述：基于Transformer的NLP预训练模型已经发展到何种程度？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： china50什么意思
下一篇：开炸鸡店容易赚钱吗利润真的是非常高