日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

最新综述:基于Transformer的NLP预训练模型已经发展到何种程度?

發(fā)布時(shí)間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 最新综述:基于Transformer的NLP预训练模型已经发展到何种程度? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


?作者?|?機(jī)器之心編輯部

來源?|?機(jī)器之心

Transformer 為自然語(yǔ)言處理領(lǐng)域帶來的變革已無(wú)需多言。近日,印度國(guó)立理工學(xué)院、生物醫(yī)學(xué)人工智能創(chuàng)業(yè)公司 Nference.ai 的研究者全面調(diào)查了 NLP 領(lǐng)域中基于 Transformer 的預(yù)訓(xùn)練模型,并將調(diào)查結(jié)果匯集成了一篇綜述論文。本文將按大致脈絡(luò)翻譯介紹這篇論文,并重點(diǎn)關(guān)注其中的討論部分,因?yàn)檠芯空咴谄渲兄赋隽嗽擃I(lǐng)域新的研究機(jī)會(huì)。尤其需要說明:研究者將該論文命名為「 AMMUS 」,即? AMMU Smiles,這是為了紀(jì)念他們的朋友 K.S.Kalyan。

在如今的 NLP 領(lǐng)域,幾乎每項(xiàng)任務(wù)中都能看見「基于 Transformer 的預(yù)訓(xùn)練語(yǔ)言模型(T-PTLM)」成功的身影。這些模型的起點(diǎn)是 GPT 和 BERT。而這些模型的技術(shù)基礎(chǔ)包括 Transformer、自監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)。T-PTLM 可使用自監(jiān)督學(xué)習(xí)從大規(guī)模文本數(shù)據(jù)學(xué)習(xí)普適性的語(yǔ)言表征,然后將學(xué)到的知識(shí)遷移到下游任務(wù)。這些模型能為下游任務(wù)提供優(yōu)質(zhì)的背景知識(shí),從而可避免從頭開始訓(xùn)練下游任務(wù)。

這篇詳盡調(diào)查 T-PTLM 的綜述論文首先將簡(jiǎn)要介紹自監(jiān)督學(xué)習(xí)。接下來將解釋多個(gè)核心概念,包括預(yù)訓(xùn)練、預(yù)訓(xùn)練方法、預(yù)訓(xùn)練任務(wù)、嵌入和下游任務(wù)適應(yīng)方法。接下來,文章將為 T-PTLM 給出一種新的分類方法,然后簡(jiǎn)要介紹多種不同的基準(zhǔn),包括內(nèi)部基準(zhǔn)和外部基準(zhǔn)。研究者還歸納總結(jié)了一些適用于 T-PTLM 的軟件庫(kù)。最后討論了一些可能有助于進(jìn)一步改進(jìn)這些模型的未來研究方向。

論文地址:

https://arxiv.org/pdf/2108.05542.pdf

研究者相信,這篇全面詳盡的綜述論文能作為一份很好的參考資料,幫助讀者了解 T-PTLM 的相關(guān)核心概念和近期研究進(jìn)展。

引言

基于 Transformer 的預(yù)訓(xùn)練語(yǔ)言模型(T-PTLM)具備從大規(guī)模無(wú)標(biāo)注文本數(shù)據(jù)學(xué)習(xí)通用語(yǔ)言表征并將所學(xué)知識(shí)遷移到下游任務(wù)的能力,因此已經(jīng)在 NLP 領(lǐng)域取得了巨大的成功,這類模型包括 GPT-1、BERT、XLNet、RoBERTa、ELECTRA、T5、ALBERT、BART 和 PEGAUSUS。在更早期,NLP 系統(tǒng)大都采用了基于規(guī)則的方法,之后取而代之的是機(jī)器學(xué)習(xí)模型。機(jī)器學(xué)習(xí)模型需要特征工程,而特征工程又需要領(lǐng)域?qū)I(yè)知識(shí)并且需要較長(zhǎng)的時(shí)間。

隨著 GPU 等更好的計(jì)算機(jī)硬件以及 Word2Vec 和 Glove 等詞嵌入方法的出現(xiàn),CNN 和 RNN 等深度學(xué)習(xí)模型在構(gòu)建 NLP 系統(tǒng)方面得到了更廣泛的應(yīng)用。這些深度學(xué)習(xí)模型的主要缺點(diǎn)是除了詞嵌入之外,需要從頭開始訓(xùn)練模型。從頭開始訓(xùn)練這類模型需要大量有標(biāo)注實(shí)例,而生成這些實(shí)例的成本很高。但是,我們希望僅使用少量有標(biāo)注實(shí)例來獲得表現(xiàn)良好的模型。

遷移學(xué)習(xí)讓我們可以將在源任務(wù)上學(xué)習(xí)到的知識(shí)很好地復(fù)用到目標(biāo)任務(wù)上。在這其中,目標(biāo)任務(wù)應(yīng)該與源任務(wù)相似。基于遷移學(xué)習(xí)的思想,計(jì)算機(jī)視覺領(lǐng)域的研究者已在使用 ImageNet 等大規(guī)模有標(biāo)注數(shù)據(jù)集來訓(xùn)練大型 CNN 模型。這些模型學(xué)習(xí)到的圖像表征對(duì)所有任務(wù)來說都是普適的。然后,這些大型預(yù)訓(xùn)練 CNN 模型可以適應(yīng)下游任務(wù),具體做法是添加少數(shù)特定于任務(wù)的層,然后在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào)。由于預(yù)訓(xùn)練 CNN 模型能為下游模型提供很好的背景知識(shí),因此它們?cè)谠S多計(jì)算機(jī)視覺任務(wù)上取得了巨大的成功。

CNN 和 RNN 等深度學(xué)習(xí)模型難以建模長(zhǎng)期上下文以及學(xué)習(xí)具有局部性偏差(locality bias)的詞表征。此外,由于 RNN 按順序處理輸入(逐詞處理),因此只能有限度地使用并行計(jì)算硬件。為了克服現(xiàn)有深度學(xué)習(xí)模型的這些缺點(diǎn),Vaswani et al. 提出了完全基于自注意力的深度學(xué)習(xí)模型:Transformer。相比于 RNN,自注意力支持更高度的并行化,并且還能輕松地建模長(zhǎng)期上下文,因?yàn)檩斎胄蛄兄械拿總€(gè) token 都會(huì)關(guān)注其它所有 token。

Transformer 包含一些堆疊的編碼器和解碼器層。在堆疊編碼器和解碼器層的幫助下,Transformer 可以學(xué)習(xí)到復(fù)雜的語(yǔ)言信息。在 NLP 領(lǐng)域,生成大量有標(biāo)注數(shù)據(jù)的成本非常高,也非常耗時(shí)。但是,大量無(wú)標(biāo)注文本數(shù)據(jù)卻很容易獲得。在計(jì)算機(jī)視覺社區(qū)使用基于 CNN 的預(yù)訓(xùn)練模型所取得的成功的感召下,NLP 研究社區(qū)將 Transformer 和自監(jiān)督學(xué)習(xí)的能力組合到一起,開發(fā)出了 T-PTLM。自監(jiān)督學(xué)習(xí)讓 Transformer 可以使用由一個(gè)或多個(gè)預(yù)訓(xùn)練任務(wù)提供的偽監(jiān)督進(jìn)行學(xué)習(xí)。

GPT 和 BERT 是最早的 T-PTLM,它們分別是基于 Transformer 解碼器和編碼器層開發(fā)的。之后,又誕生了 XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART 和 PEGAUSUS 等模型。其中,XLNet、RoBERTa、ELECTRA 和 ALBERT 是基于 BERT 的改進(jìn)模型;T5、BART 和 PEGAUSUS 是基于編碼器 - 解碼器的模型。

Kaplan et al. 表明只需增加 T-PTLM 模型的規(guī)模就能帶來性能的提升。這一發(fā)現(xiàn)推動(dòng)了大規(guī)模 T-PTLM 的發(fā)展并催生了 GPT-3 (175B)、PANGU (200B)、GShard (600B) 等包含上千億參數(shù)的模型,而 Switch-Transformers (1.6T) 的參數(shù)量更是達(dá)到了萬(wàn)億級(jí)。

T-PTLM 在通用英語(yǔ)領(lǐng)域取得成功之后,又開始進(jìn)軍其它領(lǐng)域,包括金融、法律、新聞、編程、對(duì)話、網(wǎng)絡(luò)、學(xué)術(shù)和生物醫(yī)學(xué)。T-PTLM 還支持遷移學(xué)習(xí),即通過在目標(biāo)數(shù)據(jù)集上進(jìn)行微調(diào)和即時(shí)調(diào)整,可讓這些模型適用于下游任務(wù)。本文將全面回顧與 T-PTLM 有關(guān)的近期研究成果。這篇綜述論文的看點(diǎn)總結(jié)如下:

  • 第 2 節(jié)將簡(jiǎn)單介紹自監(jiān)督學(xué)習(xí),這是 T-PTLM 的核心技術(shù)。

  • 第 3 節(jié)將介紹與 T-PTLM 相關(guān)的一些核心概念,包括預(yù)訓(xùn)練、預(yù)訓(xùn)練方法、預(yù)訓(xùn)練任務(wù)、嵌入和下游適應(yīng)方法。

  • 第 4 節(jié)將給出一種針對(duì) T-PTLM 的新型分類法。這種分類法考慮了四大方面,即預(yù)訓(xùn)練語(yǔ)料庫(kù)、架構(gòu)、自監(jiān)督學(xué)習(xí)類型和擴(kuò)展方法。

  • 第 5 節(jié)將給出一種針對(duì)不同下游適應(yīng)方法的新型分類法并將詳細(xì)解釋每個(gè)類別。

  • 第 6 節(jié)將簡(jiǎn)要介紹多種用于評(píng)估 T-PTLM 進(jìn)展的基準(zhǔn),包括內(nèi)部基準(zhǔn)和外部基準(zhǔn)。

  • 第 7 節(jié)將給出一些適用于 T-PTLM 的軟件庫(kù),從 Huggingface Transformers 到 Transformer-interpret。

  • 第 8 節(jié)將簡(jiǎn)單討論一些可能有助于進(jìn)一步改進(jìn)這些模型的未來研究方向。

自監(jiān)督學(xué)習(xí)(SSL)

監(jiān)督學(xué)習(xí)的缺點(diǎn)總結(jié)如下:

  • 嚴(yán)重依賴人類標(biāo)注的實(shí)例,而獲取這些實(shí)例耗時(shí)費(fèi)力。

  • 缺乏泛化能力,容易出現(xiàn)虛假相關(guān)的問題。

  • 醫(yī)療和法律等許多領(lǐng)域缺乏有標(biāo)注數(shù)據(jù),這會(huì)限制 AI 模型在這些領(lǐng)域的應(yīng)用。

  • 難以使用大量免費(fèi)可用的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。

SSL 與監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)等其它流行學(xué)習(xí)范式具有一些相似性。SSL 與無(wú)監(jiān)督學(xué)習(xí)的相似之處是它們都不需要人類標(biāo)注的實(shí)例。但是,它與無(wú)監(jiān)督學(xué)習(xí)也有不同之處:a) SSL 需要監(jiān)督,而無(wú)監(jiān)督學(xué)習(xí)沒有監(jiān)督;b) 無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)是識(shí)別隱藏模式,而 SSL 的目標(biāo)是學(xué)習(xí)有意義的表征。SSL 與監(jiān)督學(xué)習(xí)的相似之處是學(xué)習(xí)范式時(shí)都需要監(jiān)督。但是,它與監(jiān)督學(xué)習(xí)也有不同之處:a) SSL 會(huì)自動(dòng)生成標(biāo)簽,而無(wú)需任何人類干預(yù);b) 監(jiān)督學(xué)習(xí)的目標(biāo)是提供特定于任務(wù)的知識(shí),而 SSL 的目標(biāo)是向模型提供通用知識(shí)。

SSL 的目標(biāo)總結(jié)如下:

  • 學(xué)習(xí)通用語(yǔ)言表征,這能為下游模型提供優(yōu)良的背景。

  • 通過學(xué)習(xí)大量免費(fèi)可用的無(wú)標(biāo)注文本數(shù)據(jù)來獲得更好的泛化能力。

自監(jiān)督學(xué)習(xí)可大致分為生成式 SSL、對(duì)比式 SSL 和對(duì)抗式 SSL 三種。

T-PTLM 核心概念

預(yù)訓(xùn)練

預(yù)訓(xùn)練能帶來以下一些優(yōu)勢(shì):

  • 通過利用大量無(wú)標(biāo)注文本,預(yù)訓(xùn)練有助于模型學(xué)習(xí)通用語(yǔ)言表征。

  • 只需增加一兩個(gè)特定的層,預(yù)訓(xùn)練模型可以適應(yīng)下游任務(wù)。因此這能提供很好的初始化,從而避免從頭開始訓(xùn)練下游模型(只需訓(xùn)練特定于任務(wù)的層)。

  • 讓模型只需小型數(shù)據(jù)集就能獲得更好的表現(xiàn),因此可以降低對(duì)大量有標(biāo)注實(shí)例的需求。

  • 深度學(xué)習(xí)模型由于參數(shù)數(shù)量大,因此在使用小型數(shù)據(jù)集訓(xùn)練時(shí),容易過擬合。而預(yù)訓(xùn)練可以提供很好的初始化,從而可避免在小型數(shù)據(jù)集上過擬合,因此可將預(yù)訓(xùn)練視為某種形式的正則化。

預(yù)訓(xùn)練的步驟

預(yù)訓(xùn)練一個(gè)模型涉及以下五個(gè)步驟:

  • 準(zhǔn)備預(yù)訓(xùn)練語(yǔ)料庫(kù)

  • 生成詞匯庫(kù)

  • 設(shè)計(jì)預(yù)訓(xùn)練任務(wù)

  • 選擇預(yù)訓(xùn)練方法

  • 選擇預(yù)訓(xùn)練動(dòng)態(tài)

預(yù)訓(xùn)練語(yǔ)料庫(kù)

圖 1:預(yù)訓(xùn)練語(yǔ)料庫(kù)

圖 2:預(yù)訓(xùn)練方法,其中 PTS 是從頭開始型預(yù)訓(xùn)練、CPT 是持續(xù)型預(yù)訓(xùn)練、SPT 是同時(shí)型預(yù)訓(xùn)練、TAPT 是任務(wù)自適應(yīng)型預(yù)訓(xùn)練、KIPT 是知識(shí)繼承型預(yù)訓(xùn)練

預(yù)訓(xùn)練任務(wù)

  • 閑聊語(yǔ)言建模(CLM)

  • 掩碼語(yǔ)言建模(MLM)

  • 替代 token 檢測(cè)(RTD)

  • 混洗 token 檢測(cè)(STD)

  • 隨機(jī) token 替換(RTS)

  • 互換語(yǔ)言建模(SLM)

  • 翻譯語(yǔ)言建模(TLM)

  • 替代語(yǔ)言建模(ALM)

  • 句子邊界目標(biāo)(SBO)

  • 下一句子預(yù)測(cè)(NSP)

  • 句子順序預(yù)測(cè)(SOP)

  • 序列到序列語(yǔ)言模型(Seq2SeqLM)

  • 去噪自動(dòng)編碼器(DAE)

嵌入

圖 8:T-PTLM 中的嵌入

分類法

為了了解以及跟蹤各種 T-PTLM 的發(fā)展,研究者從四個(gè)方面對(duì) T-PTLM 進(jìn)行了分類,即預(yù)訓(xùn)練語(yǔ)料庫(kù)、模型架構(gòu)、SSL 類型和擴(kuò)展方法。如下圖 9 所示:

圖 9:T-PTLM 的分類法。

下游適應(yīng)方法

一旦完成語(yǔ)言模型的訓(xùn)練,就可將其用于下游任務(wù)了。將預(yù)訓(xùn)練后的語(yǔ)言模型用于下游任務(wù)的方式有三種:基于特征的方法、微調(diào)和基于提示的微調(diào)(prompt-based tuning)。

如下圖 10 所示,基于特征的方法涉及到根據(jù)語(yǔ)言模型生成上下文的詞嵌入,然后在針對(duì)特定下游任務(wù)的模型中將它們用作輸入特征。微調(diào)涉及到根據(jù)下游任務(wù),通過盡量降低針對(duì)特定任務(wù)的損失來調(diào)整模型權(quán)重。

圖 10:下游適應(yīng)方法。

評(píng)估

在預(yù)訓(xùn)練階段,T-PTLM 會(huì)獲取預(yù)訓(xùn)練語(yǔ)料庫(kù)中編碼的知識(shí)。這里的知識(shí)包括句法、語(yǔ)義、事實(shí)和常識(shí)。對(duì)于 T-PTLM 的效果,評(píng)估方式有兩種,即內(nèi)在方式和外在方式。見下圖 11。

內(nèi)在評(píng)估方式是通過探測(cè) T-PTLM 中編碼的知識(shí)進(jìn)行評(píng)估,而外在評(píng)估方式則是評(píng)估 T-PTLM 在真實(shí)世界下游任務(wù)中的效果如何。內(nèi)在評(píng)估方式可讓我們了解 T-PTLM 在預(yù)訓(xùn)練階段獲得的知識(shí),這有助于我們?cè)O(shè)計(jì)更好的預(yù)訓(xùn)練任務(wù),使得模型可以在預(yù)訓(xùn)練階段學(xué)習(xí)到更多知識(shí)。

圖 11:用于評(píng)估 T-PTLM 研究進(jìn)展的基準(zhǔn)。

有用的軟件庫(kù)

研究者還歸納總結(jié)了一些適用于 T-PTLM 的常用軟件庫(kù)。其中,Transformers 和 Fairseq 等軟件庫(kù)適用于模型訓(xùn)練和評(píng)估。SimpleTransformers、HappyTransformer、AdaptNLP 等則構(gòu)建于 Transformer 軟件庫(kù)之上,可讓用戶僅使用少量代碼就實(shí)現(xiàn)更輕松的訓(xùn)練和評(píng)估。FastSeq、DeepSpeed、FastT5、OnnxT5 和 LightSeq 等則可用于提升模型的推理速度。Ecco、BertViz 和 exBERT 都是可視化分析工具,可用于探索 Transformer 模型的層。Transformers-interpret 和 Captum 則能用于解釋模型決策。

表 11:適用于 T-PTLM 的軟件庫(kù)。

討論和未來方向

更好的預(yù)訓(xùn)練方法

僅使用 SSL 來訓(xùn)練模型(尤其是帶有成千上萬(wàn)億參數(shù)的大模型)的成本非常高。知識(shí)繼承型預(yù)訓(xùn)練(KIPT)等全新的預(yù)訓(xùn)練方法涉及到 SSL 和知識(shí)蒸餾。SSL 讓模型可以學(xué)習(xí)預(yù)訓(xùn)練語(yǔ)料庫(kù)中可用的知識(shí),而知識(shí)蒸餾則讓模型可以學(xué)習(xí)已經(jīng)編碼在已有預(yù)訓(xùn)練模型中的知識(shí)。由于在通過知識(shí)蒸餾的預(yù)訓(xùn)練階段,模型可獲得額外的知識(shí),因此 a) 模型可以更快速地收斂并由此縮短預(yù)訓(xùn)練時(shí)間,b) 相比于僅使用 SSL 預(yù)訓(xùn)練的模型,在下游任務(wù)上的表現(xiàn)會(huì)更好。研究社區(qū)必須重點(diǎn)關(guān)注開發(fā) KIPT 等更好的預(yù)訓(xùn)練方法,讓模型獲得更多知識(shí)以及降低預(yù)訓(xùn)練時(shí)間。

樣本高效型預(yù)訓(xùn)練任務(wù)

如果一個(gè)預(yù)訓(xùn)練任務(wù)能最大化地利用每個(gè)訓(xùn)練實(shí)例,那么就可以說該預(yù)訓(xùn)練任務(wù)是樣本高效的,即它應(yīng)該能在訓(xùn)練實(shí)例中的所有 token 上獲得定義。樣本高效型預(yù)訓(xùn)練任務(wù)能使預(yù)訓(xùn)練的計(jì)算效率更高。最常用的預(yù)訓(xùn)練任務(wù) MLM 的樣本效率就不太高,因?yàn)槠鋬H涉及到一個(gè) token 子集,即掩碼 token,其占總 token 數(shù)的 15%。RTD、RTS 和 STD 等預(yù)訓(xùn)練任務(wù)可被視為是開發(fā)樣本高效型預(yù)訓(xùn)練任務(wù)的早期嘗試。這三種預(yù)訓(xùn)練任務(wù)都定義在每個(gè)訓(xùn)練實(shí)例的所有 token 之上,即它們涉及到識(shí)別每個(gè) token 是否被替代、隨機(jī)替換或混洗。未來應(yīng)該還將出現(xiàn)使計(jì)算效率更高的樣本高效型預(yù)訓(xùn)練任務(wù)。

高效模型

由于模型尺寸較大并且需要大量無(wú)標(biāo)注的文本數(shù)據(jù),因此預(yù)訓(xùn)練 T-PTLM 的成本也很高。但是,較長(zhǎng)的預(yù)訓(xùn)練時(shí)間對(duì)環(huán)境并不友好,因?yàn)檫@個(gè)過程會(huì)釋放二氧化碳;而在生物醫(yī)學(xué)等許多領(lǐng)域,也沒有大規(guī)模的無(wú)標(biāo)注文本數(shù)據(jù)。近期,在 BERT 模型基礎(chǔ)上進(jìn)行全新改進(jìn)的 DeBERTa 等模型實(shí)現(xiàn)了比 RoBERTa 模型更好的性能,盡管其僅使用了 78 GB 數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,這只是預(yù)訓(xùn)練 RoBERTa 模型所用的數(shù)據(jù)量的一半。類似地,ConvBERT 憑借全新的混合注意力模塊,僅使用 ELECTRA 模型四分之一的預(yù)訓(xùn)練成本就取得了更優(yōu)的表現(xiàn)。為了降低預(yù)訓(xùn)練的數(shù)據(jù)量和訓(xùn)練成本,人們需要 DeBERTa 和 ConvBERT 這樣的高效模型。

更好的位置編碼機(jī)制

自注意力機(jī)制是置換不變型的方法,不存在位置偏差。使用絕對(duì)或相對(duì)位置嵌入,可以提供位置偏差。此外,絕對(duì)位置嵌入可以預(yù)先確定或?qū)W習(xí)到。但是,這兩種方法各有優(yōu)缺點(diǎn)。絕對(duì)位置嵌入會(huì)有泛化問題,但卻很容易實(shí)現(xiàn)。不同于絕對(duì)位置,相對(duì)位置嵌入能穩(wěn)健地應(yīng)對(duì)序列長(zhǎng)度變化,但卻難以實(shí)現(xiàn),性能也更差。我們還需要全新的位置編碼機(jī)制,比如 CAPE,其將絕對(duì)和相對(duì)位置嵌入的優(yōu)勢(shì)組合到了一起。

改進(jìn)現(xiàn)有的 T-PTLM

BERT 和 RoBERTa 等 T-PTLM 已經(jīng)在許多 NLP 任務(wù)上取得了優(yōu)良的結(jié)果。近期的研究表明,通過基于對(duì)抗或?qū)Ρ阮A(yù)訓(xùn)練任務(wù)的持續(xù)預(yù)訓(xùn)練注入句子層級(jí)的語(yǔ)義,還可以進(jìn)一步改進(jìn)這些模型。舉個(gè)例子,Panda et al. 表明使用混洗 token 檢測(cè)目標(biāo)的持續(xù)預(yù)訓(xùn)練可提升 RoBERTa 模型在 GLUE 任務(wù)上的性能,因?yàn)槠湓试S模型學(xué)習(xí)更連貫的句子表征。類似地,使用對(duì)比預(yù)訓(xùn)練目標(biāo)的持續(xù)性預(yù)訓(xùn)練可以提升 T-PTLM 在 GLUE 任務(wù)上的性能以及多語(yǔ)言 T-PTLM 在 Mickey Probe 上的表現(xiàn)。為了將其擴(kuò)展到其它單語(yǔ)言和特定領(lǐng)域的 T-PTLM,還需要進(jìn)一步的研究。

超越樸素的微調(diào)

為了將預(yù)訓(xùn)練模型用于下游任務(wù),微調(diào)是最常用的方法。但是,樸素的微調(diào)的主要缺點(diǎn)是其會(huì)改變預(yù)訓(xùn)練模型中的所有層,因此我們需要為每個(gè)任務(wù)維持另一個(gè)副本,這會(huì)增加部署成本。為了以一種參數(shù)高效的方式將預(yù)訓(xùn)練模型用于下游任務(wù),人們提出了 Adapters 和基于剪枝的微調(diào)等方法。

舉個(gè)例子,adapter 是添加到每個(gè) Transformer 層的針對(duì)特定任務(wù)的小層。而在下游任務(wù)適應(yīng)期間,僅更新 adapter 層的參數(shù),Transformer 層的參數(shù)保持不變。此外,Poth et al. 表明 adapter 也可用于中間微調(diào)。近期,基于提示的微調(diào)(prompt-based tuning)方法在參數(shù)效率方面取得了明顯更優(yōu)的表現(xiàn),并得到了研究社區(qū)的關(guān)注。舉個(gè)例子,Prefix-tuning 等基于提示的微調(diào)方法僅需要 0.1% 的針對(duì)特定任務(wù)的參數(shù),而基于 adapter 的微調(diào)則需要 3% 的針對(duì)特定任務(wù)的參數(shù)。

基準(zhǔn)評(píng)測(cè)

在最后四層中,人們引入了很多基準(zhǔn)來評(píng)估通用型和領(lǐng)域特定型預(yù)訓(xùn)練模型的進(jìn)展。除了英語(yǔ)之外,也出現(xiàn)了一些用于評(píng)估其它單語(yǔ)言和多語(yǔ)言模型進(jìn)展的基準(zhǔn)。但是,現(xiàn)有的基準(zhǔn)不足以覆蓋所有場(chǎng)景。舉個(gè)例子,還沒有基準(zhǔn)用于評(píng)估 a) 緊湊預(yù)訓(xùn)練模型的進(jìn)展,b) 預(yù)訓(xùn)練模型的穩(wěn)健性,c) 針對(duì)社交媒體以及學(xué)術(shù)等專業(yè)領(lǐng)域開發(fā)的 PTLM。

近日,Explainboard 等排行榜不再只是使用已有基準(zhǔn)等單一指標(biāo)評(píng)估進(jìn)展,也會(huì)深挖或分析模型的長(zhǎng)項(xiàng)和短板。這類排行榜應(yīng)該也能擴(kuò)展到其它領(lǐng)域。此外,FewGLUE、FLEX 和 FewCLUE 等評(píng)估少量次學(xué)習(xí)技術(shù)的基準(zhǔn)也應(yīng)當(dāng)擴(kuò)展到其它語(yǔ)言和領(lǐng)域。

緊湊模型

T-PTLM 幾乎在每種 NLP 任務(wù)上都獲得了最佳表現(xiàn)。但是,這些模型都很大,需要更大的存儲(chǔ)空間。因?yàn)檫@些模型的層數(shù)很多,因此輸入需要一定時(shí)間才能完全通過模型,從而得到預(yù)測(cè)結(jié)果,因此延遲很高。而真實(shí)世界應(yīng)用的資源有限,需要更低的延遲,因此剪枝、量化、知識(shí)蒸餾、參數(shù)共享和分解等模型壓縮方法已經(jīng)在英語(yǔ)通用領(lǐng)域應(yīng)用方面得到了探索。研究這些模型壓縮方法在其它語(yǔ)言和領(lǐng)域的應(yīng)用具有很大的前景。

對(duì)噪聲的穩(wěn)健性

T-PTLM 容易受到噪聲影響,其中包括對(duì)抗噪聲和自然噪聲。其主要原因是使用了子詞嵌入。在使用子詞嵌入時(shí),一個(gè)詞會(huì)被分解為多個(gè)子詞 token,因此即使很小的拼寫錯(cuò)誤也可能改變?cè)撛~的整體表征,進(jìn)而阻礙模型學(xué)習(xí)并影響模型預(yù)測(cè)。為了提升模型對(duì)噪聲的穩(wěn)健性,CharacterBERT 等模型采用了只使用字符嵌入的方法,而 CharBERT 等模型則會(huì)將字符嵌入和子詞嵌入一起使用。這兩種方法都能提升對(duì)噪聲的穩(wěn)健性。

近期,研究者們還提出了 CANINE、ByT5 和 Charformer 等無(wú) token 化模型來提升對(duì)噪聲的穩(wěn)健性。為了讓這些模型能在真實(shí)世界中得到應(yīng)用,尤其是在醫(yī)學(xué)等敏感領(lǐng)域,我們需要提升它們的穩(wěn)健性。

全新的適應(yīng)方法

為了將通用模型適應(yīng)到生物醫(yī)學(xué)等專業(yè)領(lǐng)域或?qū)⒍嗾Z(yǔ)言模型適應(yīng)到特定語(yǔ)言,常用的策略是使用持續(xù)性預(yù)訓(xùn)練。盡管這種方法通過調(diào)整模型以適應(yīng)特定的領(lǐng)域或語(yǔ)言能得到良好的結(jié)果,但如果缺少領(lǐng)域或語(yǔ)言特定的詞匯庫(kù),下游模型的性能會(huì)受到影響。近期有研究者提出了擴(kuò)展詞匯表然后持續(xù)預(yù)訓(xùn)練的方法。這些方法能克服 OOV 詞的問題,但由于會(huì)在詞匯表中增加新詞,因此會(huì)增大詞匯表的規(guī)模。近日,Yao et al. 提出了 Adapt and Distill 方法,即使用詞匯表擴(kuò)展和知識(shí)蒸餾來使通用模型適應(yīng)特定領(lǐng)域。不同于已有的適應(yīng)方法,該方法不僅能讓通用模型適應(yīng)特定領(lǐng)域,而且還能減小模型的規(guī)模。這一注意值得進(jìn)一步研究并有望產(chǎn)出全新的適應(yīng)方法。

隱私問題

T-PTLM 已經(jīng)在許多 NLP 任務(wù)上取得了優(yōu)良的結(jié)果。但是,這些模型也存在一些超出預(yù)期且并無(wú)益處的風(fēng)險(xiǎn)。舉個(gè)例子,數(shù)據(jù)泄露是人們擔(dān)心的一個(gè)主要問題,尤其是當(dāng)這些模型的預(yù)訓(xùn)練使用了隱私數(shù)據(jù)時(shí)。由于模型是在大量文本數(shù)據(jù)上預(yù)訓(xùn)練的,因此有可能從中恢復(fù)敏感信息,比如可識(shí)別出個(gè)人身份的信息。因此,需要防止人們公開發(fā)布使用隱私數(shù)據(jù)預(yù)訓(xùn)練的模型。

近日,Carlini et al. 研究表明,GPT-2 模型可生成一個(gè)人的完整郵政地址,這些地址包含在訓(xùn)練數(shù)據(jù)中,可使用該人的名字通過提示得到。近期出現(xiàn)在生物醫(yī)學(xué)領(lǐng)域的 KART 框架可通過執(zhí)行多種攻擊來評(píng)估數(shù)據(jù)泄露情況。研究社區(qū)需要開發(fā)更復(fù)雜的攻擊來評(píng)估數(shù)據(jù)泄露情況并開發(fā)防止預(yù)訓(xùn)練模型泄露敏感數(shù)據(jù)的方法。

降低偏見

基于深度學(xué)習(xí)的方法正在現(xiàn)實(shí)世界中得到越來越廣泛的應(yīng)用,其中包括在生物醫(yī)學(xué)和法律等專業(yè)領(lǐng)域。但是,這些模型很容易學(xué)習(xí)并放大訓(xùn)練數(shù)據(jù)中已有的偏見。由此造成的結(jié)果是:這些模型會(huì)產(chǎn)生對(duì)特定種族、性別或年齡群體的偏見。我們完全不需要這樣的模型。

近期出現(xiàn)了一些重點(diǎn)關(guān)注識(shí)別和降低偏見的研究。比如,Minot et al. 提出了一種用于減少性別偏見的數(shù)據(jù)增強(qiáng)方法,Liang et al. 提出的 A-INLP 方法可以動(dòng)態(tài)地識(shí)別偏見敏感型 token。在這一領(lǐng)域進(jìn)行進(jìn)一步研究有助于降低預(yù)訓(xùn)練模型中的偏見并幫助它們做出公平的決定。

降低微調(diào)不穩(wěn)定性

為了讓預(yù)訓(xùn)練模型適應(yīng)下游任務(wù),最常用的方法是微調(diào)。盡管微調(diào)的表現(xiàn)不錯(cuò),但它并不穩(wěn)定,即使用不同隨機(jī)種子來執(zhí)行微調(diào)會(huì)令下游表現(xiàn)差距巨大。有人認(rèn)為,微調(diào)不穩(wěn)定的原因包括災(zāi)難性遺忘和數(shù)據(jù)集規(guī)模較小。但是,Mosbach et al. 表明這兩個(gè)原因都不是微調(diào)不穩(wěn)定的原因,并進(jìn)一步表明微調(diào)不穩(wěn)定的原因包括:a) 優(yōu)化困難,導(dǎo)致梯度消失,b) 泛化問題。為了降低微調(diào)不穩(wěn)定,可能的解決方案包括:a) 中間微調(diào),b) 混合(mix-out),c) 在早期 epoch 采用更小的學(xué)習(xí)率并且增多微調(diào) epoch 的次數(shù),d) 同時(shí)使用監(jiān)督式對(duì)比損失和交叉熵?fù)p失。讓微調(diào)更穩(wěn)定的方法值得進(jìn)一步研究。

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的最新综述:基于Transformer的NLP预训练模型已经发展到何种程度?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。