當(dāng)前位置：首頁(yè) >

【NLP】ALBERT：更轻更快的NLP预训练模型

發(fā)布時(shí)間：2025/3/20 53 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】ALBERT：更轻更快的NLP预训练模型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目前在NLP領(lǐng)域，出彩的預(yù)訓(xùn)練模型的新工作，幾乎都是基于BERT的改進(jìn)，前面我們就介紹了XLNET。今天我來(lái)介紹一個(gè)更新的工作，相比于BERT，它更輕量，效果也要好。

作者&編輯 | 小Dream哥

1 預(yù)訓(xùn)練模型進(jìn)展

2018年底，BERT橫空出世之后，預(yù)訓(xùn)練模型開(kāi)始走進(jìn)NLP舞臺(tái)的中央，吸引了業(yè)內(nèi)所有人的關(guān)注。之后，各種預(yù)訓(xùn)練模型開(kāi)始不斷的刷新NLP領(lǐng)域的SOTA榜單，比較有影響力的包括，GPT-2.0，XLNET，RoBERTa等。

大體來(lái)說(shuō)，上述預(yù)訓(xùn)練模型確實(shí)都基于BERT了做了一些改進(jìn)，在模型結(jié)構(gòu)、訓(xùn)練模式等方面都有一些創(chuàng)新。但是大部分的預(yù)訓(xùn)練模型也有一個(gè)共通的“特點(diǎn)”，即模型相對(duì)“笨重”，預(yù)訓(xùn)練成本高。

ALBERT的作者就是基于這樣的背景，提出ALBERT這個(gè)模型的。其試圖解決大部分預(yù)訓(xùn)練模型訓(xùn)練成本高，參數(shù)量巨大的問(wèn)題。

2? ALBERT的改進(jìn)點(diǎn)

ALBERT為了減少模型參數(shù)主要有以下幾點(diǎn)：

1.詞嵌入?yún)?shù)因式分解；

2.隱藏層間參數(shù)共享

此外，為了提升模型性能，ALBERT提出了一種新的訓(xùn)練任務(wù)：

句子間順序預(yù)測(cè)

下面我們?cè)敿?xì)介紹以下這幾個(gè)改進(jìn)點(diǎn)：

1）詞嵌入?yún)?shù)因式分解

ALBERT的提出者認(rèn)為，詞向量只是記憶了相對(duì)少量的詞語(yǔ)的信息，更多的語(yǔ)義和句法等信息時(shí)由隱藏層記憶的。因此，他們認(rèn)為，詞嵌入的維度可以不必與隱藏層的維度一致，可以通過(guò)降低詞嵌入的維度的方式來(lái)減少參數(shù)量。假設(shè)詞表的大小為V，詞嵌入的維度為E，隱藏層的維度為H。

BERT的情況是，E=H；ALBERT的方案是，將E降低，在詞嵌入和隱藏層之間加入一個(gè)project層，連接兩個(gè)層。我們來(lái)分析一下，兩種情況嵌入層的參數(shù)量。

1.BERT：ParameterNumBERT = E*V = H*V

通常情況下V很大，BERT中文模型V約為30000，BERT_base中H = 1024：

ParameterNumBERT=30000*1024?

2.ALBERT：ParameterNumAL = (V +H)*E

ALBERT中，E=128；H=1024：

ParameterNumAL=30000*128+128*1024

ParameterNumAL/ParameterNumAL =7.7

從上面的分析可以看出，通過(guò)嵌入層的參數(shù)因式分解，成功將嵌入層的參數(shù)縮小為原來(lái)的1/8。

2）隱藏層的參數(shù)共享

如上圖所示，是BERT的結(jié)構(gòu)示意圖，BERT_base中，包含12層中間的隱藏層；BERT_large中，包含24層中間的隱藏層；各層之間的參數(shù)均不共享。

參數(shù)共享可以顯著減少參數(shù)數(shù)量，參數(shù)共享可以分為全連接層、注意力層的參數(shù)共享；在ALBERT中，全連接層、注意力層的參數(shù)均是共享的，也就是ALBERT依然有多層的深度連接，但是各層之間的參數(shù)是一樣的。很明顯的，通過(guò)這種方式，ALBERT中隱藏層的參數(shù)量變?yōu)樵瓉?lái)的1/12或者1/24。

3）句子間順序預(yù)測(cè)

在BERT中，句子間關(guān)系的任務(wù)是next sentence predict(NSP)，即向模型輸入兩個(gè)句子，預(yù)測(cè)第二個(gè)句子是不是第一個(gè)句子的下一句。

在ALBERT中，句子間關(guān)系的任務(wù)是sentence-order prediction(SOP)，即句子間順序預(yù)測(cè)，也就是給模型兩個(gè)句子，讓模型去預(yù)測(cè)兩個(gè)句子的前后順序。文中介紹，SOP是比NSP要更為復(fù)雜的任務(wù)，相比于NSP，通過(guò)SOP任務(wù)模型能夠?qū)W到更多的句子間的語(yǔ)義關(guān)系。

3? ALBERT的效果

如上圖所示，展示了ALBERT與BERT不同大小模型的參數(shù)量及其在各個(gè)數(shù)據(jù)集的效果。

從上面的結(jié)果，可以得到一個(gè)基本的結(jié)論，相比于BERT，ALBERT能夠在不損失模型性能的情況下，顯著的減少參數(shù)量。ALBERT_xxlarge模型有233M的參數(shù)量，其在各個(gè)數(shù)據(jù)集上的表現(xiàn)卻能夠全面優(yōu)于有1270M參數(shù)的BERT_xlarge模型。

此外，作者還分別分析了嵌入層參數(shù)因式分解、隱藏層參數(shù)共享以及SOP任務(wù)對(duì)ALBERT模型性能的影響。作者的結(jié)論是，嵌入層參數(shù)因式分解、隱藏層參數(shù)共享基本不會(huì)對(duì)模型的性能造成損失，SOP任務(wù)能夠提升模型的性能。

值得注意的一點(diǎn)是，作者還發(fā)現(xiàn)ALBERT在訓(xùn)練了100w步之后，模型依舊沒(méi)有過(guò)擬合，于是作者嘗試去掉dropout，卻意外的發(fā)現(xiàn)下游任務(wù)的效果竟然有了一定的提升。這是NLP領(lǐng)域第一次發(fā)現(xiàn)dropout對(duì)大規(guī)模的預(yù)訓(xùn)練模型會(huì)造成負(fù)面影響。

此外，ALBERT還有一個(gè)albert_tiny模型，其隱藏層僅有4層，模型參數(shù)量約為1.8M，非常的輕便。相對(duì)于BERT，其訓(xùn)練和推理預(yù)測(cè)速度提升約10倍，但精度基本保留，語(yǔ)義相似度數(shù)據(jù)集LCQMC測(cè)試集上達(dá)到85.4%，相比bert_base僅下降1.5個(gè)點(diǎn)。

總結(jié)

總的來(lái)說(shuō)，ALBERT利用詞嵌入?yún)?shù)因式分解和隱藏層間參數(shù)共享兩種手段，在顯著減少了模型的參數(shù)量的同時(shí)，基本沒(méi)有損失模型的性能；

隱藏層間參數(shù)共享能夠極大的減少模型參數(shù)，對(duì)模型訓(xùn)練速度的提升也有一定的幫助。但是對(duì)推理預(yù)測(cè)速度卻不會(huì)有任何幫助，因?yàn)榍跋騻鞑r(shí)的計(jì)算量一點(diǎn)也沒(méi)有減少。基于此，ALBERT的研究者們，提供了albert_tiny模型，提高了模型的推理速度，代價(jià)卻很低（準(zhǔn)確率降低很少）。

通過(guò)引進(jìn)SOP的訓(xùn)練任務(wù)，模型的準(zhǔn)確度也有一定的提升。

我們會(huì)在知識(shí)星球討論ALBERT實(shí)現(xiàn)相關(guān)的代碼及問(wèn)題，感興趣的同學(xué)可以掃描下面的二維碼了解。

讀者們可以留言，或者加入我們的NLP群進(jìn)行討論。感興趣的同學(xué)可以微信搜索jen104，備注"加入有三AI NLP群"。

下期預(yù)告：知識(shí)圖譜概述

知識(shí)星球推薦

掃描上面的二維碼，就可以加入我們的星球，助你成長(zhǎng)為一名合格的自然語(yǔ)言處理算法工程師。

知識(shí)星球主要有以下內(nèi)容：

(1) 聊天機(jī)器人。考慮到聊天機(jī)器人是一個(gè)非常復(fù)雜的NLP應(yīng)用場(chǎng)景，幾乎涵蓋了所有的NLP任務(wù)及應(yīng)用。所以小Dream哥計(jì)劃以聊天機(jī)器人作為切入點(diǎn)，通過(guò)介紹聊天機(jī)器人的原理和實(shí)踐，逐步系統(tǒng)的更新到大部分NLP的知識(shí)，會(huì)包括語(yǔ)義匹配，文本分類，意圖識(shí)別，語(yǔ)義匹配命名實(shí)體識(shí)別、對(duì)話管理以及分詞等。

(2) 知識(shí)圖譜。知識(shí)圖譜對(duì)于NLP各項(xiàng)任務(wù)效果好壞的重要性，就好比基礎(chǔ)知識(shí)對(duì)于一個(gè)學(xué)生成績(jī)好壞的重要性。他是NLP最重要的基礎(chǔ)設(shè)施，目前各大公司都在著力打造知識(shí)圖譜，作為一個(gè)NLP工程師，必須要熟悉和了解他。

(3) NLP預(yù)訓(xùn)練模型。基于海量數(shù)據(jù)，進(jìn)行超大規(guī)模網(wǎng)絡(luò)的無(wú)監(jiān)督預(yù)訓(xùn)練。具體的任務(wù)再通過(guò)少量的樣本進(jìn)行Fine-Tune。這樣模式是目前NLP領(lǐng)域最火熱的模式，很有可能引領(lǐng)NLP進(jìn)入一個(gè)全新發(fā)展高度。你怎么不深入的了解？

轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系

侵權(quán)必究

往期精選

總結(jié)

以上是生活随笔為你收集整理的【NLP】ALBERT：更轻更快的NLP预训练模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【完结】12篇GAN的优化文章大盘点，浓
下一篇：【AutoML】损失函数也可以进行自动搜

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

【NLP】ALBERT：更轻更快的NLP预训练模型

總結(jié)