日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一文揭开ALBERT的神秘面纱

發(fā)布時間:2024/1/8 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一文揭开ALBERT的神秘面纱 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文是我對ALBERT論文的一個總結(jié)歸納,如有理解上的偏差、錯誤歡迎大家指正批評,感謝。

前言

RoBERTa沒霸榜幾天,這不Google爸爸就又放大招,這次的新模型不再是簡單的的升級,而是采用了全新的參數(shù)共享機(jī)制,反觀其他升級版BERT模型,基本都是添加了更多的預(yù)訓(xùn)練任務(wù),增大數(shù)據(jù)量等輕微的改動。這次ALBERT的改進(jìn),不僅提升了模型的整體效果再一次拿下來各項榜單的榜首,而且參數(shù)量相比BERT來說少了很多。

對于預(yù)訓(xùn)練模型來說,提升模型的大小是能對下游任務(wù)的效果有一定提升,然而如果進(jìn)一步提升模型規(guī)模,勢必會導(dǎo)致顯存或者內(nèi)存出現(xiàn)OOM的問題,長時間的訓(xùn)練也可能導(dǎo)致模型出現(xiàn)退化的情況。為了解決這些問題,Google爸爸提出了ALBERT,該模型提出了兩種減少內(nèi)存的方法,同時提升了訓(xùn)練速度,其次改進(jìn)了BERT中的NSP的預(yù)訓(xùn)練任務(wù)。接下來就讓我們一起來看看這個新的模型到底是什么樣子的。

相比于BERT的改進(jìn)

ALBERT也是采用和BERT一樣的Transformer的encoder結(jié)果,激活函數(shù)使用的也是GELU,在講解下面的內(nèi)容前,我們規(guī)定幾個參數(shù),詞的embedding我們設(shè)置為E,encoder的層數(shù)我們設(shè)置為L,hidden size即encoder的輸出值的維度我們設(shè)置為H,前饋神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)設(shè)置為4H,attention的head個數(shù)設(shè)置為H/64。

在ALBERT中主要有三個改進(jìn)方向。

1、對Embedding因式分解(Factorized embedding parameterization)

在BERT中,詞embedding與encoder輸出的embedding維度是一樣的都是768。但是ALBERT認(rèn)為,詞級別的embedding是沒有上下文依賴的表述,而隱藏層的輸出值不僅包括了詞本生的意思還包括一些上下文信息,理論上來說隱藏層的表述包含的信息應(yīng)該更多一些,因此應(yīng)該讓H>>E,所以ALBERT的詞向量的維度是小于encoder輸出值維度的。

在NLP任務(wù)中,通常詞典都會很大,embedding matrix的大小是E×V,如果和BERT一樣讓H=E,那么embedding matrix的參數(shù)量會很大,并且反向傳播的過程中,更新的內(nèi)容也比較稀疏。

結(jié)合上述說的兩個點(diǎn),ALBERT采用了一種因式分解的方法來降低參數(shù)量。首先把one-hot向量映射到一個低維度的空間,大小為E,然后再映射到一個高維度的空間,說白了就是先經(jīng)過一個維度很低的embedding matrix,然后再經(jīng)過一個高維度matrix把維度變到隱藏層的空間內(nèi),從而把參數(shù)量從 O ( V × H ) O(V×H) O(V×H)降低到了 O ( V × E + E × H ) O(V×E+E×H) O(V×E+E×H),當(dāng)E<<H時參數(shù)量減少的很明顯。

下圖是E選擇不同值的一個實驗結(jié)果,尷尬的是,在不采用參數(shù)共享優(yōu)化方案時E設(shè)置為768效果反而好一些,在采用了參數(shù)共享優(yōu)化方案時E取128效果更好一些。

2、跨層的參數(shù)共享(Cross-layer parameter sharing)

在ALBERT還提出了一種參數(shù)共享的方法,Transformer中共享參數(shù)有多種方案,只共享全連接層,只共享attention層,ALBERT結(jié)合了上述兩種方案,全連接層與attention層都進(jìn)行參數(shù)共享,也就是說共享encoder內(nèi)的所有參數(shù),同樣量級下的Transformer采用該方案后實際上效果是有下降的,但是參數(shù)量減少了很多,訓(xùn)練速度也提升了很多。

下圖是BERT與ALBERT的一個對比,以base為例,BERT的參數(shù)是108M,而ALBERT僅有12M,但是效果的確相比BERT降低了兩個點(diǎn)。由于其速度快的原因,我們再以BERT xlarge為參照標(biāo)準(zhǔn)其參數(shù)是1280M,假設(shè)其訓(xùn)練速度是1,ALBERT的xxlarge版本的訓(xùn)練速度是其1.2倍,并且參數(shù)也才223M,評判標(biāo)準(zhǔn)的平均值也達(dá)到了最高的88.7

除了上述說了訓(xùn)練速度快之外,ALBERT每一層的輸出的embedding相比于BERT來說震蕩幅度更小一些。下圖是不同的層的輸出值的L2距離與cosine相似度,可見參數(shù)共享其實是有穩(wěn)定網(wǎng)絡(luò)參數(shù)的作用的。

3、句間連貫(Inter-sentence coherence loss)

BERT的NSP任務(wù)實際上是一個二分類,訓(xùn)練數(shù)據(jù)的正樣本是通過采樣同一個文檔中的兩個連續(xù)的句子,而負(fù)樣本是通過采用兩個不同的文檔的句子。該任務(wù)主要是希望能提高下游任務(wù)的效果,例如NLI自然語言推理任務(wù)。但是后續(xù)的研究發(fā)現(xiàn)該任務(wù)效果并不好,主要原因是因為其任務(wù)過于簡單。NSP其實包含了兩個子任務(wù),主題預(yù)測與關(guān)系一致性預(yù)測,但是主題預(yù)測相比于關(guān)系一致性預(yù)測簡單太多了,并且在MLM任務(wù)中其實也有類型的效果。

這里提一下為啥包含了主題預(yù)測,因為正樣本是在同一個文檔中選取的,負(fù)樣本是在不同的文檔選取的,假如我們有2個文檔,一個是娛樂相關(guān)的,一個是新中國成立70周年相關(guān)的,那么負(fù)樣本選擇的內(nèi)容就是不同的主題,而正樣都在娛樂文檔中選擇的話預(yù)測出來的主題就是娛樂,在新中國成立70周年的文檔中選擇的話就是后者這個主題了。

在ALBERT中,為了只保留一致性任務(wù)去除主題識別的影響,提出了一個新的任務(wù) sentence-order prediction(SOP),SOP的正樣本和NSP的獲取方式是一樣的,負(fù)樣本把正樣本的順序反轉(zhuǎn)即可。SOP因為實在同一個文檔中選的,其只關(guān)注句子的順序并沒有主題方面的影響。并且SOP能解決NSP的任務(wù),但是NSP并不能解決SOP的任務(wù),該任務(wù)的添加給最終的結(jié)果提升了一個點(diǎn)。

4、移除dropout

除了上面提到的三個主要優(yōu)化點(diǎn),ALBERT的作者還發(fā)現(xiàn)一個很有意思的點(diǎn),ALBERT在訓(xùn)練了100w步之后,模型依舊沒有過擬合,于是乎作者果斷移除了dropout,沒想到對下游任務(wù)的效果竟然有一定的提升。這也是業(yè)界第一次發(fā)現(xiàn)dropout對大規(guī)模的預(yù)訓(xùn)練模型會造成負(fù)面影響。

總結(jié)

在初聞ALBERT時,以為其減少了總的運(yùn)算量,但實際上是通過參數(shù)共享的方式降低了內(nèi)存,預(yù)測階段還是需要和BERT一樣的時間,如果采用了xxlarge版本的ALBERT,那實際上預(yù)測速度會更慢。

ALBERT解決的是訓(xùn)練時候的速度提升,如果要真的做到總體運(yùn)算量的減少,的確是一個復(fù)雜且艱巨的任務(wù),畢竟魚與熊掌不可兼得。不過話說回來,ALBERT也更加適合采用feature base或者模型蒸餾等方式來提升最終效果。

ALBERT作者最后也簡單提了下后續(xù)可能的優(yōu)化方案,例如采用sparse attention或者block attention,這些方案的確是能真正降低運(yùn)算量。其次,作者認(rèn)為還有更多維度的特征需要去采用其他的自監(jiān)督任務(wù)來捕獲。

參考文獻(xiàn)

ALBERT: A LITE BERT FOR SELF-SUPERVISED
LEARNING OF LANGUAGE REPRESENTATIONS

總結(jié)

以上是生活随笔為你收集整理的一文揭开ALBERT的神秘面纱的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。