引入N-gram改进Transformer架构,ACL匿名论文超越Primer等基准
?作者?|?陳萍、杜偉
來(lái)源?|?機(jī)器之心
在提交給 ACL 的一篇匿名論文中,研究者用潛在 n-gram 來(lái)增強(qiáng) Transformer。
Transformer 模型已成為自然語(yǔ)言處理任務(wù)的基礎(chǔ)模型之一,最近研究者開始把注意力轉(zhuǎn)移到對(duì)這些模型的擴(kuò)展上。然而,這些大型 Transformer 語(yǔ)言模型的訓(xùn)練和推理成本高昂,令人望而卻步,因此我們需要更多變體來(lái)消除這些不利因素。
近日,一篇匿名提交給自然語(yǔ)言處理頂會(huì) ACL 的論文《 N-grammer: Augmenting Transformers with latent n-grams 》中,研究者受到統(tǒng)計(jì)語(yǔ)言建模的啟發(fā),通過(guò)從文本序列的離散潛在表示構(gòu)建 n-gram 來(lái)增強(qiáng)模型,進(jìn)而對(duì) Transformer 架構(gòu)進(jìn)行了一個(gè)簡(jiǎn)單而有效的修改,稱為 N-grammer。
具體地,N-grammer 層通過(guò)在訓(xùn)練期間將潛在 n-gram 表示合并到模型中來(lái)提高語(yǔ)言模型的效率。由于 N-grammer 層僅在訓(xùn)練和推理期間涉及稀疏操作,研究者發(fā)現(xiàn)具有潛在 N-grammer 層的 Transformer 模型可以匹配更大的 Transformer,同時(shí)推理速度明顯更快。在 C4 數(shù)據(jù)集上對(duì)語(yǔ)言建模的 N-grammer 進(jìn)行評(píng)估表明,本文提出的方法優(yōu)于 Transformer 和 Primer 等基準(zhǔn)。?
論文地址:
https://openreview.net/pdf?id=GxjCYmQAody
N-grammer 層
在網(wǎng)絡(luò)高層次上,該研究引入了一個(gè)簡(jiǎn)單的層,該層基于潛在 n-gram 用更多的內(nèi)存來(lái)增強(qiáng) Transformer 架構(gòu)。一般來(lái)說(shuō),N-grammer 層對(duì)于任意 N-gram 來(lái)說(shuō)已經(jīng)足夠了,該研究?jī)H限于使用 bi-gram,以后將會(huì)研究高階 n-gram。這個(gè)簡(jiǎn)單的層由以下幾個(gè)核心操作組成:
給定文本的 uni-gram 嵌入序列,通過(guò) PQ (Product Quantization)推導(dǎo)出離散潛在表示序列;
推導(dǎo)潛在序列 bi-gram 表示;
通過(guò)哈希到 bi-gram 詞匯表中查找可訓(xùn)練的 bi-gram 嵌入;
將 bi-gram 嵌入與輸入 uni-gram 嵌入相結(jié)合。
此外,當(dāng)提到一組離散項(xiàng)時(shí),該研究使用符號(hào) [m] 表示集合{0,1,···,m?1}。
序列的離散潛在表示
第一步,N-grammer 層從給定的輸入嵌入序列學(xué)習(xí) Codebook,獲得具有乘積量化(Product Quantization,PQ)(Jegou 等人,2011 年)的離散潛在表示的并行序列。輸入嵌入是一個(gè) uni-gram 嵌入序列 x ? R^( l×h×d ),其中 l 是序列長(zhǎng)度,h 是頭數(shù)量,d 是每個(gè)頭嵌入維度。該研究在 R^ k×h×d 中學(xué)習(xí)了一個(gè) Codebook c,通過(guò)相同的步驟,該研究選取距離輸入嵌入最小的 code book ID,形成序列 x 的離散潛在表示 z ?[k]^l×h 的并行序列:
離散潛在表示 Bi-gram ID
第二步是將離散潛在表示 z 轉(zhuǎn)換為 bi-gram ID b ? [k^2 ]^( l×h )。它們通過(guò)組合來(lái)自前一個(gè)位置的 uni-gram 潛在 ID z,然后在當(dāng)前位置形成潛在 bi-gram ID:
其中 k 是 codebook 大小,這直接將離散潛在序列從詞匯空間[k] 映射到潛在 bi-gram 詞匯空間 [k^2 ] 。
構(gòu)建 bi-gram 表示
第三步是構(gòu)建序列 bi-gram 潛在表示 b。考慮所有的 k^2 bi-gram,并通過(guò)對(duì)每個(gè)這樣的 bi-gram 嵌入來(lái)增強(qiáng)模型。在實(shí)踐中,對(duì)于 uni-gram 詞匯為 32,000 的機(jī)器翻譯模型壓縮,在不犧牲質(zhì)量的情況下,需要將 187 個(gè) token 聚類為 k = 212 個(gè) cluster。在這種情況下,需要考慮所有的 bi-gram,涉及構(gòu)建一個(gè)包含 1600 萬(wàn)行的嵌入表。由于所構(gòu)建的表仍然很大,該研究通過(guò)對(duì)每個(gè)頭使用單獨(dú)的哈希函數(shù),將潛在 bi-gram ID 映射到大小為 v 的較小的 bi-gram 詞匯表。
更準(zhǔn)確地講,該研究有一個(gè)潛在 bi-gram 嵌入表 B ? R^v×h×d_b,其中 v 為 bi- gram 詞匯,d_b 為 bi-gram 嵌入維度。然后將文本序列 bi-gram 嵌入構(gòu)建為:
與嵌入進(jìn)行結(jié)合
最后一步是將 uni-gram 嵌入 x ? R^(l×h×d)與潛在 bi-gram 嵌入 y∈R^(l×h×db)相結(jié)合,形成文本序列新表示。bi-gram 嵌入和 uni-gram 嵌入都是獨(dú)立的層歸一化(LN),然后沿著嵌入維度連接兩者以產(chǎn)生 w = [LN(x), LN(y)] ? R^l×h×(d+db) ,并將其作為輸入傳遞給 Transformer 網(wǎng)絡(luò)的其余部分。
實(shí)驗(yàn)結(jié)果
該研究在 C4 數(shù)據(jù)集上將 N-grammer 模型與 Transformer 架構(gòu)(Vaswani 等人,2017 年)以及最近提出的 Primer 架構(gòu)(So 等人,2021 年)進(jìn)行了比較。其中,該研究使用 Adam 優(yōu)化器,所有模型的學(xué)習(xí)率為 10^-3,而對(duì)于 n-gram 嵌入表,學(xué)習(xí)率為 10^-2。
下表 1 比較了 N-grammer、Primer 和 Transformer 模型,其中基線 Transformer 模型有 16 層和 8 個(gè)頭,模型維度為 1024。研究者在 TPU v3 上以 256 的批大小和 1024 的序列長(zhǎng)度訓(xùn)練所有模型。研究者對(duì) N-grammer 模型進(jìn)行了消融研究,bi-gram 嵌入維度大小從 128 到 512 不等。由于添加 n-gram 嵌入增加了可訓(xùn)練參數(shù)的數(shù)量,該研究還在表 1 中訓(xùn)練了兩個(gè)大基線(Transformer-L 和 Primer-L),它們的參數(shù)順序與 N-grammer 模型相同。然而,與較大的 Transformer 模型不同,N-grammer 的訓(xùn)練和推理成本與嵌入層中的參數(shù)數(shù)量不成比例,因?yàn)樗鼈円蕾囉谙∈璨僮鳌?/p>
該研究還測(cè)試了一個(gè)簡(jiǎn)單版本的 N-grammer,研究者直接從 uni-gram 詞匯表(3.3 節(jié)中的)而不是從潛在表示中計(jì)算 n-gram(3.1 節(jié)的)。由表 1 可知,它對(duì)應(yīng)于在 clusters 列中沒有條目的 N- grammer。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的引入N-gram改进Transformer架构,ACL匿名论文超越Primer等基准的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么无损合并分区 无损合并分区的操作方法
- 下一篇: IET Cyber-Systems R