當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】ACL 2021中的25个Transformers模型

發(fā)布時(shí)間：2025/3/12 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】ACL 2021中的25个Transformers模型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言

言歸正傳，這次我們總結(jié)一下ACL2021中的Transformers，看看2021年了，NLPer在如何使用、應(yīng)用、改進(jìn)、分析Transformers，希望可以對(duì)大家產(chǎn)生idea有幫助。

本文涉及25篇Transformer相關(guān)的文章，對(duì)原文感興趣的讀者可以關(guān)注公眾號(hào)回復(fù): ACL2021Transformers，下載本文所涉及的所有文章～本文主要內(nèi)容：

前言
ACL 2021中的25個(gè)Transformers模型
總結(jié)

ACL 2021中的25個(gè)Transformers模型

NLP中的層次結(jié)構(gòu)

Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Document Modeling

高效和長(zhǎng)文本transformer模型設(shè)計(jì)，短文。如上圖所示，這篇文章主要提出一種解決長(zhǎng)文本任務(wù)的transformer模型：首先分別encoder sentence表示，然后再encod document表示，最后再重新encde sentence表示，總體上比較簡(jiǎn)單的local+global設(shè)計(jì)。

R2D2: Recursive Transformer based on Differentiable Tree for Interpretable Hierarchical Language Modeling

將Transformer和語(yǔ)言文字層次結(jié)構(gòu)相結(jié)合的一篇文章。本文基于可差分CKY樹(shù)，提出一種recursive Transformer模型，用于捕獲語(yǔ)言中的層次結(jié)構(gòu)（words, Phrases, sentences），與目前直接堆疊Transformer Layer的模型進(jìn)行對(duì)比（例如BERT，Albert）除了可以學(xué)好表示，還能學(xué)到tree結(jié)構(gòu)，與之前基于CKY的parser模型，Tree-LSTM模型比較相似。為了能讓recursive Transformer進(jìn)行快速、大規(guī)模訓(xùn)練，文章也相應(yīng)提出了優(yōu)化算法。Recursive Transformer語(yǔ)言模型實(shí)驗(yàn)是基于WikiText-2做的，效果還可以。為了凸顯該模型的tree 結(jié)構(gòu)性，文章進(jìn)一步做了無(wú)監(jiān)督Constituency Parse，顯示了該模型結(jié)構(gòu)在學(xué)習(xí)語(yǔ)言層次結(jié)構(gòu)上的能力。

Transformer復(fù)雜度和高效設(shè)計(jì)

IrEne: Interpretable Energy Prediction for Transformers

本文預(yù)測(cè)Transformer運(yùn)行所消耗的能量，很有趣。首先，這篇文章將Transformer模型結(jié)構(gòu)按照Tree進(jìn)行拆解：整個(gè)模型是root節(jié)點(diǎn)（例如BERT），root節(jié)點(diǎn)下逐步拆分出子模塊（比如BertSelf Attention），最終子模塊由最基本的ML單元組成（例如全連接Dense網(wǎng)絡(luò)），最終自底向上，先預(yù)測(cè)單個(gè)ML單元的能量消耗，再匯總計(jì)算出整體模型的能量消耗。為了驗(yàn)證該方法的有效性，該文還創(chuàng)建了一個(gè)數(shù)據(jù)集來(lái)評(píng)測(cè)Transformer-based模型的能量消耗。IrEne的代碼在：https://github.com/StonyBrookNLP/irene

Optimizing Deeper Transformers on Small Datasets

小數(shù)據(jù)集+更深更大的模型，有點(diǎn)反常識(shí)的感覺(jué)，不過(guò)也很有趣。總體上，這篇文章通過(guò)合適的模型初始化方式和優(yōu)化算法，在很小很難的Text-to-SQL任務(wù)上取得了不錯(cuò)的結(jié)果，這篇文章的核心是Data-dependent Transformer Fixed-update，那這個(gè)DT-Fixup怎么做的呢？比如使用的模型是roberta，在roberta上面再堆疊個(gè)幾層隨機(jī)Transformer：

對(duì)于模型中非預(yù)訓(xùn)練模型初始化的部分，使用Xavier initialization進(jìn)行初始化。
對(duì)于模型中非預(yù)訓(xùn)練模型初始化的部分，將學(xué)習(xí)率的warm-up和所有的layer normalization去掉。
對(duì)所有的樣本進(jìn)行一遍前向傳播獲得輸入的一個(gè)估計(jì)：，是roberta輸出的表示。
根據(jù)得到的，在新疊加的每層Transformer上，對(duì)attention和權(quán)重矩陣進(jìn)行設(shè)計(jì)好的縮放。

文章理論推導(dǎo)較多，建議感興趣的同學(xué)下載文章后閱讀原文進(jìn)行學(xué)習(xí)。

READONCE Transformers: Reusable Representations of Text for Transformers

Transformer推理提速。文章的思路是：無(wú)論是問(wèn)答任務(wù)，摘要生成任務(wù)還是其他任務(wù)里的不同樣本可能會(huì)多次涉及到同一個(gè)wiki段落，這個(gè)時(shí)候不用每次都重新encode這個(gè)wiki段落，可以只encode這個(gè)段落一次然后re-use。文章思路和另一個(gè)SIGIR 2020的很像：DC-BERT: Decoupling Question and Document for Efficient Contextual Encoding

Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks

parameter-efficient相關(guān)的一篇文章，通過(guò)多任務(wù)學(xué)習(xí)和特定的模型參數(shù)共享來(lái)達(dá)到更好的遷移學(xué)習(xí)效果。總體上模型是make sense的。如上圖所示，該論文基于adapter類(lèi)似的結(jié)構(gòu)設(shè)計(jì)來(lái)幫助下游任務(wù)finetune，但adapter處的設(shè)計(jì)與之前的研究不同的是：給予task id， adapter位置，layer id動(dòng)態(tài)計(jì)算所有l(wèi)ayer的adapter參數(shù)。代碼開(kāi)源在：https://github.com/rabeehk/hyperformer

Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search

高效Transformer設(shè)計(jì)。文章的主要亮點(diǎn)是：1. transformer中間層的長(zhǎng)度自適應(yīng)，可以減少參數(shù)量。2. 減少的參數(shù)所對(duì)應(yīng)的token表示可以被restore，因此可以用來(lái)做抽取式QA任務(wù)。文章在文本分類(lèi)和QA任務(wù)上進(jìn)行了驗(yàn)證。

H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences

高效transformer設(shè)計(jì)。文章借鑒數(shù)值分析領(lǐng)域的：Hierarchical Matrix和Multigrid method，提出了一種hierarchical attention結(jié)構(gòu)，該結(jié)構(gòu)是線(xiàn)性時(shí)間復(fù)雜度和空間復(fù)雜度，并進(jìn)一步優(yōu)化到只使用dense layer運(yùn)算進(jìn)行實(shí)現(xiàn)。

Transformer分析和可解釋性

Personalized Transformer for Explainable Recommendation

推薦、可解釋性、NLP相結(jié)合的一篇文章。該論文提出了PETER模型（如上圖所示），將user， item和item feature，item的explanation當(dāng)作模型輸入，對(duì)user，item進(jìn)行表示學(xué)習(xí)，同時(shí)也學(xué)習(xí)item特征向量表示和explanation文字的表示，輸出又3個(gè)任務(wù)，Rating prediction是推薦任務(wù)，context Prediction是用item的輸出表示預(yù)測(cè)item的生成item的explanation（和doc2vec算法類(lèi)似），Explanation Generation就是正常的生成任務(wù)。總體上user、item著兩個(gè)輸入和對(duì)應(yīng)的表示能讓模型學(xué)到Personalized和recommendation的知識(shí)，Explanation預(yù)測(cè)就是正常的生成任務(wù)。該模型在Yelp、Amazon，TripAdvisor數(shù)據(jù)集上做了實(shí)驗(yàn)，有不錯(cuò)的效果。

Contributions of Transformer Attention Heads in Multi- and Cross-lingual Tasks

對(duì)Transformer不同Head重要性進(jìn)行分析的一篇文章。這篇文章在multi-lingual，Cross-lingual任務(wù)上，對(duì)mBERT、XLM-R這兩個(gè)Transformer模型進(jìn)行了分析，實(shí)驗(yàn)結(jié)果顯示：1. 對(duì)attention head進(jìn)行剪裁之后依舊可以獲得與原模型相匹配的效果，甚至可以獲得更好的效果。2. 根據(jù)梯度來(lái)確定哪些head可以被剪裁。3. 文章在多語(yǔ)言的POS和NER數(shù)據(jù)集上驗(yàn)證了結(jié)論和方法的正確性質(zhì)。

Are Pre-trained Convolutions Better than Pre-trained Transformers?

對(duì)比CNN和Transformer的效果。該文之前已經(jīng)在公眾號(hào)上分享過(guò)啦，相關(guān)鏈接: 預(yù)訓(xùn)練的卷積模型比Transformer更好？

Attention Calibration for Transformer in Neural Machine Translation

翻譯的時(shí)候decoder需要attention到正確的詞才能獲得更好的效果，但是如果有其他不重要帶來(lái)了嚴(yán)重的干擾，那么翻譯效果將會(huì)下降，來(lái)自騰訊的這篇工作展示了如何修正翻譯中的attention來(lái)幫助機(jī)器翻譯。總體結(jié)構(gòu)如上圖所示，通過(guò)一個(gè)mask perturbation 模型來(lái)學(xué)習(xí)如何對(duì)attention進(jìn)行修正，基本思路是：如果mask到了重要的詞，那么翻譯效果下降，如果mask掉了干擾詞（也就是修正了原來(lái)的attention分?jǐn)?shù)），那么翻譯效果上升。

What Context Features Can Transformer Language Models Use?

Transformer需要的重要feature分析。這篇文章對(duì)transformer模型在中長(zhǎng)文本上的效果進(jìn)行對(duì)比分析發(fā)現(xiàn)：1. 對(duì)于長(zhǎng)文本而言，增加最大token數(shù)量的限制（256到768）有幫助。2. 對(duì)于當(dāng)前的模型而言，長(zhǎng)文本的信息主要來(lái)源于content words和局部occurrence統(tǒng)計(jì)信息：刪除一些function words和局部window內(nèi)隨機(jī)shuffle對(duì)模型最終影響比較小。3. 并不是context中所有feature重要性都相同。總體上文章對(duì)：word order，sentence order，order of ps，根據(jù)token屬性對(duì)token進(jìn)行控制變量的刪減等一些列feature進(jìn)行了控制變量分析。

Reservoir Transformers

Transformer分析文章。文章顯示：固定預(yù)訓(xùn)練模型的部分參數(shù)或者增加一些隨機(jī)初始化的模塊（比如加入gru，cnn等模塊）可以提升transformer模型最終效果。文章在語(yǔ)言模型和翻譯任務(wù)上進(jìn)行驗(yàn)證。

More Identifiable yet Equally Performant Transformers for Text Classification

對(duì)Transformer模型進(jìn)行可解釋性設(shè)計(jì)。文章的主要貢獻(xiàn)是：1. attention不同權(quán)重可鑒別性的理論分析。2. 設(shè)計(jì)了一種transformer變體有助于attention權(quán)重的鑒別從而提升可解釋性。3. 在文本分類(lèi)任務(wù)上做了分析和驗(yàn)證，提升可鑒別性的同時(shí)不降低原有任務(wù)的效果。

長(zhǎng)文本處理

ERNIE-DOC: A Retrospective Long-Document Modeling Transformer

針對(duì)長(zhǎng)文本處理的Transformer優(yōu)化，來(lái)自百度NLP團(tuán)隊(duì)。入上圖所示，整個(gè)長(zhǎng)文章的被分成了多片，該文章認(rèn)為之前的Transformer模型都無(wú)法利用整個(gè)文章的信息，而提出的ERNIE-DOC用到了所有文本信息。為了讓模型能看到長(zhǎng)文本所有信息，該文章主要有以下幾個(gè)貢獻(xiàn)：1. 一個(gè)長(zhǎng)文本feed給模型2次。2. 由于目前的recurrence Transformer所能看到的最長(zhǎng)文本受到最大層數(shù)的限制，所以提出了一個(gè)enhanced recurrence mechanism進(jìn)一步擴(kuò)大Transformer所能看到的文本范圍。3. 還提出了一個(gè)segment-reordering任務(wù)，主要就是將文本中的分片打亂，然后預(yù)測(cè)是否是正確的順序。論文在語(yǔ)言模型任務(wù)、document-level的長(zhǎng)文本理解任務(wù)，以及一系列中英文下游任務(wù)上進(jìn)行了驗(yàn)證。

G-Transformer for Document-level Machine Translation

Transformer雖然在單句翻譯中有不錯(cuò)的效果了，但多句翻譯/document-level的翻譯還遠(yuǎn)不夠好。這篇文章發(fā)現(xiàn)多句翻譯訓(xùn)練的時(shí)候容易陷入局部最優(yōu)，陷入局部最優(yōu)的原因是因?yàn)榉g的時(shí)候需要attention 的source words太多了。所以這個(gè)文章做了一個(gè)比較容易理解的事情：如上圖所示，把document level的翻譯依舊看作是多個(gè)單個(gè)句子翻譯，通過(guò)句子序號(hào)來(lái)提醒模型翻譯到哪里了，從而縮小target到source需要attention的范圍。

Transformer有趣的應(yīng)用

Topic-Driven and Knowledge-Aware Transformer for Dialogue Emotion Detection

結(jié)合Transformer和knowledge base，對(duì)對(duì)話(huà)系統(tǒng)中的Topic和情感傾向進(jìn)行識(shí)別。該文主要貢獻(xiàn)如下：1. 首次基于topic來(lái)幫助對(duì)話(huà)情感識(shí)別。2. 使用pointer network和attention機(jī)制融入commonsense knowledge。3.在解決對(duì)話(huà)情感檢測(cè)任務(wù)時(shí)，設(shè)計(jì)了一個(gè)基于Transformer encoder-decoder結(jié)構(gòu)的模型，來(lái)取代之前通用的recurrent attention一類(lèi)的網(wǎng)絡(luò)。

Unsupervised Out-of-Domain Detection via Pre-trained Transformers

深度學(xué)習(xí)模型的效果越來(lái)越好，但如果遇到和訓(xùn)練樣本分布不一致的輸入會(huì)怎么樣？這篇文章基于BERT模型中多層Transformer所提取的feature，在inference階段對(duì)out-of-domian的樣本檢測(cè)，可以有效排除和訓(xùn)練樣本分布不一致的測(cè)試樣本，基于深度學(xué)習(xí)模型對(duì)深度學(xué)習(xí)模型的輸入進(jìn)行檢查，也是很有趣的一個(gè)方向。

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

融入中文字形而設(shè)計(jì)的一種Transformer，該論文顯示融入了中文字形之后，在多個(gè)中文任務(wù)上取得了更好的效果。

ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic

擴(kuò)展Transformer模型到多種語(yǔ)言。文章設(shè)計(jì)和實(shí)現(xiàn)了兩個(gè)ARabic-specific Transformer并在大量的語(yǔ)料和多種datasets上進(jìn)行了預(yù)訓(xùn)練，文章還提出了一個(gè)benchmark ARLUE進(jìn)行專(zhuān)門(mén)的多語(yǔ)言評(píng)測(cè)。

Glancing Transformer for Non-Autoregressive Neural Machine Translation

Transformer在翻譯上的應(yīng)用，主要是非自回歸翻譯模型方法的提出，來(lái)自字節(jié)跳動(dòng)。文章提出一種非自回歸的翻譯模型，可以并行快速decode。感興趣的讀者可以閱讀中文講解：https://www.aminer.cn/research_report/60f0188430e4d5752f50eafd

在預(yù)訓(xùn)練中用上字形和拼音信息，和上一個(gè)MECT同類(lèi)型的研究。

總結(jié)

本文涉及的transformer相關(guān)研究主要分以下幾個(gè)類(lèi)別：

NLP中的層次結(jié)構(gòu)
Transformer的復(fù)雜度和高效設(shè)計(jì)
長(zhǎng)文本處理
基于Transformer的一些有趣的應(yīng)用

今天的分享就到這里啦，大家覺(jué)得不錯(cuò)的話(huà)，幫點(diǎn)贊和分享一下吧，謝謝～～～

往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線(xiàn)及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線(xiàn)手冊(cè)深度學(xué)習(xí)筆記專(zhuān)輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專(zhuān)輯黃海廣老師《機(jī)器學(xué)習(xí)課程》課件合集本站qq群851320808，加入微信群請(qǐng)掃碼：

總結(jié)

以上是生活随笔為你收集整理的【NLP】ACL 2021中的25个Transformers模型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：开启防火墙web服务器访问权限开启必要
下一篇：电脑开机显示checking media

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

【NLP】ACL 2021中的25个Transformers模型

ACL 2021中的25個(gè)Transformers模型

NLP中的層次結(jié)構(gòu)

Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Document Modeling

R2D2: Recursive Transformer based on Differentiable Tree for Interpretable Hierarchical Language Modeling

Transformer復(fù)雜度和高效設(shè)計(jì)

IrEne: Interpretable Energy Prediction for Transformers

Optimizing Deeper Transformers on Small Datasets

READONCE Transformers: Reusable Representations of Text for Transformers

Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks

Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search

H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for Sequences

Transformer分析和可解釋性

Personalized Transformer for Explainable Recommendation

Contributions of Transformer Attention Heads in Multi- and Cross-lingual Tasks

Are Pre-trained Convolutions Better than Pre-trained Transformers?

Attention Calibration for Transformer in Neural Machine Translation

What Context Features Can Transformer Language Models Use?

Reservoir Transformers

More Identifiable yet Equally Performant Transformers for Text Classification

長(zhǎng)文本處理

ERNIE-DOC: A Retrospective Long-Document Modeling Transformer

G-Transformer for Document-level Machine Translation

Transformer有趣的應(yīng)用

Topic-Driven and Knowledge-Aware Transformer for Dialogue Emotion Detection

Unsupervised Out-of-Domain Detection via Pre-trained Transformers

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic

Glancing Transformer for Non-Autoregressive Neural Machine Translation

總結(jié)

總結(jié)