transformers的近期工作成果综述
基于 transformer 的雙向編碼器表示(BERT)和微軟的圖靈自然語言生成(T-NLG)等模型已經(jīng)在機(jī)器學(xué)習(xí)世界中廣泛的用于自然語言處理(NLP)任務(wù),如機(jī)器翻譯、文本摘要、問題回答、蛋白質(zhì)折疊預(yù)測(cè),甚至圖像處理任務(wù)。
在本文中,對(duì)基于transformer 的工作成果做了一個(gè)簡(jiǎn)單的總結(jié),將最新的transformer 研究成果(特別是在2021年和2022年發(fā)表的研究成果)進(jìn)行詳細(xì)的調(diào)研。
這張圖與一篇調(diào)查論文[Tay 2022]中的圖相似,但被調(diào)transformers會(huì)更新并且它們的整體分類也有很大的不同。
如圖所示,主要類別包括計(jì)算復(fù)雜度、魯棒性、隱私性、近似性和模型壓縮等等。本文文字和專業(yè)術(shù)語較多,并且均翻譯自論文原文,如有錯(cuò)誤(很可能)請(qǐng)諒解。
計(jì)算復(fù)雜度
一些研究方向是以各種方式解決transformer的O(N2)計(jì)算復(fù)雜度。transformer的關(guān)鍵問題之一是它與輸入序列長(zhǎng)度相關(guān)的二次復(fù)雜度。這意味著我們必須為每一層和注意頭計(jì)算N*N個(gè)注意矩陣。人們嘗試了各種方法來降低這種O(N2)復(fù)雜度,包括使用緩存體系結(jié)構(gòu)。
Sparse transformer是解決這種復(fù)雜性的流行方法之一。每個(gè)輸出位置從輸入位置的一個(gè)子集計(jì)算權(quán)重。如果子集是√(N),那么transformer的復(fù)雜度降低到O(N *√(N)),并允許它處理更大范圍的依賴關(guān)系。
Longformer使用了帶窗口的局部注意力(對(duì)于窗口大小為w的窗口,每個(gè)令牌會(huì)注意到兩邊的w/2個(gè)令牌,而不是整個(gè)輸入)并且使用特殊令牌的任務(wù)驅(qū)動(dòng)的全局注意力進(jìn)行組合。
另一項(xiàng)被稱為BigBird [Manzil 2020]的工作使用了圖稀疏化技術(shù)。它使用一種稱為Watts-Strogatz圖的特殊圖,它近似于一個(gè)完整的圖可以實(shí)現(xiàn)輸入序列的線性復(fù)雜度。作者表明在標(biāo)準(zhǔn)精度假設(shè)下,BigBird是圖靈完備的。他們還評(píng)估BigBird在遠(yuǎn)距離依賴的任務(wù)上的表現(xiàn),特別是在提取基因組序列(如DNA)和預(yù)測(cè)結(jié)果染色質(zhì)譜方面
Linformer使用線性投影和低秩因子分解的組合逼近點(diǎn)積注意運(yùn)算[Wang2020]。
上面許多基于稀疏矩陣操作的transformer可能需要稀疏矩陣乘法操作,這種方式并不是在所有體系結(jié)構(gòu)上都可用。他們也傾向于堆疊更多的注意力層來彌補(bǔ)稀疏性,從而導(dǎo)致總體上的算力的增加。對(duì)于某些操作,如softmax操作也可能不容易;還有多項(xiàng)式probit運(yùn)算也不容易稀疏化。
谷歌提出了一個(gè)廣義注意框架Performer,可以根據(jù)不同的相似性度量或內(nèi)核來指定廣泛的注意力機(jī)制。他們通過積極的正交隨機(jī)特征(Favor+)算法來實(shí)現(xiàn)注意力的機(jī)制。他們還表明可以通過指數(shù)函數(shù)和隨機(jī)高斯投影的組合來近似普通的softmax注意。Performer在蛋白質(zhì)序列預(yù)測(cè)任務(wù)等方面優(yōu)于標(biāo)準(zhǔn)模型。
Wang等[Wang 2021]提出了一種用于無卷積的密集預(yù)測(cè)的金字塔視覺transformer(PVT)。這一問題克服了基于VIT的模型在將密集的預(yù)測(cè)任務(wù)時(shí)遇到了困難,PVT有助于各種像素級(jí)密度預(yù)測(cè),并且不需要卷積和非最大抑制,如目標(biāo)檢測(cè)方法。采用漸進(jìn)式收縮金字塔和空間減少注意力可以很容易地連接transformer。最后在圖像分類、目標(biāo)檢測(cè)、實(shí)例和語義分割等任務(wù)中PVT也是可用的。
Liu等人[Liu 2021]討論了transformer從語言領(lǐng)域到視覺領(lǐng)域的適應(yīng)問題,方法包括大量視覺實(shí)體的差異和與文本中的文字相比的圖像的高分辨率像素差異。為了解決這個(gè)問題,作者提出了Swin Transformer [Lui 2021],這是一種分層方法,其表示是使用移位窗口計(jì)算。該技術(shù)更有效地克服了自注意力局部窗口不重疊的問題。
Chu等人[Chu 2021]討論了空間注意對(duì)于transformer在各種任務(wù)中的性能成功的重要性。作者提出了兩個(gè)簡(jiǎn)單而高效的體系結(jié)構(gòu):twin - pcpvt和twin - svt。twin -pcpvt使用可分離的深度卷積注意機(jī)(depth-wise convolution attention machine),又被稱為空間分離自注意力(spatial-separable self-attention - SSSA)。SSSA使用兩種類型的注意力操作:本地分組的自注意力(LSA)和全局次采樣的注意力(GSA)。LSA處理細(xì)粒度和短距離信息,而GSA則處理長(zhǎng)距離序列和全局信息。另一個(gè)方法twin - svt同時(shí)使用LSA和帶有矩陣乘法的GSA。
光譜的復(fù)雜性
通過將自注意網(wǎng)絡(luò)替換為混合輸入令牌的線性轉(zhuǎn)換,可以設(shè)計(jì)高效的transformer來加速編碼器架構(gòu)。transformer的自注意層被參數(shù)化的傅里葉變換(Fnet)取代[Lee-Thorp 2022],然后是一個(gè)非線性和前饋網(wǎng)絡(luò)。與BERT相比,該網(wǎng)絡(luò)速度快80%,可以達(dá)到傳統(tǒng)transformer性能的92%到97%。
The Global Frequency network(GFnet) [Rao 2022]提出了一種用于令牌混合的深度全局卷積。GFnet涉及三個(gè)步驟:通過快速傅里葉變換(FFT)進(jìn)行空間令牌混合、頻率門控和反FFT進(jìn)行令牌分解。GFnet不涉及信道混合,隨著序列長(zhǎng)度的增加,對(duì)于高像素的圖像來說消耗非常大,而且不具有自適應(yīng)能力。
Guibias等人[Guibias 2022]將令牌混合任務(wù)定義為一種操作符學(xué)習(xí)任務(wù),該任務(wù)是學(xué)習(xí)在無限尺寸空間中連續(xù)函數(shù)之間的映射。Li等人[Li 2020]討論了使用傅里葉神經(jīng)算符(FNO)求解偏微分方程(PDE)。FNO在連續(xù)域中工作良好。
將FNO應(yīng)用于高分辨率圖像輸入的視覺域,需要對(duì)PDE的FNO設(shè)計(jì)體系結(jié)構(gòu)進(jìn)行修改。這是因?yàn)楦叻直媛穲D像由于邊緣和其他結(jié)構(gòu)而具有不連續(xù)性。信道混合FNO與信道大小有關(guān),具有二次復(fù)雜度。信道混合權(quán)重采用塊對(duì)角線結(jié)構(gòu)來解決信道混合問題。作者在MLP層的令牌之間共享權(quán)重以提高參數(shù)效率,并使用軟閾值在頻域引入稀疏性以進(jìn)行泛化。這些解決方案結(jié)合稱為自適應(yīng)傅里葉神經(jīng)算子(AFNO)。
Bai等人[Bai 2022]提出了HAT方法(High-frequency components via Adversarial Training),該方法在訓(xùn)練階段對(duì)組件進(jìn)行高頻擾動(dòng)。HAT方法通過添加對(duì)抗性擾動(dòng)改變訓(xùn)練圖像的高頻成分,然后用改變后的圖像訓(xùn)練ViT [Bai 2022]模型,這樣可以提高模型性能,使模型更魯棒。
魯棒性
Shao等[Shao 2021]利分析了transformer模型的魯棒性。作者使用白盒攻擊進(jìn)行了一個(gè)實(shí)驗(yàn)。他們觀察到與卷積神經(jīng)網(wǎng)絡(luò)(CNNs)相比,ViT具有更好的對(duì)抗魯棒性。ViT特征包含低層信息,對(duì)對(duì)抗攻擊提供了優(yōu)越的魯棒性,并指出與增加尺寸或增加層數(shù)的純transformer模型相比,cnn和transformer的組合具有更好的魯棒性。他們還發(fā)現(xiàn)預(yù)訓(xùn)練更大的數(shù)據(jù)集并不能提高魯棒性。對(duì)于一個(gè)穩(wěn)健的模型,情況正好相反。
Bhojanapalli等人[Bhojanapalli 2021]調(diào)查了ViT模型和resnet模型針對(duì)對(duì)抗實(shí)例、自然實(shí)例和常見破壞的各種魯棒性度量。作者研究了對(duì)輸入和模型擾動(dòng)的魯棒性。無論是從輸入還是從模型中去除任何一層,transformer都是魯棒的。
Paul等人[Paul 2022]研究了ViT [Dosovitskiy 2020]、cnn和Big Transformer[Kolesnikov 2020]方法的魯棒性。Paul等人[Paul 2022]在ImageNet數(shù)據(jù)集上對(duì)ViTs的魯棒性進(jìn)行了基準(zhǔn)測(cè)試。結(jié)果在表r中。通過6個(gè)實(shí)驗(yàn),作者驗(yàn)證了與CNN和Big Transformer相比,ViT在魯棒性方面有了提高。這些實(shí)驗(yàn)的結(jié)果包括:
- 實(shí)驗(yàn)1:注意力是提高魯棒性的關(guān)鍵。
- 實(shí)驗(yàn)2:預(yù)訓(xùn)練的作用很重要。
- 實(shí)驗(yàn)3:ViT對(duì)圖像遮蔽具有較好的魯棒性。
- 實(shí)驗(yàn)4:傅里葉頻譜分析顯示ViT的靈敏度較低。
- 實(shí)驗(yàn)5:對(duì)抗性擾動(dòng)在能量譜中擴(kuò)散得更廣。
- 實(shí)驗(yàn)6:ViT對(duì)輸入擾動(dòng)有更平滑的損失。
根據(jù)Park等人[Park 2022]的研究,與cnn相比ViT [Dosovitskiy 2020]在捕獲圖像高頻成分方面的效率較低。HAT [Bai 2022]是對(duì)現(xiàn)有transformer模型在頻率角度的影響進(jìn)行進(jìn)一步研究的結(jié)果。HAT使用RandAugment方法對(duì)輸入圖像的進(jìn)行高頻分量擾動(dòng)。Wu等人[Wu 2022]研究了易受對(duì)抗實(shí)例影響的transformer模型的問題。這個(gè)問題(對(duì)對(duì)抗性噪聲的脆弱性)在cnn中是通過對(duì)抗性訓(xùn)練來處理的。但在transformer中,由于自注意計(jì)算的二次復(fù)雜度,對(duì)抗訓(xùn)練的計(jì)算成本很高。AGAT方法采用了一種有效的注意引導(dǎo)對(duì)抗機(jī)制,在對(duì)抗訓(xùn)練過程中使用注意引導(dǎo)下降策略去除每一層嵌入的確定性補(bǔ)丁。
隱私
預(yù)訓(xùn)練的transformer模型部署在云上?;谠频哪P筒渴鹬械囊粋€(gè)主要問題與數(shù)據(jù)中隱私問題有關(guān)。主要的隱私問題是用戶數(shù)據(jù)(如搜索歷史、醫(yī)療記錄和銀行賬戶)的暴露。目前的研究重點(diǎn)是在transformer模型推理中保護(hù)隱私。
論文[Huang 2020]介紹了TextHide,一種保護(hù)隱私的聯(lián)邦學(xué)習(xí)技術(shù),但這種方法適用于基于句子的任務(wù),如機(jī)器翻譯、情緒分析、轉(zhuǎn)述生成任務(wù)),而不是基于令牌的任務(wù)(如名稱實(shí)體識(shí)別和語義角色標(biāo)記)。
DP-finetune [Kerrigan 2020]差分隱私(DP)方法允許量化保護(hù)數(shù)據(jù)敏感性的程度。但是訓(xùn)練DP算法會(huì)降低模型的質(zhì)量,但是可以在私有數(shù)據(jù)集上使用公共基礎(chǔ)模型進(jìn)行調(diào)優(yōu)來部分解決。
Gentry等人[Gentry 2009]提出了一種用homomorphic encryption(HE)中的密文保護(hù)隱私的方法。但是transformer的模型中GELU [Hendrycks 2016]激活的計(jì)算復(fù)雜性,HE解決方案只支持加法和乘法。
論文[Chen 2022]在transformer中基于HE [Boemer 2019, Boemer 2020]的解上提出了一種通過級(jí)數(shù)逼近的The - x方法。the - x方法在SoftMax和GELU等層的幫助下,用一系列近似代替非多項(xiàng)式操作,去掉池器層,添加歸一化層,使用知識(shí)蒸餾技術(shù)。THE-X方法使用BERT-Tiny Model進(jìn)行評(píng)估[Wang 2018],并對(duì)CONLL2003 [Sang2003]任務(wù)進(jìn)行了基準(zhǔn)測(cè)試。
Li等人[Li 2022]使用差分隱私算法解決了性能下降和高計(jì)算開銷的問題。這樣可以使用更大的預(yù)訓(xùn)練語言模型來處理,也可以通過在中等語料庫(kù)上使用DP優(yōu)化進(jìn)行微調(diào)的對(duì)齊預(yù)訓(xùn)練過程來進(jìn)行微調(diào)。
近似性
論文[Ruthotto 2019]是最早為ResNets等深度神經(jīng)網(wǎng)絡(luò)提供基于偏微分方程(PDEs)的理論基礎(chǔ)的論文之一。更具體地說,作者證明了殘差cnn可以解釋為時(shí)空微分方程的離散化。在理論表征的基礎(chǔ)上,Ruthotto還提出了具有特殊性質(zhì)的雙曲和拋物線cnn等新模型。
殘差網(wǎng)絡(luò)也被解釋為常微分方程的歐拉離散化。但歐拉法求解精度不高,由于是一階方法,存在截?cái)嗾`差。ODE Transformers [Bei 2022]的作者使用了經(jīng)典的高階方法(Runge Kutta)來構(gòu)建Transformer塊。他們?cè)谌齻€(gè)序列生成任務(wù)上評(píng)估了ODE Transformers 。這些任務(wù)證明了ODE是有效的,包括抽象摘要、機(jī)器翻譯和語法糾正。在這個(gè)方向上的另一項(xiàng)努力是TransEvolve [Dutta 2021],它提供了一個(gè)Transformer架構(gòu),與ODE類似,但以多粒子動(dòng)態(tài)系統(tǒng)為模型。
Transformers 已經(jīng)被證明相當(dāng)于通用計(jì)算引擎[Kevin 2022]。作者提出了一種稱為Frozen pretrain transformer (FPT)的結(jié)構(gòu),它可以在單一模態(tài)(如用于語言建模的文本數(shù)據(jù))上進(jìn)行訓(xùn)練,并識(shí)別跨模態(tài)有用的抽象(如特征表示)。他們采用GPT,只對(duì)自然語言數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并對(duì)其輸入和輸出層以及層歸一化參數(shù)和位置嵌入進(jìn)行微調(diào)。這使得FPT在完成蛋白質(zhì)折疊預(yù)測(cè)、數(shù)值計(jì)算甚至圖像分類等各種任務(wù)時(shí),可以與完全從零開始訓(xùn)練的transformer進(jìn)行比較。
模型壓縮
Touvron等人[Touvron 2021]提出了一種基于蒸餾技術(shù)(Deit)的高效transformer模型。它使用一種依賴于蒸餾令牌的師生策略,以確保學(xué)生通過注意力從老師那里學(xué)習(xí)。
Bao等人[Bao 2021]向預(yù)訓(xùn)練的VIT提出了一個(gè)遮蔽圖像模型任務(wù)。作者提出了一種基于自監(jiān)督的視覺表示模型,即來自圖像transformer的雙向編碼器表示(BEiT),它遵循了為自然語言處理領(lǐng)域開發(fā)的BERT [Kenton 2019]方法。在這種方法中,每個(gè)圖像被認(rèn)為是兩個(gè)視圖:一個(gè)是大小為16 x 16像素的圖像補(bǔ)丁,另一個(gè)是離散的可視標(biāo)記。將原始圖像標(biāo)記為可視標(biāo)記,并對(duì)部分圖像補(bǔ)丁進(jìn)行隨機(jī)掩碼,然后將其饋送給預(yù)訓(xùn)練的骨干transformer。訓(xùn)練BEiT后,模型可以針對(duì)下游任務(wù)進(jìn)行微調(diào)。
引用
[Alexey 2021] Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit and Neil Houlsby. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.”, International Conference on Learning Representation, 2021.
[Ashish 2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, ?ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17). Curran Associates Inc., Red Hook, NY, USA, 6000–6010.
[Bai 2022]Bai, Jiawang, Liuliang Yuan, Shutao Xia, Shuicheng Yan, Zhifeng Li and W. Liu. “Improving Vision Transformers by Revisiting High-frequency Components.” Accepted to European Conference on Computer Vision 2022, available from https://arxiv.org/abs/2204.00993.
[Beltagy 2020] Beltagy, I., Peters, M. E., and Cohan, A., “Longformer: The Long-Document Transformer”, arXiv e-prints, 2020.
[Bei 2022] Bei Li, Quan Du, Tao Zhou, Yi Jing, Shuhan Zhou, Xin Zeng, Tong Xiao, Jingbo Zhu, Xuebo Liu, Min Zhang, “ODE Transformer: An Ordinary Differential Equation-Inspired Model for Sequence Generation”, 60th Annual Meeting of the Association of Computational Linguistics (ACL) (1) 2022: 8335–835.
[Bhojanapalli 2021] Bhojanapalli, S., Chakrabarti, A., Glasner, D., Li, D., Unterthiner, T., Veit, A.: Understanding robustness of transformers for image classification. In: Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 10231–10241 (2021).
[Boemer 2019] Boemer, F., Lao, Y., Cammarota, R., Wierzynski, C.: ngraph-HE: a graph compiler for deep learning on homomorphically encrypted data. In: Proceedings of the 16th ACM International Conference on Computing Frontiers, pp. 3–13 (2019).
[Boemer 2020] Boemer, F., Cammarota, R., Demmler, D., Schneider, T., Yalame, H.: Mp2ml: A mixed-protocol machine learning framework for private inference. In: Proceedings of the 15th International Conference on Availability, Reliability and Security, pp. 1–10 (2020).
[Chen 2022] Chen, T., Bao, H., Huang, S., Dong, L., Jiao, B., Jiang, D., Zhou, H., Li, J., Wei, F.: The-x: Privacy-preserving transformer inference with homomorphic encryption. In: Findings of the Association for Computational Linguistics: ACL 2022, pp. 3510–3520 (2022)
[Chu 2021] Chu, Xiangxiang & Tian, Zhi & Wang, Yuqing & Zhang, Bo & Ren, Haibing & Wei, Xiaolin & Xia, Huaxia & Shen, Chunhua. (2021). Twins: Revisiting Spatial Attention Design in Vision Transformers, NeurIPS 2021.
[Dosovitskiy 2020] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. In: International Conference on Learning Representations (2020).
[Dutta 2021] Subhabrata Dutta, Tanya Gautam, Soumen Chakrabarti, Tanmoy Chakraborty: Redesigning the Transformer Architecture with Insights from Multi-particle Dynamical Systems. NeurIPS 2021: 5531–5544.
[Gentry 2009] Gentry, C.: Fully homomorphic encryption using ideal lattices. In: Proceedings of the Forty-first Annual ACM Symposium on Theory of Computing, pp. 169–178 (2009)
[Guibas 2021] Guibas, J., Mardani, M., Li, Z., Tao, A., Anandkumar, A., Catanzaro, B.: Efficient token mixing for transformers via adaptive Fourier Neural operators. In: International Conference on Learning Representations (2021).
[Hendrycks 2016] Hendrycks, D., Gimpel, K.: Bridging nonlinearities and stochastic regularizers with gaussian error linear units (2016).
[Huang 2020] Huang, Y., Song, Z., Chen, D., Li, K., Arora, S.: Texthide: Tackling data privacy in language understanding tasks. In: Findings of the Association for Computational Linguistics: EMNLP 2020, pp. 1368–1382 (2020).
[Hugo 2021] Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A. & Jegou, H. (2021). Training data-efficient image transformers distillation through attention, Proceedings of the 38th International Conference on Machine Learning, in Proceedings of Machine Learning Research, 139:10347–10357 Available from https://proceedings.mlr.press/v139/touvron21a.html.
[Kevin 2022] Kevin Lu, Aditya Grover, Pieter Abbeel, Igor Mordatch, “Frozen Pretrained Transformers as Universal Computation Engines,” Association for Advancement of Artificial Intelligence, AAAI 2022.
[Kerrigan 2020] Kerrigan, G., Slack, D., Tuyls, J.: Differentially private language models benefit from public pre-training. In: Proceedings of the Second Workshop Springer Nature 2021 LATEX template Survey on Efficient Transformers: Model, Datasets, and Evalution methods 25 on Privacy in NLP, pp. 39–45 (2020).
[Kolesnikov 2020] Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N.: Big transfer (bit): General visual representation learning. In: European Conference on Computer Vision, pp. 491–507 (2020). Springer.
[Lee-Thorp 2022] Lee-Thorp, J., Ainslie, J., Eckstein, I., Ontanon, S.: Fnet: Mixing tokens with Fourier Transforms, Proceedings of the North Americal Chapter of Association for Computational Linguistics NAACL, 2022.
[Li 2020] Li, Z., Kovachki, N.B., Azizzadenesheli, K., Bhattacharya, K., Stuart, A., Anandkumar, A., et al.: Fourier neural operator for parametric partial differential equations. In: International Conference on Learning Representations (2020).
[Li 2022] Li, X., Tramer, F., Liang, P., Hashimoto, T.: Large language models can be strong differentially private learners. In: International Conference on Learning Representations (2022).
[Liu 2021] Liu, Ze, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. “Swin transformer: Hierarchical vision transformer using shifted windows.” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 10012–10022. 2021.
[Manzil 2020] Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, and Amr Ahmed. 2020. Big bird: transformers for longer sequences. In Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS’20). Curran Associates Inc., Red Hook, NY, USA, Article 1450, 17283–17297.
[Park 2022] Park, Namuk and Songkuk Kim. “How Do Vision Transformers Work?” ArXiv abs/2202.06709 (2022), proceedings of International Conference on Learning Representations (ICLR 2022).
[Paul 2022] Paul, S., Chen, P.-Y.: Vision transformers are robust learners. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, pp. 2071–2081 (2022).
[Rao 2021] Rao, Y., Zhao, W., Zhu, Z., Lu, J., Zhou, J.: Global filter networks for image classification. Advances in Neural Information Processing Systems 34, 980–993 (2021).
[Ruthotto 2019] Ruthotto, L., & Haber, E. (2019). Deep Neural Networks Motivated by Partial Differential Equations. Journal of Mathematical Imaging and Vision, 62, 352–364.
[Sang 2003] Sang, E.T.K., De Meulder, F.: Introduction to the conll-2003 shared task: Language-independent named entity recognition. In: Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003, pp. 142–147 (2003).
[Shao 2022] Shao, Rulin, Zhouxing Shi, Jinfeng Yi, Pin-Yu Chen and Cho-Jui Hsieh. “On the Adversarial Robustness of Vision Transformers.” ArXiv abs/2103.15670 (2021).
[Sinong 2020] Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma: Linformer: Self-Attention with Linear Complexity. CoRR abs/2006.04768 (2020).
[Stanislaw 2020] Stanislaw Jastrzebski, Maciej Szymczak, Stanislav Fort, Devansh Arpit, Jacek Tabor, Kyunghyun Cho, Krzysztof J. Geras: The Break-Even Point on Optimization Trajectories of Deep Neural Networks. CoRR abs/2002.09572 (2020).
[Tay 2021a] Tay, Yi, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, and Donald Metzler. “Long range arena: A benchmark for efficient transformers.” International Conference on Learning Representations (2021).
[Tay 2022] Yi Tay, Mostafa Dehghani, Dara Bahri, and Donald Metzler. 2022. Efficient Transformers: A Survey. ACM Computing Surveys, Just Accepted (April 2022). https://doi.org/10.1145/3530811
[Wang 2018] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., Bowman, S.R.: Glue: A multi-task benchmark and analysis platform for natural language understanding. In: International Conference on Learning Representations (2018).
[Wang 2021] Wang, Wenhai, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. “Pyramid vision transformer: A versatile backbone for dense prediction without convolutions.” In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 568–578. 2021.
[Wei 2022] Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Chi, E., Hashimoto, T., Vinyals, O., Liang, P., Dean, J., & Fedus, W. (2022). Emergent Abilities of Large Language Models. ArXiv, abs/2206.07682.
[Wu 2022] Wu, B., Gu, J., Li, Z., Cai, D., He, X., Liu, W.: Towards efficient adversarial training on vision transformers. arXiv preprint arXiv:2207.10498 (2022).
[Yu 2022] Yu, D., Naik, S., Backurs, A., Gopi, S., Inan, H.A., Kamath, G., Kulkarni, J., Lee, Y.T., Manoel, A., Wutschitz, L., et al.: Differentially private fine-tuning of language models. In: International Conference on Learning Representations (2022).
[Ze 2021] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proc. IEEE International Conference Computer Vision, pages 10012–10022, 2021.
https://avoid.overfit.cn/post/5f3133d94003428d95c54ef8ef8b2cda
作者:Dr. Vijay Srinivas Agneeswaran
總結(jié)
以上是生活随笔為你收集整理的transformers的近期工作成果综述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于1939协议的发动机控制程序:包括发
- 下一篇: Lending Club贷款数据分析