當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

【深度学习】CV和NLP通吃！谷歌提出OmniNet：Transformers的全方位表示

發(fā)布時(shí)間：2025/3/12 pytorch 30 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习】CV和NLP通吃！谷歌提出OmniNet：Transformers的全方位表示小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在機(jī)器翻譯、圖像識(shí)別等任務(wù)上表現(xiàn)SOTA！性能優(yōu)于Performer、ViT和Transformer-XL等網(wǎng)絡(luò)。

作者單位：谷歌Research和大腦團(tuán)隊(duì)等
論文：https://arxiv.org/pdf/2103.01075.pdf

本文提出了來自Transformer的全方位表示（OmniNet）。

在OmniNet中，不是維護(hù)嚴(yán)格的水平感受野，而是允許每個(gè)token都參與整個(gè)網(wǎng)絡(luò)中的所有token。此過程也可以解釋為一種極端或集中注意力機(jī)制的形式，該機(jī)制具有網(wǎng)絡(luò)整個(gè)寬度和深度的感受野。

為此，通過元學(xué)習(xí)器來學(xué)習(xí)全向注意力，這實(shí)質(zhì)上是另一個(gè)基于自注意力的模型。為了減輕完整的感受野注意力的計(jì)算成本，我們利用有效的自注意力模型，例如基于kernel的（Choromanski等人），low-rank的注意力（Wang等人）和/或Big Bird（Zaheer）等）。

Transformer架構(gòu)

Transformer塊接受N×d輸入，其中N表示序列中標(biāo)記的數(shù)量，d表示表示的大小。每個(gè)Transformer模塊都具有一個(gè)自我注意模塊和一個(gè)兩層前饋網(wǎng)絡(luò)，在它們之間以位置方式應(yīng)用ReLU激活。

自我注意機(jī)制首先使用線性變換將每個(gè)輸入X投影到Q，K，V表示形式中，這些形式對(duì)應(yīng)于查詢，鍵和值。自我注意機(jī)制通常是多頭的，其中并行執(zhí)行多個(gè)相似的線性投影。第l層中每個(gè)自我關(guān)注頭h的輸出寫為：

其中yh，l是頭h在第l層的輸出，而dk是每個(gè)頭的大小。然后，將多個(gè)磁頭的輸出進(jìn)行級(jí)聯(lián)，然后通過Wo，l進(jìn)行另一個(gè)線性變換，該變換將所有磁頭的級(jí)聯(lián)投影到dm。這是通過層歸一化和殘差連接來包裝的，可以寫為：

作為self- 注意模塊。

Feed Forward Layers 變壓器塊的FFN塊執(zhí)行兩層轉(zhuǎn)換，定義為：

其中W1，W2是FFN層的可訓(xùn)練參數(shù)（權(quán)重變換）。為了清楚起見，省略了偏置參數(shù)。

OmniNet網(wǎng)絡(luò)細(xì)節(jié)（建議看原文第三章3.2）

提名代表

保持因果關(guān)系和自動(dòng)回歸解碼

高效變壓器

分區(qū)的單子網(wǎng)絡(luò)

實(shí)驗(yàn)結(jié)果

在自回歸語(yǔ)言建模（LM1B，C4），機(jī)器翻譯， Long Range Arena（LRA）和圖像識(shí)別方面進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)表明，OmniNet在這些任務(wù)上實(shí)現(xiàn)了相當(dāng)大的改進(jìn)，包括在LM1B，WMT'14 En-De / En-Fr和 Long Range Arena上實(shí)現(xiàn)了最先進(jìn)的性能。

此外，在Vision Transformers中使用全向表示可以顯著改善短時(shí)學(xué)習(xí)和微調(diào)設(shè)置中的圖像識(shí)別任務(wù)。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯本站qq群851320808，加入微信群請(qǐng)掃碼：

總結(jié)

以上是生活随笔為你收集整理的【深度学习】CV和NLP通吃！谷歌提出OmniNet：Transformers的全方位表示的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：钉钉电脑版如何申请调休钉钉电脑版申请调
下一篇：【深度学习】Panoptic FCN：真