日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Transformer太深不行?NUS字节发现注意力坍缩,提出重注意机制!

發布時間:2024/7/5 编程问答 62 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Transformer太深不行?NUS字节发现注意力坍缩,提出重注意机制! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 陳萍、杜偉
源 | 機器之心

CNN 通過堆疊更多的卷積層來提高性能,而 transformer 在層次更深時會很快進入飽和?;诖?#xff0c;來自新加坡國立大學和字節跳動 AI Lab 的研究者引入了 Re-attention 機制,以很小的計算代價重新生成注意力圖以增強各層之間的多樣性。提出的 DeepViT 模型也實現了非常不錯的性能。

視覺 transformer (ViT) 現已成功地應用于圖像分類任務。近日,來自新加坡國立大學和字節跳動美國 AI Lab 的研究者表明,不同于卷積神經網絡通過堆疊更多的卷積層來提高性能,ViT 的性能在擴展至更深時會迅速飽和。

他們是如何得出這一結論的呢?

具體而言,研究者根據經驗觀察到,這種擴展困難是由注意力崩潰(attention collapse)引起的:隨著 Transformer 加深,注意力圖在某些層之后逐漸變得相似甚至幾乎相同。換句話說,在 deep ViT 模型的頂層中,特征圖趨于相同。這一事實表明,在更深層的 ViT 中,自注意力機制無法學習有效的表征學習概念,并且阻礙了模型獲得預期的性能提升。

基于以上觀察,研究者提出了一種簡單而有效的方法 Re-attention,它可以忽略計算和存儲成本重新生成注意力圖以增加其在不同層的多樣性。借助于該方法,我們可以通過對現有 ViT 模型的微小修改來訓練具有持續性能改進的更深的 ViT 模型。此外,當使用 32 個 transformer 塊訓練 DeepViT 模型時,在 ImageNet 數據集上實現了頗具競爭力的 Top-1 圖像分類準確率。相較于 ViT-32B, 變體模型 DeepViT-32B 的 Top-1 準確率提升了 1.6%。

論文鏈接:
https://arxiv.org/pdf/2103.11886.pdf

ViT 模型

如下圖 2 所示,ViT 模型由三部分組成:用于 patch 嵌入的線性層、具有多頭自注意力和特征編碼前饋層的 transformer 塊、以及用于分類得分預測的線性層。研究者首先回顧了 transformer 塊的獨特性,特別是自注意力機制,然后研究了自注意力的崩潰問題。

具有 N 個 transformer 塊的原版 ViT 模型與該研究所提 DeepViT 模型的結構對比。

注意力崩潰

受深度 CNN 成功的啟發,研究者對 ViT 隨深度的增加帶來的性能改變進行了系統的研究。在不失一般性的情況下,他們首先將隱藏維數和注意力頭數分別固定為 384 和 12,然后堆疊不同數量的 transformer 塊(數量從 12 到 32),以建立對應不同深度的多個 ViT 模型。在 ImageNet 數據集上,原版 ViT 和 DeepViT 的圖像分類 Top-1 準確率變化曲線如下圖 1 所示:

結果表明,隨著模型深度的增加,分類準確率提升緩慢,飽和速度加快。更具體地說,在采用 24 個 transformer 塊時,性能停止提升。這種現象表明,現有的 ViT 很難在更深的架構中提高性能。

為了衡量注意力圖在不同層上的改變,研究者計算了來自不同層的注意力圖之間的跨層相似性:

其中和四個因素有關:p 和 q 是兩個不同的層、h 是注意力頭、t 是具體的輸入,結果如下圖 3 所示。圖(a)表明了隨著深度的增加,注意力圖和 k 個附近塊的注意力圖越來越相似;圖(c)表明了即使到了第 32 個 block,同層注意力頭之間的相似度還是比較低的,這說明主要的相似還是層之間的相似。

為了了解注意力崩潰如何影響 ViT 模型的性能,研究者進一步探索了它是如何影響更深層次的特征學習。對于特定的 32 塊 ViT 模型,通過研究它們的余弦相似性,將最終輸出特征與每個中間 transformer 塊的輸出進行比較。

下圖 4 中的結果表明:特征圖與注意力圖相似性非常高,并且學習的特征在第 20 個塊之后停止變化。注意力相似度的增加與特征相似度之間存在著密切的相關性。這一觀察表明注意力崩潰是 ViT 不可擴展的原因。

DeepViT 中的 Re-attention

如上所述,將 ViT 擴展到更深層的一個主要障礙是注意力崩潰問題。因此,研究者提出了兩種解決方法,一種是增加計算自注意力的隱藏維度,另一種是新的 re-attention 機制。

高維空間中的自注意力

克服注意力崩潰的一個解決方案是增加每個 token 的嵌入維度,這將提升每個 token 嵌入的表征能力,以編碼更多信息。因此,所得到的注意力圖更具多樣性,降低每個塊注意力圖之間的相似性。在不喪失一般性的前提下,該研究通過一組基于 ViT 模型的實驗驗證了這種方法,其中有 12 個塊用于快速實驗。根據先前基于 transformer 的工作,研究者選擇了四個嵌入維度,范圍從 256 到 768。詳細配置結果如下表所示:

下圖 5 展示了嵌入維數對生成的跨層自注意力圖相似性的影響??梢?#xff0c;隨著嵌入維數的增加,相似注意力圖的數目減少。然而,模型尺寸也迅速增加。

Re-attention

上文證明了在高維、尤其在深層網絡中,不同 transformer 塊之間注意力圖存在相似性。然而,研究者發現同一 transformer 塊不同 head 的注意力圖相似性相當小,如上圖 3(c) 所示。顯然,來自同一自注意力層的不同 head 關注輸入 token 的不同方面。基于這一觀察,研究者建議建立 cross-head 通信來重新生成注意力圖,訓練 deep ViT 性能會更好。

具體而言,該研究以 head 的注意力圖為基礎,通過動態地聚合它們來生成一組新的注意力圖。采用一個變換矩陣和 multi-head attention maps 相乘來得到新的 map,這個變換矩陣是可學習的。公式如下:

實驗

在實驗部分,研究者首先通過實驗進一步證明注意力崩潰問題,然后通過大量的控制變量實驗來證明 Re-attention 方法的優勢。該研究通過將 Re-attention 融入到 transformer 中,設計了兩個改進版 ViT,并命名為 DeepViT。最后將 DeepViT 與具有 SOTA 性能的模型進行了比較。

注意力崩潰分析

當模型越深時,越深區塊的注意力圖就越相似。這意味著在 deep ViT 模型上添加更多的塊可能不會提高模型性能。為了進一步驗證這一說法,研究者設計了一個實驗,以重用在 ViT 早期塊上計算的注意力圖并替換它之后的注意力圖。結果如下表 3 所示:

Re-attention 機制

Re-attention 與 Self-attention 對比。研究者首先評估了 Re-attention 有效性,直接將 ViT 中的 self-attention 替換為 Re-attention 模塊。下表 4 展示了在 ImageNet 數據集上,不用數量 transformer 塊時的 Top-1 準確率對比:

與 SOTA 模型對比

研究者在 Re-attention 基礎上設計了兩個 ViT 變體,即 DeepViT-S 與 DeepViT-L,兩個變體分別具有 16 和 32 個 transformer 塊。對于這兩個模型,Re-attention 均替代 self-attention。

為了得到和其他 ViT 模型相似的參數量,研究者相應地調整了嵌入維度,結果如下表 6 所示:DeepViT 模型在參數量更少的情況下實現了比最近 CNN 和 ViT 模型更好的 Top-1 準確率。

尋求報道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務合作”

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的Transformer太深不行?NUS字节发现注意力坍缩,提出重注意机制!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 久久无码人妻一区二区三区 | 日本十大三级艳星 | 黄色av网址大全 | 伊人成人在线观看 | 黄色小说在线免费观看 | 黄色在线观看网址 | 男女视频在线免费观看 | 爱爱色图| 成人福利一区二区三区 | 特级西西444www大精品视频 | 欧美性猛交xxxx久久久 | 91视频在线免费看 | 97超碰超碰 | 色婷婷av一区二区三区大白胸 | 欧美大片免费 | 麻豆传媒在线看 | 日韩电影福利 | 日日艹 | 无码精品一区二区三区在线 | 中文字幕乱码在线观看 | 欧美色涩在线第一页 | 日韩a毛片 | 日本黄色小网站 | 亚洲中文字幕无码专区 | 亚洲国产日韩精品 | 青青青草视频在线 | 日韩午夜小视频 | 人人草网站 | 日韩播放 | 亚洲国产精 | 国产男男gay | 97视频在线观看免费高清完整版在线观看 | 日韩啪啪网站 | 亚洲美女精品 | 最近中文字幕免费 | 国产精品久久久久久久久免费桃花 | 亚洲欧美制服丝袜 | chinese中国性按摩hd | 国产精品一区二区在线看 | 17c在线观看视频 | av福利在线看 | 国产精品免费观看视频 | 狠狠干伊人| 2018国产大陆天天弄 | 日韩av在线看 | 中文字幕一区二区三区人妻 | 中文在线第一页 | 国产精品99无码一区二区视频 | 国产精品观看 | 91www| 久久久久久久久久久久国产精品 | www.人人草 | 伊人福利在线 | 国产真人无码作爱视频免费 | 欧美日日操 | 国产在线美女 | 三级艳丽杨钰莹三级 | 久久影院一区 | 国产精品系列在线播放 | 污黄网站在线观看 | 色屁屁一区二区三区 | 国产一级片久久 | av波多野吉衣 | 日本精品久久久久久久 | 国产日韩在线观看一区 | 欧美精品免费看 | 欧美韩国日本在线 | 美女脱了内裤喂我喝尿视频 | 免费在线观看黄网站 | 插综合| 在线亚洲欧美 | 草久久久 | 人人妻人人澡人人爽精品欧美一区 | 我和我的太阳泰剧在线观看泰剧 | 久草资源站 | 国产99久久久国产精品免费看 | 4438全国最大成人网 | 国产精品96| 日色网站 | 中文字幕在线免费观看 | 久久久国产精品一区 | 97精品视频| 69xx欧美| 亚洲成在人 | 国产视频第三页 | 伊人久久久久噜噜噜亚洲熟女综合 | 亚洲精品精品 | 国产又爽又黄的视频 | 欧美一级在线播放 | 亚洲人成久久 | 亚洲天堂影视 | 大地资源在线观看免费高清版粤语 | 中文字幕在线观看免费高清 | 人妻熟妇又伦精品视频a | 四虎国产精品永久在线国在线 | 亚洲成人一二三 | 激情欧美一区二区三区精品 | 一区二区国产在线 | 欧美三级网站 |