【Transformer】ACMix:On the Integration of Self-Attention and Convolution
生活随笔
收集整理的這篇文章主要介紹了
【Transformer】ACMix:On the Integration of Self-Attention and Convolution
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 一、背景和動機
- 二、方法
- 三、效果
一、背景和動機
卷積核自注意機制是兩個很有效的特征提取方法,但這兩個方法通常被認為是兩種不同機制的方法。
卷積方法是對局部進行特征抽取,全局特征共享,自注意力方法是全局像素的權重提取。
本文作者認為這兩者有很強的底層關系,所以從大范圍上來說,這兩者的計算機制是類似的。
之前也有一些工作將這兩者進行結合,如:
- SENet,CBAM 等則說明了自注意機制可以對卷積網絡模型起到幫助。
- SAN,BoTNet 等使用自注意模型來代替卷積操作
- AA-ResNet,Container 等將兩者進行了結合,但兩個模塊分別使用了不同的 path,所以本質上還是分別使用了兩種機制。
所以,兩者之間的底層聯系其實還沒有被完全探索
基于此,作者開始了探索兩者之間的關系
分解兩者之后,作者認為他們都是依賴于 1x1 卷積的,所以作者提出了一個混合模型——ACMix,將兩者結合在一起。
二、方法
1、將輸入特征使用 1x1 卷積映射為中間特征
2、將該中間特征分別使用自注意和卷積進行處理
ACMix 的過程如圖2c所示:
Stage 1:使用 3 個 1x1 卷積,將輸入映射為 3 種不同的特征,并將沒種特征切分為 N pieces,此時就得到了 3xN 個中間特征
Stage 2:對 Stage 1 得到的中間特征分別處理
- self-attention path:將中間特征聚合為 N 個組,每個組中包含了 3 個 pieces,每個 pieces 都來自于不同的 1x1 卷積產生的特征。然后將這 3 個 pieces 的特征用作 q、k、v,輸入多頭自注意模塊中。
- convolution path:使用全連接層產生 k2k^2k2 個特征圖,然后通過平移和聚合,產生和卷積相同的效果。
最后,使用如下方法聚合兩者:
三、效果
總結
以上是生活随笔為你收集整理的【Transformer】ACMix:On the Integration of Self-Attention and Convolution的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Transformer】ATS: Ad
- 下一篇: 【Transformer】TransMi