Attention Mechanisms in Computer Vision: A Survey(四)
接上一篇博客:Attention Mechanisms in Computer Vision: A Survey(三)
一、Channel & Spatial Attention
通道與空間注意力結合了通道注意力和空間注意力的優點。它自適應地選擇重要對象和區域。殘差注意力網絡開創了通道和空間注意力領域,強調了信息特征在空間和通道維度上的重要性。它采用自下而上的結構,由幾個卷積組成,生成一個3D(高度、寬度、通道)注意力圖。然而,它有很高的計算成本和有限的接受領域。 為了利用全局空間信息,后來的工作中引入了全局平均池化,并將通道注意力和空間通道注意力解耦,從而增強了特征的辨別能力。
(一)、Residual Attention Network
受ResNet的成功啟發,Wang等人通過將注意機制與殘差連接相結合,提出了非常深的卷積殘差注意網絡(RAN)。堆積在殘差注意力網絡中的每個注意力模塊可分為掩碼分支和主干分支。主干分支提取特征,并且可以由任何最先進的結構實現,包括預激活殘差單元和初始模塊。掩碼分支使用自下而上自上而下的結構來學習與主干分支的輸出特征具有相同大小的掩碼。在兩個1×1卷積層之后,sigmoid層將輸出標準化為[0,1]??偟膩碚f,殘差注意力機制可以寫成
其中,huph_{up}hup?是一種自下而上的結構,在殘差單位之后使用多次最大池化來增加感受野,而hdownh_{down}hdown?是自上而下的部分,使用線性插值來保持輸出大小與輸入特征圖相同。這兩個部分之間也存在跳過連接,這在公式中被省略。f代表主干分支,可以是任何最先進的結構。
其結構如下:
在每個注意力模塊內部,自下而上,自上而下的前饋結構對空間和跨通道依賴性進行建模,從而實現一致的性能改進。殘差注意力可以以端到端的訓練方式融入任何深層網絡結構。然而,提議的自下而上自上而下的結構未能利用全局空間信息。此外,直接預測3D注意力特征圖的計算成本很高。
(二)、 CBAM
見博文
(三)、BAM
Park等人與CBAM同時提出了瓶頸注意力·模塊(BAM),旨在有效提高網絡的表征能力。它使用擴展卷積來擴大空間注意力子模塊的感受野,并按照ResNet的建議構建瓶頸結構以節省計算成本。
對于給定的輸入特征映射X,BAM推斷通道注意sc∈RCs_c∈ R^Csc?∈RC與空間注意Ss∈RC×H×WS_s∈ R^{C×H×W}Ss?∈RC×H×W將兩個分支輸出的大小調整為后,將兩個注意力圖相加。與SE塊一樣,通道注意力分支對特征映射應用全局平均池化來聚合全局信息,然后使用具有通道降維的MLP。為了有效地利用上下文信息,空間注意力分支結合了瓶頸結構和膨脹卷積??偟膩碚f,BAM可以寫成
其中Wi、biW_i、b_iWi?、bi?分別表示全連接層的權重和偏置,Conv11×1Conv^{1×1}_1Conv11×1?和Conv21×1Conv^{1×1}_2Conv21×1?是用于通道縮減的卷積層。DCi3×3DC^{3×3}_iDCi3×3?表示一個具有3×3核的膨脹卷積,用于有效利用上下文信息。擴展將注意力映射sss_sss?和scs_csc?擴展為RC×H×WR^{C×H×W}RC×H×W。
BAM可以在空間和通道維度上強調或抑制特征,并提高有代表性的特征。應用于通道和空間注意力分支的降維使其能夠與任何卷積神經網絡集成,而只需很少的額外計算成本。然而,盡管膨脹卷積有效地擴大了感受野,但它仍然無法捕獲遠程上下文信息以及編碼跨域關系。
(四)、scSE
為了聚合全局空間信息,SE塊對特征圖應用全局池化。然而,它忽略了像素級的空間信息,這在密集預測任務中很重要。因此,Roy等人提出了空間和通道SE塊(scSE)。與BAM一樣,使用空間SE塊作為SE塊的補充,提供空間注意力權重,以關注重要區域。
給定輸入特征映射X,將空間SE和通道SE兩個并行模塊應用于特征映射,分別對空間和通道信息進行編碼。信道SE模塊為普通SE塊,而空間SE模塊采用1×1卷積進行空間壓縮。這兩個模塊的輸出被熔斷。整個過程可以寫成
其中f表示融合函數,可以是最大值、加法、乘法或級聯。 提出的scSE塊結合了通道和空間注意力,以增強特征,并捕獲像素級的空間信息。分割任務因此受益匪淺。在F-CNN中集成一個scSE塊可以在語義切分方面取得一致的改進,而額外的成本可以忽略不計。
(五)、Triplet Attention
在CBAM和BAM中,通道注意和空間注意是獨立計算的,忽略了這兩個領域之間的關系。Misra等人受空間注意力的激勵,提出了三重注意,這是一種輕量級但有效的注意機制,用于捕捉跨域交互。
給定一個輸入特征映射X,三重注意使用三個分支,每個分支都在捕獲H、W和C中任意兩個域之間的跨域交互中發揮作用。在每個分支中,首先對輸入應用沿不同軸的旋轉操作,然后Z-pool層負責聚合零維信息。最后,一個內核大小為k×k的標準卷積層對最后兩個領域之間的關系進行建模。這個過程可以寫成
其中Pm1Pm_1Pm1?和Pm2Pm_2Pm2?表示分別沿H軸和W軸逆時針旋轉90度? 而Pm?1Pm^{?1}Pm?1表示倒數。Z-Pool沿第零維連接最大池化和平均池化。
與CBAM和BAM不同,三重態注意強調捕獲跨域交互的重要性,而不是獨立計算空間注意和通道注意。這有助于捕獲豐富的區分性特征表示。由于其簡單而高效的結構,三重態注意可以很容易地添加到經典骨干網絡中。
(六)、SimAM
Yang等人強調了在提出SimAM時學習不同通道和空間領域的注意力權重的重要性,SimAM是一個簡單、無參數的注意模塊,能夠直接估計3D權重,而不是擴展一維或二維權重。SimAM的設計基于著名的神經科學理論,因此無需手動微調網絡結構。 受空間抑制現象的啟發,他們提出應強調顯示抑制效應的神經元,并將每個神經元的能量函數定義為:
(七)、Coordinate attention
SE塊在建模跨通道關系之前使用全局池聚合全局空間信息,但忽略了位置信息的重要性。BAM和CBAM采用卷積來捕獲局部關系,但無法建模長期依賴關系。為了解決這些問題,Hou等人提出了協調注意力,這是一種新的注意機制,它將位置信息嵌入到通道注意中,從而使網絡能夠以較小的計算成本關注大的重要區域。 協調注意力機制有兩個連續的步驟:協調信息嵌入和協調注意力生成。首先,池化內核的兩個空間范圍對每個通道進行水平和垂直編碼。在第二步中,對兩個池化層的級聯輸出應用共享的1×1卷積變換函數。然后,坐標注意力將得到的張量拆分為兩個獨立的張量,以產生具有相同數量的通道注意力向量 ,用于輸入X的水平和垂直坐標。這可以寫成
其中GAPhGAP^hGAPh和GAPwGAP^wGAPw表示垂直坐標和水平坐標的池化函數,sh∈RC×1×Ws^h∈ R^{C×1×W}sh∈RC×1×W和sw∈RC×H×1s_w∈ R^{C×H×1}sw?∈RC×H×1代表相應的注意權重。 通過協調注意力,網絡可以準確地獲得目標的位置。這種方法比BAM和CBAM有更大的感受野。與SE塊一樣,它還模擬了跨通道關系,有效地增強了學習功能的表達能力。由于其輕量級設計和靈活性,它可以輕松地用于 mobile networks的經典構建塊。
(八)、DANet
見博文
(九)、RGA
在關系感知的全局注意力(RGA)中,協調注意力和DANet強調捕捉遠程上下文,而Zhang等人則強調成對關系提供的全局結構信息的重要性,并使用它生成注意力特征圖。RGA有兩種形式,空間RGA(RGA-S)和通道RGA(RGA-C)。RGA-S首先將輸入特征映射X重塑為C×(H×W)和成對關系矩陣R∈R(H×W)×(H×W)R∈ R^{(H×W)×(H×W)}R∈R(H×W)×(H×W)的計算采用
位置i處的關系向量rir_iri?通過在所有位置疊加成對關系來定義:
空間關系感知特征yiy_iyi?可以寫成
其中gavgcg^c_{avg}gavgc?表示通·道域中的全局平均池化。最后,位置i的空間注意力得分由
RGA-C與RGA-S的形式相同,只是將輸入特征映射作為一組H×W維特征。RGA使用全局關系為每個特征節點生成注意力分數,從而提供有價值的結構信息并顯著增強表征能力。RGA-S和RGA-C足夠靈活,可用于任何CNN網絡;Zhang等人建議按順序聯合使用它們,以更好地捕捉空間和跨通道關系。
(十)、Self-Calibrated Convolutions
在分組卷積成功的推動下,Liu等人提出了自校準卷積,作為擴大每個空間位置感受野的一種方法。
自校準卷積與標準卷積一起使用。它首先在通道域中將輸入特征X劃分為X1X_1X1?和X2X_2X2?。自校準卷積首先使用平均池化來減少輸入大小并擴大感受野:
其中r是池化核的大小和步幅。然后使用卷積對通道關系進行建模,并使用雙線性插值算子UpU_pUp?對特征圖進行上采樣:
接下來,元素相乘完成自校準過程:
最后,形成的輸出特征映射為:
這種自校準卷積可以擴大網絡的接收范圍,提高網絡的適應性。它在圖像分類和某些下游任務(如實例分割、目標檢測和關鍵點檢測)中取得了優異的效果。
十一、SPNet
空間池化通常在一個小區域上運行,這限制了它捕獲遠程依賴關系并將重點放在遙遠區域的能力。為了克服這一點,Hou等人提出了 strip pooling,這是一種新的池化方法,能夠在水平或垂直空間域中編碼遠程上下文。
strip pooling有兩個分支用于水平和垂直strip pooling。水平strip pooling匯集部分首先匯集輸入特征水平方向上的特征F∈RC×H×WF∈ R^{C×H×W}F∈RC×H×W
然后在y中應用核大小為3的一維卷積來捕獲不同行和通道之間的關系。重復W次,使輸出yvy_vyv?與輸入形狀一致:
垂直條strip pooling以類似的方式執行。最后,兩個分支的輸出使用元素求和進行融合,以生成注意特征圖:
在混合池模塊(MPM)中進一步開發了strip pooling模塊(SPM)。兩者都考慮空間和通道關系,以克服卷積神經網絡的局部性。SPNet實現了幾個復雜語義分割基準的最新結果。
(十二)、SCA-CNN
由于CNN具有自然的空間性、通道性和多層性,Chen等人提出了一種新的基于空間和通道性注意力的卷積神經網絡(SCA-CNN)。它是為圖像字幕的任務而設計的,并使用了一個編碼器-解碼器框架,其中CNN首先將輸入圖像編碼為一個向量,然后LSTM將該向量解碼為一個單詞序列。給定輸入特征映射X和上一時間步LSTM隱藏狀態ht?1∈Rdh_{t?1}∈ R^dht?1?∈Rd是一種空間注意機制,它在LSTM隱藏狀態ht?1h_{t?1}ht?1?的指導下,更加關注語義有用的區域, 空間注意力模型為:
⊕ 表示矩陣和向量的加法。類似地,通道注意力首先聚合全局信息,然后使用隱藏狀態計算通道注意力權重向量ht?1h_{t?1}ht?1?:
總的來說,SCA機制可以用兩種方式之一編寫。如果在空間注意力之前應用通道注意力
如果空間注意力最先被使用
f(?)f(·)f(?)表示調制函數,該函數將特征映射X和注意映射作為輸入,然后輸出調制后的特征映射Y。 與以前的注意機制不同,SCA Net平等地考慮每個圖像區域,并使用全局空間信息告知網絡關注的位置,SCA Net利用語義向量生成空間注意力特征圖以及通道方向的注意權重向量。SCA-CNN不僅僅是一個強大的注意力模型,它還提供了一個更好的理解,即在句子生成過程中,該模型應該關注的地方和內容。
(十三)、GALA
大多數注意力機制只使用來自類別標簽的微弱監督信號來學習關注點,這啟發了Linsley等人研究顯性人類監督如何影響注意力模型的表現和可解釋性。作為概念證明,Linsley等人提出了全局和局部注意力(GALA)模塊,該模塊通過空間注意機制擴展了SE塊。
給定輸入功能映射X,GALA使用一個注意力掩碼,將全局和本地注意力結合起來,告訴網絡關注的位置和內容。在SE塊中,全局注意力通過全局平均池化聚合全局信息,然后使用多層感知器生成通道方向的注意力權重向量。在局部注意力中,對輸入進行兩次連續的1×1卷積以生成位置權重圖。局部和全局路徑的輸出通過加法和乘法進行組合。GALA可以表示為:
a,m∈RCa,m∈ R^Ca,m∈RC是表示通道權重向量的可學習參數。 在人工提供的功能重要性地圖的監督下,GALA顯著提高了代表性,可以與任何CNN主干網結合。
總結
以上是生活随笔為你收集整理的Attention Mechanisms in Computer Vision: A Survey(四)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 12306登录python_python
- 下一篇: RTMP推流H.264