Arxiv 2209 | Switchable Self-attention Module
Arxiv 2209 | Switchable Self-attention Module
- 論文:https://arxiv.org/abs/2209.05680
- 代碼:https://github.com/Qrange-group/SEM
這篇文章設計了一種可切換式的注意力模塊(題目中是self-attention,但是實際模塊設計用的還是原始的通道注意力)。在本文中,實驗性的發現對于不同的網絡層和不同的場景中,對于注意力模塊而言,選擇使用合適的激勵操作是更有必要的。
主要內容
注意力是一種識別機制,能夠忽略非必需信息并有選擇地關注一小部分信息。注意力在句子,圖像和視頻處理中被廣泛使用,以減輕神經網絡學習大量信息的壓力。視覺領域中,一些操作模擬注意力機制以作為CNN中有效的特征增強組件,確保深度神經網絡能夠有效識別圖像中的重要信息。這樣的模塊化和可拔插的算子也通常被稱為注意力模塊,這促進了視覺識別領域的發展。
現有的注意力模塊大多數包含三個部分:
- 收縮(Squeeze):這一步從輸入特征圖上獲得全局信息。
- 激勵(Excitation):這一步利用全局信息提取注意力圖。
- 重矯正(Recalibration):這一步注意力圖被用到不同的層中,用于調整特征。
其中第二步是注意力模塊的關鍵。許多研究者已經提出了不同的方法來優化激勵操作,例如:
- SENet:使用一個全連接層(FC)捕獲通道之間的依賴性。
- ECA:使用無降維的局部的跨通道交互策略。這是基于1D CNN實現的。
- IEBN:是一種基于注意力的BN操作,通過稱作實例增強(IE)的簡單的線性變換矯正每個通道的信息。
而且這些方法忽略了兩件重要的事情:
- CNN是分層的特征提取器,包含著多個網絡層。這些方法在整個CNN中所有的層僅僅利用單一注意力模塊,相同的激勵操作,這并不是最優的。
- 實際模型輸入的尺寸和數據集的類型都是不同的,這些方法僅僅基于實驗而選擇了一種特定的注意力操作。
作者在本文中,實驗性的發現對于不同的網絡層和不同的場景中,對于注意力模塊而言,選擇使用合適的激勵操作是更有必要的。因此替代使用單一的注意力模塊,作者們設計的結構會根據不同的層和場景自動調整激勵操作的類型。
然而,對不同的層和場景人工選擇合適的激勵操作也確實需要大量的成本和時間。為了解決這一問題,作者們提出了一種可切換的激勵模塊,即SEM,這可以自動決定如何計算注意力圖,從而實現了不同激勵操作的組合。
所提結構:SEM
計算過程如下:
- Squeeze:全局平均池化處理輸入特征來提取全局信息m。CxHxW -> Cx1x1。
- Decision:全局信息送入決策模塊中,生成N維的決策向量w,用于選擇激勵操作。基于決策向量w,作者們設計了一個切換模塊來選擇和集成不同的激勵算子。切換模塊包括一系列激勵操作EO。EO的數量為N。切換模塊基于w設計了計算大小為Cx1x1的注意力圖v的策略。
- Recalibration:注意力圖v以像素級乘法與原始特征結合,獲得最終的輸出xatt。
這里的決策模塊是本文的工組重點。為了充分利用集成在squeeze操作中的信息,從而識別不同后續激勵操作的重要性,作者們在其后面接了一個結構F用于從通道依賴中充分捕獲決策信息。為此,這一操作需要滿足兩個標準:
為了滿足這兩點,作者們利用了一個基于sigmoid函數的簡單的門控機制
,即Linear+Sigmoid的結構。這里的Linear的權重實現了N維到C維的映射,從而Cx1x1大小的輸入被轉換為大小為N的決策向量,其中的每個值表示各自對應的激勵操作的重要性。通過w,決策模塊實現了一種軟決策,而不是單一選擇特定的激勵操作。這種設計確保了激勵模塊獲得的特征圖,可以根據學習到的權重,加權集成所有激勵操作的信息。
實際結構中,作者們選擇了三種不同的激勵操作進行集成,分別是FC(SENet)、CNN(ECA)和IE(IEBN)。在切換操作中,每個激勵操作對應的輸出乘以前面計算出來的對應權重后,通過sigmoid函數后,所有的結果相乘得到最終的注意力圖。
實驗結果
作者們旨在兩個CIFAR上進行了實驗。
其中有趣的實驗結果是表5中,在移除數據增強后,相較于原始模型和SENet,SEM可以獲得更好的效果,作者認為這體現出了SEM具有一定的正則化效果。
總結
以上是生活随笔為你收集整理的Arxiv 2209 | Switchable Self-attention Module的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度技术Ghost Win7 SP1装机
- 下一篇: 蒲公英 Ghost Win 7 Sp1(