感知算法论文(六):LEDNet(2019)
文章目錄
- 摘要
- 1. 引言
- 本文網絡結構
- 2.1 帶有 Split and Shuffle Operations 的殘差模塊
- 2.2 LEDNet 網絡設計
- 3. 實驗
- 3.1 實驗落實細節
- 3.2 實驗結果
- 4. 總結和展望
摘要
大量的計算限制了 CNNs 在移動設備上的部署,本文提升了一個輕量級網絡 LEDNet 來解決該問題,該結構使用不對稱的 “編碼-解碼” 機制來解決實時語義分割問題。
詳細來說,編碼器采用 RestNet 作為 backbone,每個殘差模塊都使用了 channel split 和 channel shuffle,來減小計算量并提高分割準確率。
另外,解碼器中使用注意力金字塔網絡 attention pyramid network(APN),降低網絡復雜度
本文模型參數低于1M,在單個 GTX 1080Ti GPU 上運行速度超過71 FPS。
最終實驗結果驗證了本文的方法在 CityScapes 數據集上,同時達到了速度和準確率的平衡。
1. 引言
目前,解決基于場景的問題基本上是靠搭建更深更大的卷積網絡來實現的。效果優異的 CNNs 一般都有上百個卷積層和成千的特征通道。為了獲得更好的效果,通常要以犧牲時間和速度為代價。尤其在真實情景下,如 augmented reality、機器人、自動駕駛等,規模較小、計算成本較低的網絡能夠進行在線估計,高精度的網絡需要龐大的算力,不適合部署于算力較低的移動平臺。
該限制在語義分割任務上的限制也很明顯,語義分割要對每個像素進行類別劃分。
為了克服這些問題,出現了一些網絡來解決準確率和效果直接的平衡,大概可以分為兩類:網絡壓縮 [9,10,11] 和卷積分解 [13,14,15] 。
網絡壓縮:
通過壓縮預訓練網絡,包括 hashing[9] ,pruning [10] 和 quantizaiton [11,12] 等推理階段的算法。為了更好的去除冗余,另一種方法是稀疏編碼 [16,17]。
卷積分解:
卷積分解機制 convolution factorization principle(CFP),是將標準的卷積過程分解為 group convolution 和深度可分離卷積 [3,15,18],之后直接訓練小的網絡。
如 ENet[13]使用 RestNet作為backbone,來實現高效的推斷。[19] 中提出了級聯的網絡,將 high-level 標簽集成到網絡,來提升性能。
[7,14,20] 中都使用一個對稱的編碼解碼機制,可以減小參數同時提升準確率。
雖然已有部分工作對輕量級體系結構網絡進行了初步研究,但在非常有限的計算預算下追求最佳精度仍然是實時語義分割任務的一個有待研究的問題。
本文將該效率和準確率的 trade-off 作為一個整體來解決,而非單個解決。本文引入一個 LEDNet,使用不對稱的 編碼-解碼 機制來實現實時語義分割。
如圖1所示, LEDNet 由兩部分構成:編碼網絡和解碼網絡
編碼模塊:
CFP之后,編碼器的核心單元是一個新型殘差模型來實現 skip connections 和 convolutions with channel split and shuffle 。skip connection 允許卷積學習殘差函數來幫助訓練,split 和 shuffle 過程能夠加強通道間的信息轉換同時保持類似于一維分解卷積的計算開銷。
解碼模塊:
解碼模塊,我們設計了一個 attention pyramid network(APN)來抽取豐富特征,使用注意力機制來估計每個像素的語義標簽,本文貢獻如下:
-
LEDNet 的非對稱機制使得可以減少參數量,加速推理過程
-
殘差模塊中的 channel split 和 shuffle 機制可以減小網絡規模,提升特征表達能力,且 channel shuffle 是可微的,意味著其可以嵌入網絡進行端到端的訓練。
-
解碼端,使用特征金字塔注意力機制來設計APN,可以減小整個網絡的復雜度。
本文網絡結構
2.1 帶有 Split and Shuffle Operations 的殘差模塊
我們的重點是解決殘差模塊存在的效率限制,殘差塊是近年來用于圖像分類和語義分割的較好的神經網絡。
目前,已有一些輕量級網絡獲得了較好的效果,如 bottleneck(圖2(a))、non-bottleneck-1D(圖2(b))、 ShuffleNet 模型(圖2(c)),其中逐點卷積使用的很多。然而,逐點的卷積很耗費算力,對輕量級網絡不利。
為了更好的平衡性能和效率問題,我們在 residual layer 引入了兩個簡單的操作,channel split 和 channel shuffle。
該模型稱為 split-shuffle-non-bottleneck(SS-nbt),如圖2(d)所示,受[12,18]啟發, SS-nbt 的設計中使用了 split-transform-merge 策略,可以實現接近復雜網絡的特征表達效果。
SS-nbt:
SS-nbt 開始時,輸入被分為兩個更低維的分支,每個分支的輸入都是原始輸入的一半,為了避免逐點卷積,卷積變換是使用一系列的特殊一維卷積核(13或31),之后將這兩個子分支的卷積的輸出級聯合并起來,最終的通道數不變。
為了便于訓練,利用 identity mapping 分支將該輸出疊加到輸入上,最后再次使用 channel shuffle 操作來對兩個 split 分支進行信息融合。
shuffle 之后,下一個 SS-nbt 單元開始工作。顯而易見,本文的 residual 模塊簡單且準確。
首先,每個 SS-nbt 中的高效性使得我們能夠使用更多的特征 channels
其次,每個 SS-nbt 中,合并的特征 channel 隨機被 shuffle,之后輸入下一個單元,該過程可以看做一種特征重復使用,雖然在一定程度上增加了網絡容量,但是沒有顯著性增加復雜性。
2.2 LEDNet 網絡設計
如表1所示,LEDNet 是由編碼器和解碼器組成的,不同于[7],本方法使用非對稱機制,其中編碼器能夠對特征圖下采樣,之后的解碼器采用APN對特征圖上采樣,來保持和輸入分辨率匹配。
除過 SS-nbt 單元外,編碼器也包括了下采樣單元,該單元通過將兩個并行輸出進行步長為2,卷積核大小為 3*3 的最大池化來實現。
下采樣使得更深層的網絡能夠聚焦上下文語義,同時有助于降低計算量,注意,此處將編碼器放到下采樣之后。
此外,使用擴張卷積使得卷積過程有更大的感受野,保證了精度的提升,這比直接使用大尺度的卷積核更好,該過程更有效。
受注意力機制啟發,解碼器設計了一個APN,使用 spatial-wise 來實現稠密估計。
為了提高感受野,APN 使用金字塔注意力模型,綜合了三種不同層級的金字塔尺度,如圖1所示,首先使用 3x3,5x5 和 7x7 的卷積核,步長為2,來獲得不同層級的特征金字塔,之后金字塔結構逐步的融合不同層級的信息,可以更加精確的合并相鄰層級上下文信息。
由于高層特征圖分辨率低,使用大的卷積核也不會帶來很大的計算開銷,所以給編碼器的輸出特征使用 1x1 的卷積核進行卷積,之后卷積特征圖逐像素的和金字塔注意力特征相乘。
為了提高性能,使用全局平均池化方式來在注意力機制之前來整合全局上下文。最后,使用上采樣單元來使得特征圖和輸入分辨率一致。
受益于金字塔機制, APN 可以捕捉多尺度的上下文特征,并且得到像素級的注意力。
不同于 DeepLab[5] 和 PSPNet[8] 中將多尺度特征圖進行堆疊的方法,本文的上下文信息和原始卷積特征是像素級相乘的,沒有引入過多的計算開銷。
3. 實驗
3.1 實驗落實細節
本文選擇廣泛使用的 CityScapes dataset [26] 來驗證 LEDNet 的效果,該數據集包含19種不同類別的目標,和一個背景信息,有較好的像素級別的標記,包含2975個訓練樣本,500個驗證樣本,1525個測試樣本,此處使用20k個粗糙標記的圖像進行訓練,使用類間的 mean IoU(mIoU)來估計分割準確率,使用FPS來作為速度衡量單位。
為了體現 LEDNet 的優勢,我們選擇了 6 種不同的輕量級網絡作為基準,包括SegNet [7], ENet [13], ERFNet [14], ICNet [19], CGNet [25] 和 ESPNet [20],公平起見,所有的算法都在單個 GTX 1080Ti GPU 上實現,我們使用較大的minibatch(設置為5)來保證 GPU 內存使用的最大化,初始學習率是 5x10^-4,“poly” 學習率動量采樣0.9,動量和權值衰減分別設置為0.9和 10^-4。
3.2 實驗結果
表2和表3呈現了對比結果,結果表明 LEDNet 達到了準確率和效率的最好平衡,
所有方法中, LEDNet 獲得了 70.6% 的 class mIoU(細類別),和81.7%的 category mIoU(粗類別),共19個 category,有13個都達到了最好的效果。
LEDNet 比 SegNet[7] 快5倍多,模型是其1/30 左右
LEDNet 比 ENet[7] 快1.5倍多,模型參數是其1/3左右,準確率高10%左右
圖3展示了一些可視化輸出,從圖中可知,LEDNet 不僅僅能夠正確的分類不同尺度的目標,也可以對所有類別獲得更好的效果。
4. 總結和展望
本文提出了 LEDNet,使用非對稱的編碼-解碼機制進行實時語義分割,編碼器在 residual layer 使用 channel split 和 channel shuffle 操作,以特征重復利用的方式來增強信心直接的融合交流。
另一方面,解碼器使用 APN,其空域金字塔結構有益于在擴大感受野的同時不引入過大的計算開銷。
網絡可以端到端的訓練
實驗結果表明,LEDNet 達到了 CityScapes dataset 的分割效果和實施效率的最好平衡。
未來的工作中,可以對標準卷積分解成1維卷積,可以在獲得更簡單網絡的同時保持分割效果。
總結
以上是生活随笔為你收集整理的感知算法论文(六):LEDNet(2019)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 平安普惠服务费合法吗?
- 下一篇: 感知算法论文(七):DFANet: De