當前位置：首頁 >

【图像分割模型】感受野与分辨率的控制术—空洞卷积

發布時間：2025/3/20 32 豆豆

生活随笔收集整理的這篇文章主要介紹了【图像分割模型】感受野与分辨率的控制术—空洞卷积小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這是專欄《分割模型解讀》的第3篇文章。在這里，我們將共同探索解決分割問題的主流網絡結構和設計思想。

前兩篇文章介紹了編解碼分割結構，今天具體聊聊解碼器中涉及到的空間分辨率恢復問題。

作者 | 孫叔橋

編輯 | 言有三

1 緒論

通過前兩篇文章，我們了解到分割任務是一個像素級別的任務，因此需要在輸入的空間尺寸下對每個像素都有分割的結果。換句話說，如果輸入的空間尺寸是HxW，那么輸出也需要是HxW的。

然而，為了提高網絡性能，許多結構采用了池化或striding操作來增加感受野，同時提升遠程信息的獲取能力。但是這樣的結構也帶來了空間分辨率的下降。

比如之前提到的編解碼結構中的編碼器。

在空洞卷積提出以前，大部分的空間尺寸恢復工作都是由上采樣或反卷積實現的。前者通常是通過線性或雙線性變換進行插值，雖然計算量小，但是效果有時不能滿足要求；后者則是通過卷積實現，雖然精度高，但是參數計算量增加了。

（復制方法上采樣示意圖）

（反卷積方法上采樣示意圖）

基于此，DeepLab就提出了“空洞卷積”（atrous convolution）的概念。

2 空洞卷積

一句話概括空洞卷積：調整感受野（多尺度信息）的同時控制分辨率的神器。

(1) 控制感受野

下圖是空洞卷積結構的示意圖，從左到右比率（rate）分別為1、6和24，比率可以粗暴理解為卷積核內相鄰兩個權重之間的距離。從圖中可以看出，當比率為1的時候，空洞卷積退化為常見的卷積。

很明顯，應用空洞卷積后，卷積核中心像素的感受野（也就是一個卷積核能看見的區域）增大了，但是在步長為1的情況下，特征圖的空間分辨率卻可以保持不變。

(2) 控制分辨率

除了維持空間分辨率，空洞卷積也可以像標準卷積一樣通過設置輸出步長（output_stride）實現輸出特征圖分辨率的控制。

3 網絡結構

(1) 網絡結構介紹

在目標檢測、圖像分割等計算機視覺任務中，圖片中可能出現如下圖情況中的不同大小的目標。為了應對一個目標在不同尺度下的識別或分割造成的困難，研究者們想出了許多方法獲取同一位置上不同尺度的上下文信息，從而保證算法對于尺度變化具有一定魯棒性。

在圖像分割領域中，主要存在下面四種網絡結構能夠實現多尺度上下文的獲取。從左到右分別是金字塔結構、編解碼結構、空洞卷積結構和空間金字塔池化結構。

前兩種結構是通過輸出步長的設置，逐步縮小輸出特征圖的分辨率，從而使得每層特征上所對應的感受野的尺寸變化；第三種結構是通過直接改變每個卷積核的可見區域實現感受野變化；最后一個結構是通過對特征層進行不同尺度的池化，實現感受野的遍歷。

(2) 空洞卷積結構1

下圖(b)是基于上面第三種結構的空洞卷積分割網絡結構圖，(a)是對應的第三種結構的網絡結構圖。

可以看到從block4到block7，通過應用不同比率的空洞卷積，該網絡結構實現了在維持空間分辨率的前提下的感受野（尺度）變化。

(3) 空洞卷積結構2

下圖是基于最后一種結構的空洞卷積網絡結構，也稱為ASPP（Atrous Spatial Pyramid Pooling），也是前兩個DeepLab版本中所使用的網絡結構。

這種結構將上個結構的串聯空洞卷積變成了并聯的空洞卷積運算，基于同一級特征結構提取不同尺度下的卷積結果。

4 實驗及分析

(1) 卷積核的有效權重

通過前面的了解，我們可以發現一個問題。那就是，當空洞卷積的區域與特征圖實際空間尺寸相近的時候，實際有效的卷積核權重是非常有限的。

比如，對一個65x65的特征圖應用不同比率的3x3濾波器，我們可以得到下圖的結果。

可見，在極端條件下，當空洞卷積的比率接近特征圖空間尺寸時，一個3x3的卷積核就退化成了1x1的卷積核。

為了克服這個問題，DeepLabv3中采用的做法是對最后一層特征圖應用全局池化（global pooling），再將其送入一個1x1的卷積層中，最后，通過雙線性上采樣實現希望的空間分辨率。

(2) 實驗總結

DeepLabv3給出了諸多條件下的剝離實驗，首先給出整體結論：

輸出步長為8時效果比更大的步長要好；

基于ResNet-101的結構比基于ResNet-50的要好；

用變化的比率比1:1:1的比率要好；

加上多尺度輸入和左右翻折數據效果更好；

用MS COCO下預訓練的模型效果更好。

具體結果看下面表格：

表格均來源于DeepLabv3論文：

《Rethinking Atrous Convolution for Semantic Image Segmentation》

5 更多結果

6 總結

經過DeepLab和空洞卷積的學習，我們一起從之前的編解碼結構共同邁入了第二大分割問題的處理方法：上下文信息整合。從這篇文章開始，我們將一起探索多種不同的上下文信息整合方法。

下篇文章將介紹空洞卷積的實時網絡結構。下回見！

本專欄文章：

第一期：【圖像分割模型】從FCN說起

第二期：【圖像分割模型】編解碼結構SegNet

第三期：【圖像分割模型】感受野與分辨率的控制術—空洞卷積

如果想加入我們，后臺留言吧

轉載文章請后臺聯系

侵權必究

感謝各位看官的耐心閱讀，不足之處希望多多指教。后續內容將會不定期奉上，歡迎大家關注有三公眾號 有三AI！

總結

以上是生活随笔為你收集整理的【图像分割模型】感受野与分辨率的控制术—空洞卷积的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【图像分割模型】编解码结构SegNet
下一篇：【杂谈】如何应对烦人的开源库版本依赖-做

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

【图像分割模型】感受野与分辨率的控制术—空洞卷积

總結