當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【分割模型解读】感受野与分辨率的控制术—空洞卷积

發布時間：2025/3/20 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了【分割模型解读】感受野与分辨率的控制术—空洞卷积小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這是專欄《分割模型解讀》的第3篇文章。在這里，我們將共同探索解決分割問題的主流網絡結構和設計思想。

前兩篇文章介紹了編解碼分割結構，今天具體聊聊解碼器中涉及到的空間分辨率恢復問題。

作者 | 孫叔橋

編輯 | 言有三

1 緒論

通過前兩篇文章，我們了解到分割任務是一個像素級別的任務，因此需要在輸入的空間尺寸下對每個像素都有分割的結果。換句話說，如果輸入的空間尺寸是HxW，那么輸出也需要是HxW的。

然而，為了提高網絡性能，許多結構采用了池化或striding操作來增加感受野，同時提升遠程信息的獲取能力。但是這樣的結構也帶來了空間分辨率的下降。

比如之前提到的編解碼結構中的編碼器。

在空洞卷積提出以前，大部分的空間尺寸恢復工作都是由上采樣或反卷積實現的。前者通常是通過線性或雙線性變換進行插值，雖然計算量小，但是效果有時不能滿足要求；后者則是通過卷積實現，雖然精度高，但是參數計算量增加了。

（復制方法上采樣示意圖）

（反卷積方法上采樣示意圖）

基于此，DeepLab就提出了“空洞卷積”（atrous?convolution）的概念。

2 空洞卷積

一句話概括空洞卷積：調整感受野（多尺度信息）的同時控制分辨率的神器。

(1) 控制感受野

下圖是空洞卷積結構的示意圖，從左到右比率（rate）分別為1、6和24，比率可以粗暴理解為卷積核內相鄰兩個權重之間的距離。從圖中可以看出，當比率為1的時候，空洞卷積退化為常見的卷積。

很明顯，應用空洞卷積后，卷積核中心像素的感受野（也就是一個卷積核能看見的區域）增大了，但是在步長為1的情況下，特征圖的空間分辨率卻可以保持不變。

(2) 控制分辨率

除了維持空間分辨率，空洞卷積也可以像標準卷積一樣通過設置輸出步長（output_stride）實現輸出特征圖分辨率的控制。

3 網絡結構

(1) 網絡結構介紹

在目標檢測、圖像分割等計算機視覺任務中，圖片中可能出現如下圖情況中的不同大小的目標。為了應對一個目標在不同尺度下的識別或分割造成的困難，研究者們想出了許多方法獲取同一位置上不同尺度的上下文信息，從而保證算法對于尺度變化具有一定魯棒性。

在圖像分割領域中，主要存在下面四種網絡結構能夠實現多尺度上下文的獲取。從左到右分別是金字塔結構、編解碼結構、空洞卷積結構和空間金字塔池化結構。

前兩種結構是通過輸出步長的設置，逐步縮小輸出特征圖的分辨率，從而使得每層特征上所對應的感受野的尺寸變化；第三種結構是通過直接改變每個卷積核的可見區域實現感受野變化；最后一個結構是通過對特征層進行不同尺度的池化，實現感受野的遍歷。

(2) 空洞卷積結構1

下圖(b)是基于上面第三種結構的空洞卷積分割網絡結構圖，(a)是對應的第三種結構的網絡結構圖。

可以看到從block4到block7，通過應用不同比率的空洞卷積，該網絡結構實現了在維持空間分辨率的前提下的感受野（尺度）變化。

(3) 空洞卷積結構2

下圖是基于最后一種結構的空洞卷積網絡結構，也稱為ASPP（Atrous?Spatial?Pyramid?Pooling），也是前兩個DeepLab版本中所使用的網絡結構。

這種結構將上個結構的串聯空洞卷積變成了并聯的空洞卷積運算，基于同一級特征結構提取不同尺度下的卷積結果。

4 實驗及分析

(1) 卷積核的有效權重

通過前面的了解，我們可以發現一個問題。那就是，當空洞卷積的區域與特征圖實際空間尺寸相近的時候，實際有效的卷積核權重是非常有限的。

比如，對一個65x65的特征圖應用不同比率的3x3濾波器，我們可以得到下圖的結果。

可見，在極端條件下，當空洞卷積的比率接近特征圖空間尺寸時，一個3x3的卷積核就退化成了1x1的卷積核。

為了克服這個問題，DeepLabv3中采用的做法是對最后一層特征圖應用全局池化（global?pooling），再將其送入一個1x1的卷積層中，最后，通過雙線性上采樣實現希望的空間分辨率。

(2) 實驗總結

DeepLabv3給出了諸多條件下的剝離實驗，首先給出整體結論：

輸出步長為8時效果比更大的步長要好；
基于ResNet-101的結構比基于ResNet-50的要好；
用變化的比率比1:1:1的比率要好；
加上多尺度輸入和左右翻折數據效果更好；
用MS?COCO下預訓練的模型效果更好。

具體結果看下面表格：

表格均來源于DeepLabv3論文：

《Rethinking Atrous Convolution for Semantic Image Segmentation》

5 更多結果

總結

經過DeepLab和空洞卷積的學習，我們一起從之前的編解碼結構共同邁入了第二大分割問題的處理方法：上下文信息整合。從這篇文章開始，我們將一起探索多種不同的上下文信息整合方法。

下篇文章將介紹空洞卷積的實時網絡結構。下回見！

下次直播預告

【直播預告】計算機視覺中數據增強原理和實踐

轉載文章請后臺聯系

侵權必究

技術交流請移步知識星球

更多精彩內容請關注知乎專欄《有三AI學院》

往期精選

【圖像分割模型】從FCN說起
【圖像分割模型】編解碼結構SegNet
【技術綜述】閑聊圖像分割這件事兒
【技術綜述】基于弱監督深度學習的圖像分割方法綜述
【技術綜述】一文道盡R-CNN系列目標檢測
【技術綜述】萬字長文詳解Faster RCNN源代碼
創業第一天，有三AI扔出了深度學習的150多篇文章和10多個專欄

總結

以上是生活随笔為你收集整理的【分割模型解读】感受野与分辨率的控制术—空洞卷积的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【直播预告】计算机视觉中数据增强原理和实
下一篇：【知识星球】每日干货看图猜技术，你都会吗