當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【图像分割模型】多分辨率特征融合—RefineNet

發布時間：2025/3/20 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了【图像分割模型】多分辨率特征融合—RefineNet 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這是專欄《圖像分割模型》的第8篇文章。在這里，我們將共同探索解決分割問題的主流網絡結構和設計思想。

RefineNet，教你在實現特征融合與殘差恒等映射的同時，怎么找回降下來的空間分辨率。

作者 | 孫叔橋

編輯 | 言有三

本期論文

《RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation》

1 恢復空間分辨率

在分割任務中，為了提取更復雜的特征、構建更深的神經網絡，許多算法往往會以犧牲空間分辨率的方式，在盡量少地增加計算量的前提下，換取特征通道數的增加。雖然這種方式有諸多優點，但是也有一個明顯的缺陷——空間分辨率的下降。

盡管我們之前已經了解了諸多圖像分割的經典算法，但是其中并沒有哪個網絡結構能夠充分利用完整的空間信息來恢復圖像的空間分辨率（包括空洞卷積和編解碼結構）。因此，這篇文章我們就共同來看看，如何找回這些丟失的分辨率信息。

下圖分別是殘差結構和空洞卷積在提取稠密分割結果時的操作流程：

很明顯，殘差結構直接損失了空間分辨率。雖然空洞卷積在一定程度上減小了殘差結構空間分辨率的損失，但是其訓練的代價是非常高昂的（即使在GPU上）。出于這種考慮，如下圖所示的RefineNet被設計出來了：

下面我們具體聊一下RefineNet的網絡結構和設計思想。

2 全局特征的提取與融合

為了讓大家對網絡結構有一個整體的印象，這里先上網絡的整體結構圖：

RefineNet總共包括三大模塊：殘差卷積模塊（RCU，Residual Convolution Unit）、多分辨率融合模塊（Multi-Resolution Fusion）和串聯殘差池化模塊（Chained Residual Pooling）。

(1) RCU模塊

RCU模塊的結構如下圖所示：

每個RCU模塊包括一個ReLU層和一個卷積層，網絡結構中，每個分辨率下應用兩個串聯的RCU模塊，用于提取該分辨率下的分割結果的殘差，最后以相加的形式校正該分辨率下的原始分割結果。

(2) 多分辨率融合

下圖是多分辨率融合部分的詳細結構：

在給定了多分辨率下經過處理的分割結果后，各個結果將依次通過一個卷積層和一個上采樣層，形成空間分辨率統一的分割結果圖。

具體而言，網絡首先通過一個卷積層處理輸入進來的不同分辨率下的分割結果，從而學習得到各通道下的適應性權重。隨后，應用上采樣，統一所有通道下的分割結果，并將各通道結果求和。求和結果送入下一個模塊。

(3) 串聯殘差池化

下圖是這一模塊的結構圖：

前兩個模塊主要用于將不同分辨率下的分割結果進行整合，通過學習得到的殘差先校正單獨的分割結果；再通過習得的權重，對所有通道下的結果加權求和。而這一部分的作用則是進一步通過殘差校正的方式，優化前兩步融合得到的分割結果。

這個模塊主要由一個殘差結構、一個池化層和一個卷積層組成。其中，池化層加卷積層用來習得用于校正的殘差。值得注意的是，RefineNet在這里用了一個比較巧妙的做法：用前一級的殘差結果作為下一級的殘差學習模塊的輸入，而非直接從校正后的分割結果上再重新習得一個獨立的殘差。

這樣做的目的，RefineNet的作者是這樣解釋的：可以使得后面的模塊在前面殘差的基礎上，繼續深入學習，得到一個更好的殘差校正結果。

最后，網絡又經過一個一個RCU模塊，平衡所有的權重，最終得到與輸入空間尺寸相同的分割結果。

3 網絡結構變種

除了上述的基礎網絡結構，RefineNet還可以存在下面幾種變種。

(1) 單個RefineNet

(2) 2次級聯的RefineNet

(3) 4次級聯2倍RefineNet

4 實驗結果

RefineNet在NYUv2數據庫、PASCAL VOC 2012數據庫和Cityscapes數據庫下都有實驗驗證。下表是其在NYUv2下的結果（40類）：

下表是其在Cityscapes下的結果：

由于在PASCAL VOC 2012下的對比表格太大，如果感興趣的話，建議直接查閱原文。下圖是語義分割問題上的直觀結果：

除了語義分割，RefineNet還可以用于目標理解（object parsing）。下表是其在目標理解上的表現：

下圖是RefineNet在目標理解上的直觀結果：

總結

本文我們了解了如何利用殘差網絡將不同分辨率下的分割結果有效融合，并得到原始分辨率下的稠密分割圖。到此為止，主流的語義分割網絡結構就基本說完了。下期我們進入語義分割的最后一部分：循環神經網絡。

本專欄文章：

第一期：【圖像分割模型】從FCN說起

第二期：【圖像分割模型】編解碼結構SegNet

第三期：【圖像分割模型】感受野與分辨率的控制術—空洞卷積

第四期：【圖像分割模型】快速道路場景分割—ENet

第五期：【圖像分割模型】以RNN形式做CRF后處理—CRFasRNN

第六期：【圖像分割模型】多感受野的金字塔結構—PSPNet

第七期：【圖像分割模型】全局特征與局部特征的交響曲—ParseNet

第八期：【圖像分割模型】多分辨率特征融合—RefineNet

第九期：【圖像分割模型】用BRNN做分割—ReSeg

第十期：【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF

第十一期：【圖像分割模型】實例分割模型—DeepMask

第十二期：【圖像分割模型】全景分割是什么？

感謝各位看官的耐心閱讀，不足之處希望多多指教。后續內容將會不定期奉上，歡迎大家關注有三公眾號 有三AI！

總結

以上是生活随笔為你收集整理的【图像分割模型】多分辨率特征融合—RefineNet的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【AutoML】AutoML专栏上线，跟
下一篇：【强化学习】强化学习专栏上线，60多篇文