當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation（笔记）

發(fā)布時(shí)間：2025/1/21 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了 DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation（笔记）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文地址

一、主要內(nèi)容介紹

1. 問(wèn)題背景

對(duì)于高分辨率的圖像，如何在高推斷速度的情況下，保證推斷精度呢？

U型網(wǎng)絡(luò)的分割效果不錯(cuò)，但是計(jì)算量較大；

一些方法通過(guò)減小輸入圖像的尺寸或者裁剪掉多余的通道來(lái)提高推斷的速度，但是會(huì)損失邊界部分的細(xì)節(jié)以及對(duì)于小目標(biāo)識(shí)別效果不好；

淺層的網(wǎng)絡(luò)削弱了特征的辨別能力。

針對(duì)這些問(wèn)題，有人提出將空間細(xì)節(jié)和上下文信息結(jié)合在一起的多分支框架(Figure 2(a))。然而，高分辨率圖像上的附加分支限制了速度，分支之間的相互獨(dú)立性限制了模型學(xué)習(xí)能力。

SPP(Spatial Pyramid Pooling)(Figure 2(b))會(huì)增加高層的特征，同時(shí)也會(huì)增加計(jì)算量。通過(guò)最后的輸出增加特征圖，這樣會(huì)缺少前面層保留的圖像語(yǔ)義信息。

為了提高模型的學(xué)習(xí)能力，以及增大感受野，特征重利用(feature reuse) 是個(gè)不錯(cuò)的方法。文章提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖Figure 2(d).通過(guò)子網(wǎng)絡(luò)聚合（sub-network aggregation）和子狀態(tài)聚合（sub-stage aggregation）來(lái)重利用特征。

2. 文章貢獻(xiàn)點(diǎn)

文章提出了一種深度信息整合網(wǎng)絡(luò)（DFANet）用于實(shí)時(shí)語(yǔ)義分割。
主要有三個(gè)貢獻(xiàn)點(diǎn)：

采用輕量級(jí)的網(wǎng)絡(luò)作為基本骨架（backbone）

子網(wǎng)絡(luò)聚合——網(wǎng)絡(luò)級(jí)聯(lián)。

子狀態(tài)聚合。將不同骨架間的相應(yīng)狀態(tài)聚合。

二、網(wǎng)絡(luò)結(jié)構(gòu)

1. backbone
Figure 3中共有3個(gè)backbone，每個(gè)backbone都是改進(jìn)版的Xception網(wǎng)絡(luò)。

2. 子網(wǎng)絡(luò)聚合——網(wǎng)絡(luò)級(jí)聯(lián)
圖中的紅色箭頭部分

處理過(guò)程:將上一個(gè)backbone 的輸出，作為下一個(gè)backbone的輸入。這個(gè)上一個(gè)backbone 的輸出上采樣四次后輸入下一個(gè)backbone。

3. 子狀態(tài)聚合
橙色箭頭部分。不同backbone的相應(yīng)狀態(tài)聚合

對(duì)于第一個(gè)backbone， $n = 1$ ,第 $i$ 個(gè)狀態(tài) $x_{i}^{n}$ 等于上一狀態(tài)的輸入和輸出的和，當(dāng) $n > 1$ 時(shí)， $x_{i}^{n}$ 等于上一狀態(tài)（ $i ? 1$ ）以及上一個(gè)網(wǎng)絡(luò)( $n ? 1$ )的當(dāng)前狀態(tài)（ $i$ ）的級(jí)聯(lián)。 $i$ – 狀態(tài)， $n$ – backbone

4. decoder
融合底層和高層的特征，沒(méi)有使用中間層的特征。

三、實(shí)驗(yàn)細(xì)節(jié)

輸入圖像尺寸：

1024 x 1024

512 x 1024

優(yōu)化方法：SGD batch size 48, momentum 0.9 weight decay 1e ? 5.
3.損失函數(shù)：交叉熵?fù)p失

數(shù)據(jù)增強(qiáng)：去均值（mean suntraction）,隨機(jī)垂直翻轉(zhuǎn)，隨機(jī)縮放，縮放因子：[0.75,1.75],隨機(jī)裁剪

四、問(wèn)題

當(dāng)使用3個(gè)Backbone A時(shí)的mIoU比2個(gè)時(shí)小？2個(gè)Backbone A時(shí)的感受野已經(jīng)比圖像大，在增加一個(gè)Backbone，會(huì)引入噪聲。

總結(jié)

以上是生活随笔為你收集整理的DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation（笔记）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。