日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation(笔记)

發(fā)布時(shí)間:2025/1/21 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation(笔记) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文地址

一、主要內(nèi)容介紹

1. 問(wèn)題背景

對(duì)于高分辨率的圖像,如何在高推斷速度的情況下,保證推斷精度呢?

  • U型網(wǎng)絡(luò)的分割效果不錯(cuò),但是計(jì)算量較大;
  • 一些方法通過(guò)減小輸入圖像的尺寸或者裁剪掉多余的通道來(lái)提高推斷的速度,但是會(huì)損失邊界部分的細(xì)節(jié)以及對(duì)于小目標(biāo)識(shí)別效果不好;
  • 淺層的網(wǎng)絡(luò)削弱了特征的辨別能力。
  • 針對(duì)這些問(wèn)題,有人提出將空間細(xì)節(jié)和上下文信息結(jié)合在一起的多分支框架(Figure 2(a))。然而,高分辨率圖像上的附加分支限制了速度,分支之間的相互獨(dú)立性限制了模型學(xué)習(xí)能力。
  • SPP(Spatial Pyramid Pooling)(Figure 2(b))會(huì)增加高層的特征,同時(shí)也會(huì)增加計(jì)算量。通過(guò)最后的輸出增加特征圖,這樣會(huì)缺少前面層保留的圖像語(yǔ)義信息。
  • 為了提高模型的學(xué)習(xí)能力,以及增大感受野,特征重利用(feature reuse) 是個(gè)不錯(cuò)的方法。文章提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖Figure 2(d).通過(guò)子網(wǎng)絡(luò)聚合(sub-network aggregation)和子狀態(tài)聚合(sub-stage aggregation)來(lái)重利用特征。

    2. 文章貢獻(xiàn)點(diǎn)

    文章提出了一種深度信息整合網(wǎng)絡(luò)(DFANet)用于實(shí)時(shí)語(yǔ)義分割。
    主要有三個(gè)貢獻(xiàn)點(diǎn):

  • 采用輕量級(jí)的網(wǎng)絡(luò)作為基本骨架(backbone)
  • 子網(wǎng)絡(luò)聚合——網(wǎng)絡(luò)級(jí)聯(lián)。
  • 子狀態(tài)聚合。將不同骨架間的相應(yīng)狀態(tài)聚合。
  • 二、網(wǎng)絡(luò)結(jié)構(gòu)


    1. backbone
    Figure 3中共有3個(gè)backbone,每個(gè)backbone都是改進(jìn)版的Xception網(wǎng)絡(luò)。


    2. 子網(wǎng)絡(luò)聚合——網(wǎng)絡(luò)級(jí)聯(lián)
    圖中的紅色箭頭部分

    處理過(guò)程:將上一個(gè)backbone 的輸出,作為下一個(gè)backbone的輸入。這個(gè)上一個(gè)backbone 的輸出上采樣四次后輸入下一個(gè)backbone。

    3. 子狀態(tài)聚合
    橙色箭頭部分。不同backbone的相應(yīng)狀態(tài)聚合

    對(duì)于第一個(gè)backbone,n=1n=1n=1,第iii個(gè)狀態(tài)xinx_{i}^{n}xin? 等于上一狀態(tài)的輸入和輸出的和,當(dāng)n>1n>1n>1時(shí),xinx_{i}^{n}xin? 等于上一狀態(tài)(i?1i-1i?1)以及上一個(gè)網(wǎng)絡(luò)(n?1n-1n?1)的當(dāng)前狀態(tài)(iii)的級(jí)聯(lián)。iii – 狀態(tài),nnn – backbone

    4. decoder
    融合底層和高層的特征,沒(méi)有使用中間層的特征。

    三、實(shí)驗(yàn)細(xì)節(jié)

  • 輸入圖像尺寸:1024x10241024 x 10241024x1024,512x1024512 x 1024512x1024
  • 優(yōu)化方法:SGD batch size 48, momentum 0.9 weight decay 1e ? 5.
    3.損失函數(shù):交叉熵?fù)p失
  • 數(shù)據(jù)增強(qiáng): 去均值(mean suntraction),隨機(jī)垂直翻轉(zhuǎn),隨機(jī)縮放,縮放因子:[0.75,1.75],隨機(jī)裁剪
  • 四、問(wèn)題

    當(dāng)使用3個(gè)Backbone A時(shí)的mIoU比2個(gè)時(shí)小?2個(gè)Backbone A時(shí)的感受野已經(jīng)比圖像大,在增加一個(gè)Backbone,會(huì)引入噪聲。

    總結(jié)

    以上是生活随笔為你收集整理的DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation(笔记)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。