日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【图像分割模型】全局特征与局部特征的交响曲—ParseNet

發(fā)布時(shí)間:2025/3/20 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【图像分割模型】全局特征与局部特征的交响曲—ParseNet 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這是專欄《圖像分割模型》的第7篇文章。在這里,我們將共同探索解決分割問題的主流網(wǎng)絡(luò)結(jié)構(gòu)和設(shè)計(jì)思想。

盡管多尺度融合、空洞卷積都可以增加網(wǎng)絡(luò)的感受野,但理論感受野與實(shí)際感受野仍然存在差異。那么如何真正利用圖像的全局信息呢?ParseNet告訴你。

作者 | 孫叔橋

編輯 | 言有三

本期論文《ParseNet: Looking Wider to See Better》

?

1 理論感受野是真的嗎?

相信通過(guò)前面幾篇介紹上下文信息整合的文章,大家已經(jīng)能夠體會(huì)到感受野對(duì)于分割網(wǎng)絡(luò)效果的影響有多么巨大了。簡(jiǎn)單來(lái)說(shuō),感受野越大,網(wǎng)絡(luò)所能“看見”的區(qū)域就越大,從而能夠用于分析的信息就更多。由此,分割的效果也很有可能更好。

基于這種考慮,許多算法嘗試通過(guò)改變自身網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)來(lái)增大網(wǎng)絡(luò)的理論感受野,認(rèn)為這樣就能夠?yàn)榫W(wǎng)絡(luò)帶來(lái)更多的信息。盡管理論感受野的增大的確能夠增加網(wǎng)絡(luò)所獲取的上下文信息,但是,理論感受野難道真的就代表了算法實(shí)際看見的區(qū)域嗎?

在實(shí)際應(yīng)用中,許多方法的理論感受野是很大的。比如前面文章中介紹過(guò)的帶VGG的FCN網(wǎng)絡(luò)中的fc7層,其理論感受野為404x404像素。但是,實(shí)驗(yàn)卻證明,其并沒有辦法看到這么大的區(qū)域。

比如,ParseNet的作者做了這樣一個(gè)實(shí)驗(yàn),即破壞圖像中一個(gè)隨機(jī)區(qū)域中的信息,以此來(lái)觀察網(wǎng)絡(luò)的輸出結(jié)果是否依賴于這個(gè)區(qū)域。結(jié)果如下圖所示:

?

從左到右分別為:圖像、熱度圖、理論感受野和實(shí)際感受野。

由此可以看出,網(wǎng)絡(luò)實(shí)際上能夠覆蓋的區(qū)域也就能達(dá)到整圖的1/4左右,遠(yuǎn)遠(yuǎn)沒有達(dá)到理論感受野的尺寸。那么究竟該如何利用全部的圖像上下文信息呢?ParseNet提出了一種融合全局信息與局部信息的方法,下面來(lái)具體介紹一下。

?

2 全局特征的提取與融合

如下圖所示,ParseNet通過(guò)全局池化提取圖像的全局特征,并將其與局部特征融合起來(lái)。

?

這種融合在過(guò)程中需要考慮兩個(gè)主要問題:融合的時(shí)機(jī)與尺度的歸一化。

(1) 融合時(shí)機(jī)

直觀上理解,全局特征與局部特征的融合可以發(fā)生在兩個(gè)節(jié)點(diǎn):分別是訓(xùn)練分類器之前(early fusion)和訓(xùn)練分類器之后(late fusion)。其中,前者是將兩個(gè)特征融合后,作為一個(gè)整體共同送入分類網(wǎng)絡(luò),訓(xùn)練分類器;后者則是以兩個(gè)特征為輸入,分別訓(xùn)練其對(duì)應(yīng)的分類器,最后再將分類的結(jié)果整合。

如果忽略結(jié)合特征后的訓(xùn)練過(guò)程,那么這兩種融合的時(shí)機(jī)的鮮果是差不多的。但是,在某些情況下,只有全局特征輔助下的局部特征才能夠判斷出正確的分類結(jié)果;此時(shí),如果兩個(gè)特征分別訓(xùn)練再整合,那么這種情況下的分割損失是不可逆的,也就是說(shuō),這些情況下的分類將不正確。

當(dāng)然,這兩種方法在實(shí)際應(yīng)用過(guò)程中是可以實(shí)現(xiàn)相似的結(jié)果的,但是late fusion需要進(jìn)行歸一化。

(2) 歸一化

如下圖所示,不同層之間的特征的尺度是不同的,而且這種不同可能很顯著。(不同顏色代表不同層上的特征)

很顯然,這些特征的尺度(scale)和范數(shù)(norm)是不同的。如果直接將這些特征級(jí)聯(lián)起來(lái)會(huì)造成大特征控制小特征,使分割效果變差。盡管在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)的權(quán)重可能會(huì)對(duì)這種情況進(jìn)行調(diào)整,但是這要求非常小心的調(diào)參和數(shù)據(jù)庫(kù)選取。

?

因此,ParseNet利用了L2范數(shù)來(lái)歸一化特征的融合過(guò)程。具體而言,給定d維輸入x,算法通過(guò)計(jì)算其L2范數(shù)并在整個(gè)維度內(nèi)實(shí)現(xiàn)歸一化。

此外,如果只是單純地對(duì)所有輸入層進(jìn)行歸一化,不僅會(huì)減慢網(wǎng)絡(luò)的訓(xùn)練速度,同時(shí)也會(huì)改變?cè)搶拥某叨取R虼?#xff0c;還需要對(duì)其增加一個(gè)尺度參數(shù)gamma,將歸一化的結(jié)果進(jìn)行尺度縮放(縮放結(jié)果為y)。

這一過(guò)程增加的參數(shù)量等于所有的通道數(shù)之和,因此在反向傳播過(guò)程中是可以忽略的。具體的反向傳播公式如下:

?

?

3 實(shí)驗(yàn)結(jié)果

下表是ParseNet在PASCAL VOC2012下的數(shù)據(jù)結(jié)果和與其他算法的比較:

?

其效果與DeepLab-LargeFOV相近。

下圖是全局特征有助于分割結(jié)果的示例:

?

從左到右分別為:圖像、真值、對(duì)比基準(zhǔn)和ParseNet。

盡管總體而言,引入更多的上下文信息有助于分割。但是有時(shí)候,引入全局信息也可能給分類造成不好的影響,比如下圖所示,從左到右分別是原圖,真值,FCN以及ParseNet。

?

?

總結(jié)

本文我們了解了全局信息該如何使用、該注意什么問題。下篇文章我們來(lái)看看RefineNet中是如何用殘差校正進(jìn)一步提高分割效果的。今天的分享就是這樣啦,下回見。

本專欄文章:

第一期:【圖像分割模型】從FCN說(shuō)起

第二期:【圖像分割模型】編解碼結(jié)構(gòu)SegNet

第三期:【圖像分割模型】感受野與分辨率的控制術(shù)—空洞卷積

第四期:【圖像分割模型】快速道路場(chǎng)景分割—ENet

第五期:【圖像分割模型】以RNN形式做CRF后處理—CRFasRNN

第六期:【圖像分割模型】多感受野的金字塔結(jié)構(gòu)—PSPNet

第七期:【圖像分割模型】全局特征與局部特征的交響曲—ParseNet

第八期:【圖像分割模型】多分辨率特征融合—RefineNet

第九期:【圖像分割模型】用BRNN做分割—ReSeg

第十期:【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF

第十一期:【圖像分割模型】實(shí)例分割模型—DeepMask

第十二期:【圖像分割模型】全景分割是什么?

感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內(nèi)容將會(huì)不定期奉上,歡迎大家關(guān)注有三公眾號(hào) 有三AI

?

總結(jié)

以上是生活随笔為你收集整理的【图像分割模型】全局特征与局部特征的交响曲—ParseNet的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。