當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【图像分割模型】全局特征与局部特征的交响曲—ParseNet

發(fā)布時(shí)間：2025/3/20 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了【图像分割模型】全局特征与局部特征的交响曲—ParseNet 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這是專欄《圖像分割模型》的第7篇文章。在這里，我們將共同探索解決分割問題的主流網(wǎng)絡(luò)結(jié)構(gòu)和設(shè)計(jì)思想。

盡管多尺度融合、空洞卷積都可以增加網(wǎng)絡(luò)的感受野，但理論感受野與實(shí)際感受野仍然存在差異。那么如何真正利用圖像的全局信息呢？ParseNet告訴你。

作者 | 孫叔橋

編輯 | 言有三

本期論文《ParseNet: Looking Wider to See Better》

1 理論感受野是真的嗎？

相信通過(guò)前面幾篇介紹上下文信息整合的文章，大家已經(jīng)能夠體會(huì)到感受野對(duì)于分割網(wǎng)絡(luò)效果的影響有多么巨大了。簡(jiǎn)單來(lái)說(shuō)，感受野越大，網(wǎng)絡(luò)所能“看見”的區(qū)域就越大，從而能夠用于分析的信息就更多。由此，分割的效果也很有可能更好。

基于這種考慮，許多算法嘗試通過(guò)改變自身網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)來(lái)增大網(wǎng)絡(luò)的理論感受野，認(rèn)為這樣就能夠?yàn)榫W(wǎng)絡(luò)帶來(lái)更多的信息。盡管理論感受野的增大的確能夠增加網(wǎng)絡(luò)所獲取的上下文信息，但是，理論感受野難道真的就代表了算法實(shí)際看見的區(qū)域嗎？

在實(shí)際應(yīng)用中，許多方法的理論感受野是很大的。比如前面文章中介紹過(guò)的帶VGG的FCN網(wǎng)絡(luò)中的fc7層，其理論感受野為404x404像素。但是，實(shí)驗(yàn)卻證明，其并沒有辦法看到這么大的區(qū)域。

比如，ParseNet的作者做了這樣一個(gè)實(shí)驗(yàn)，即破壞圖像中一個(gè)隨機(jī)區(qū)域中的信息，以此來(lái)觀察網(wǎng)絡(luò)的輸出結(jié)果是否依賴于這個(gè)區(qū)域。結(jié)果如下圖所示：

從左到右分別為：圖像、熱度圖、理論感受野和實(shí)際感受野。

由此可以看出，網(wǎng)絡(luò)實(shí)際上能夠覆蓋的區(qū)域也就能達(dá)到整圖的1/4左右，遠(yuǎn)遠(yuǎn)沒有達(dá)到理論感受野的尺寸。那么究竟該如何利用全部的圖像上下文信息呢？ParseNet提出了一種融合全局信息與局部信息的方法，下面來(lái)具體介紹一下。

2 全局特征的提取與融合

如下圖所示，ParseNet通過(guò)全局池化提取圖像的全局特征，并將其與局部特征融合起來(lái)。

這種融合在過(guò)程中需要考慮兩個(gè)主要問題：融合的時(shí)機(jī)與尺度的歸一化。

(1) 融合時(shí)機(jī)

直觀上理解，全局特征與局部特征的融合可以發(fā)生在兩個(gè)節(jié)點(diǎn)：分別是訓(xùn)練分類器之前（early fusion）和訓(xùn)練分類器之后（late fusion）。其中，前者是將兩個(gè)特征融合后，作為一個(gè)整體共同送入分類網(wǎng)絡(luò)，訓(xùn)練分類器；后者則是以兩個(gè)特征為輸入，分別訓(xùn)練其對(duì)應(yīng)的分類器，最后再將分類的結(jié)果整合。

如果忽略結(jié)合特征后的訓(xùn)練過(guò)程，那么這兩種融合的時(shí)機(jī)的鮮果是差不多的。但是，在某些情況下，只有全局特征輔助下的局部特征才能夠判斷出正確的分類結(jié)果；此時(shí)，如果兩個(gè)特征分別訓(xùn)練再整合，那么這種情況下的分割損失是不可逆的，也就是說(shuō)，這些情況下的分類將不正確。

當(dāng)然，這兩種方法在實(shí)際應(yīng)用過(guò)程中是可以實(shí)現(xiàn)相似的結(jié)果的，但是late fusion需要進(jìn)行歸一化。

(2) 歸一化

如下圖所示，不同層之間的特征的尺度是不同的，而且這種不同可能很顯著。（不同顏色代表不同層上的特征）

很顯然，這些特征的尺度（scale）和范數(shù)（norm）是不同的。如果直接將這些特征級(jí)聯(lián)起來(lái)會(huì)造成大特征控制小特征，使分割效果變差。盡管在訓(xùn)練過(guò)程中，網(wǎng)絡(luò)的權(quán)重可能會(huì)對(duì)這種情況進(jìn)行調(diào)整，但是這要求非常小心的調(diào)參和數(shù)據(jù)庫(kù)選取。

因此，ParseNet利用了L2范數(shù)來(lái)歸一化特征的融合過(guò)程。具體而言，給定d維輸入x，算法通過(guò)計(jì)算其L2范數(shù)并在整個(gè)維度內(nèi)實(shí)現(xiàn)歸一化。

此外，如果只是單純地對(duì)所有輸入層進(jìn)行歸一化，不僅會(huì)減慢網(wǎng)絡(luò)的訓(xùn)練速度，同時(shí)也會(huì)改變?cè)搶拥某叨取Ｒ虼?#xff0c;還需要對(duì)其增加一個(gè)尺度參數(shù)gamma，將歸一化的結(jié)果進(jìn)行尺度縮放（縮放結(jié)果為y）。

這一過(guò)程增加的參數(shù)量等于所有的通道數(shù)之和，因此在反向傳播過(guò)程中是可以忽略的。具體的反向傳播公式如下：

3 實(shí)驗(yàn)結(jié)果

下表是ParseNet在PASCAL VOC2012下的數(shù)據(jù)結(jié)果和與其他算法的比較：

其效果與DeepLab-LargeFOV相近。

下圖是全局特征有助于分割結(jié)果的示例：

從左到右分別為：圖像、真值、對(duì)比基準(zhǔn)和ParseNet。

盡管總體而言，引入更多的上下文信息有助于分割。但是有時(shí)候，引入全局信息也可能給分類造成不好的影響，比如下圖所示，從左到右分別是原圖，真值，FCN以及ParseNet。

總結(jié)

本文我們了解了全局信息該如何使用、該注意什么問題。下篇文章我們來(lái)看看RefineNet中是如何用殘差校正進(jìn)一步提高分割效果的。今天的分享就是這樣啦，下回見。

本專欄文章：

第一期：【圖像分割模型】從FCN說(shuō)起

第二期：【圖像分割模型】編解碼結(jié)構(gòu)SegNet

第三期：【圖像分割模型】感受野與分辨率的控制術(shù)—空洞卷積

第四期：【圖像分割模型】快速道路場(chǎng)景分割—ENet

第五期：【圖像分割模型】以RNN形式做CRF后處理—CRFasRNN

第六期：【圖像分割模型】多感受野的金字塔結(jié)構(gòu)—PSPNet

第七期：【圖像分割模型】全局特征與局部特征的交響曲—ParseNet

第八期：【圖像分割模型】多分辨率特征融合—RefineNet

第九期：【圖像分割模型】用BRNN做分割—ReSeg

第十期：【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF

第十一期：【圖像分割模型】實(shí)例分割模型—DeepMask

第十二期：【圖像分割模型】全景分割是什么？

感謝各位看官的耐心閱讀，不足之處希望多多指教。后續(xù)內(nèi)容將會(huì)不定期奉上，歡迎大家關(guān)注有三公眾號(hào) 有三AI！

總結(jié)

以上是生活随笔為你收集整理的【图像分割模型】全局特征与局部特征的交响曲—ParseNet的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【图像分割模型】多感受野的金字塔结构—P
下一篇：【图像分割应用】医学图像分割（一）——脑