【图像分割模型】全局特征与局部特征的交响曲—ParseNet
這是專欄《圖像分割模型》的第7篇文章。在這里,我們將共同探索解決分割問題的主流網(wǎng)絡(luò)結(jié)構(gòu)和設(shè)計(jì)思想。
盡管多尺度融合、空洞卷積都可以增加網(wǎng)絡(luò)的感受野,但理論感受野與實(shí)際感受野仍然存在差異。那么如何真正利用圖像的全局信息呢?ParseNet告訴你。
作者 | 孫叔橋
編輯 | 言有三
本期論文《ParseNet: Looking Wider to See Better》
?
1 理論感受野是真的嗎?
相信通過(guò)前面幾篇介紹上下文信息整合的文章,大家已經(jīng)能夠體會(huì)到感受野對(duì)于分割網(wǎng)絡(luò)效果的影響有多么巨大了。簡(jiǎn)單來(lái)說(shuō),感受野越大,網(wǎng)絡(luò)所能“看見”的區(qū)域就越大,從而能夠用于分析的信息就更多。由此,分割的效果也很有可能更好。
基于這種考慮,許多算法嘗試通過(guò)改變自身網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)來(lái)增大網(wǎng)絡(luò)的理論感受野,認(rèn)為這樣就能夠?yàn)榫W(wǎng)絡(luò)帶來(lái)更多的信息。盡管理論感受野的增大的確能夠增加網(wǎng)絡(luò)所獲取的上下文信息,但是,理論感受野難道真的就代表了算法實(shí)際看見的區(qū)域嗎?
在實(shí)際應(yīng)用中,許多方法的理論感受野是很大的。比如前面文章中介紹過(guò)的帶VGG的FCN網(wǎng)絡(luò)中的fc7層,其理論感受野為404x404像素。但是,實(shí)驗(yàn)卻證明,其并沒有辦法看到這么大的區(qū)域。
比如,ParseNet的作者做了這樣一個(gè)實(shí)驗(yàn),即破壞圖像中一個(gè)隨機(jī)區(qū)域中的信息,以此來(lái)觀察網(wǎng)絡(luò)的輸出結(jié)果是否依賴于這個(gè)區(qū)域。結(jié)果如下圖所示:
?
從左到右分別為:圖像、熱度圖、理論感受野和實(shí)際感受野。
由此可以看出,網(wǎng)絡(luò)實(shí)際上能夠覆蓋的區(qū)域也就能達(dá)到整圖的1/4左右,遠(yuǎn)遠(yuǎn)沒有達(dá)到理論感受野的尺寸。那么究竟該如何利用全部的圖像上下文信息呢?ParseNet提出了一種融合全局信息與局部信息的方法,下面來(lái)具體介紹一下。
?
2 全局特征的提取與融合
如下圖所示,ParseNet通過(guò)全局池化提取圖像的全局特征,并將其與局部特征融合起來(lái)。
?
這種融合在過(guò)程中需要考慮兩個(gè)主要問題:融合的時(shí)機(jī)與尺度的歸一化。
(1) 融合時(shí)機(jī)
直觀上理解,全局特征與局部特征的融合可以發(fā)生在兩個(gè)節(jié)點(diǎn):分別是訓(xùn)練分類器之前(early fusion)和訓(xùn)練分類器之后(late fusion)。其中,前者是將兩個(gè)特征融合后,作為一個(gè)整體共同送入分類網(wǎng)絡(luò),訓(xùn)練分類器;后者則是以兩個(gè)特征為輸入,分別訓(xùn)練其對(duì)應(yīng)的分類器,最后再將分類的結(jié)果整合。
如果忽略結(jié)合特征后的訓(xùn)練過(guò)程,那么這兩種融合的時(shí)機(jī)的鮮果是差不多的。但是,在某些情況下,只有全局特征輔助下的局部特征才能夠判斷出正確的分類結(jié)果;此時(shí),如果兩個(gè)特征分別訓(xùn)練再整合,那么這種情況下的分割損失是不可逆的,也就是說(shuō),這些情況下的分類將不正確。
當(dāng)然,這兩種方法在實(shí)際應(yīng)用過(guò)程中是可以實(shí)現(xiàn)相似的結(jié)果的,但是late fusion需要進(jìn)行歸一化。
(2) 歸一化
如下圖所示,不同層之間的特征的尺度是不同的,而且這種不同可能很顯著。(不同顏色代表不同層上的特征)
很顯然,這些特征的尺度(scale)和范數(shù)(norm)是不同的。如果直接將這些特征級(jí)聯(lián)起來(lái)會(huì)造成大特征控制小特征,使分割效果變差。盡管在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)的權(quán)重可能會(huì)對(duì)這種情況進(jìn)行調(diào)整,但是這要求非常小心的調(diào)參和數(shù)據(jù)庫(kù)選取。
?
因此,ParseNet利用了L2范數(shù)來(lái)歸一化特征的融合過(guò)程。具體而言,給定d維輸入x,算法通過(guò)計(jì)算其L2范數(shù)并在整個(gè)維度內(nèi)實(shí)現(xiàn)歸一化。
此外,如果只是單純地對(duì)所有輸入層進(jìn)行歸一化,不僅會(huì)減慢網(wǎng)絡(luò)的訓(xùn)練速度,同時(shí)也會(huì)改變?cè)搶拥某叨取R虼?#xff0c;還需要對(duì)其增加一個(gè)尺度參數(shù)gamma,將歸一化的結(jié)果進(jìn)行尺度縮放(縮放結(jié)果為y)。
這一過(guò)程增加的參數(shù)量等于所有的通道數(shù)之和,因此在反向傳播過(guò)程中是可以忽略的。具體的反向傳播公式如下:
?
?
3 實(shí)驗(yàn)結(jié)果
下表是ParseNet在PASCAL VOC2012下的數(shù)據(jù)結(jié)果和與其他算法的比較:
?
其效果與DeepLab-LargeFOV相近。
下圖是全局特征有助于分割結(jié)果的示例:
?
從左到右分別為:圖像、真值、對(duì)比基準(zhǔn)和ParseNet。
盡管總體而言,引入更多的上下文信息有助于分割。但是有時(shí)候,引入全局信息也可能給分類造成不好的影響,比如下圖所示,從左到右分別是原圖,真值,FCN以及ParseNet。
?
?
總結(jié)
本文我們了解了全局信息該如何使用、該注意什么問題。下篇文章我們來(lái)看看RefineNet中是如何用殘差校正進(jìn)一步提高分割效果的。今天的分享就是這樣啦,下回見。
本專欄文章:
第一期:【圖像分割模型】從FCN說(shuō)起
第二期:【圖像分割模型】編解碼結(jié)構(gòu)SegNet
第三期:【圖像分割模型】感受野與分辨率的控制術(shù)—空洞卷積
第四期:【圖像分割模型】快速道路場(chǎng)景分割—ENet
第五期:【圖像分割模型】以RNN形式做CRF后處理—CRFasRNN
第六期:【圖像分割模型】多感受野的金字塔結(jié)構(gòu)—PSPNet
第七期:【圖像分割模型】全局特征與局部特征的交響曲—ParseNet
第八期:【圖像分割模型】多分辨率特征融合—RefineNet
第九期:【圖像分割模型】用BRNN做分割—ReSeg
第十期:【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF
第十一期:【圖像分割模型】實(shí)例分割模型—DeepMask
第十二期:【圖像分割模型】全景分割是什么?
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內(nèi)容將會(huì)不定期奉上,歡迎大家關(guān)注有三公眾號(hào) 有三AI!
?
總結(jié)
以上是生活随笔為你收集整理的【图像分割模型】全局特征与局部特征的交响曲—ParseNet的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【图像分割模型】多感受野的金字塔结构—P
- 下一篇: 【图像分割应用】医学图像分割(一)——脑