當(dāng)前位置：首頁 >

【图像分割模型】编解码结构SegNet

發(fā)布時(shí)間：2025/3/20 39 豆豆

生活随笔收集整理的這篇文章主要介紹了【图像分割模型】编解码结构SegNet 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這是專欄《圖像分割模型》的第2篇文章。在這個(gè)專欄里，我們將共同探索解決分割問題的主流網(wǎng)絡(luò)結(jié)構(gòu)和設(shè)計(jì)思想。

上篇文章我們學(xué)習(xí)了分割網(wǎng)絡(luò)鼻祖FCN，今天我們來看看用解碼器踢館的SegNet。

作者 | 孫叔橋

編輯 | 言有三

1 編解碼結(jié)構(gòu)

分割任務(wù)中的編碼器encode與解碼器decode就像是玩“你來比劃我來猜”的雙方：比劃的人想把看到的東西用一種方式描述出來，猜的人根據(jù)比劃的人提供的信息猜出答案。

其中，“比劃的人”叫做編碼器，“猜的人”就是解碼器。

具體來說，編碼器的任務(wù)是在給定輸入圖像后，通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到輸入圖像的特征圖譜；而解碼器則在編碼器提供特征圖后，逐步實(shí)現(xiàn)每個(gè)像素的類別標(biāo)注，也就是分割。

通常，分割任務(wù)中的編碼器結(jié)構(gòu)比較類似，大多來源于用于分類任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)，比如VGG。這樣做有一個(gè)好處，就是可以借用在大數(shù)據(jù)庫下訓(xùn)練得到的分類網(wǎng)絡(luò)的權(quán)重參數(shù)，通過遷移學(xué)習(xí)實(shí)現(xiàn)更好的效果。因此，解碼器的不同在很大程度上決定了一個(gè)基于編解碼結(jié)構(gòu)的分割網(wǎng)絡(luò)的效果。

SegNet就討論了這種不同，并在道路和室內(nèi)兩個(gè)場景下比較了不同解碼器下，各個(gè)算法的表現(xiàn)。

CamVid數(shù)據(jù)庫：《Semantic object classes in video: A high-definition ground truth database》

SUN RGB-D數(shù)據(jù)庫：《SUN RGB-D: A RGB-D scene understanding benchmark suite》

2 SegNet

SegNet的編碼器結(jié)構(gòu)與解碼器結(jié)構(gòu)是一一對應(yīng)的，即一個(gè)decoder具有與其對應(yīng)的encoder相同的空間尺寸和通道數(shù)。對于基礎(chǔ)SegNet結(jié)構(gòu)，二者各有13個(gè)卷積層，其中編碼器的卷積層就對應(yīng)了VGG16網(wǎng)絡(luò)結(jié)構(gòu)中的前13個(gè)卷積層。

下圖是SegNet的網(wǎng)絡(luò)結(jié)構(gòu)，其中藍(lán)色代表卷積+Batch Normalization+ReLU，綠色代表max-pooling，紅色代表上采樣，黃色是Softmax。

SegNet與FCN的對應(yīng)結(jié)構(gòu)相比，體量要小很多。這主要得益于SegNet中為了權(quán)衡計(jì)算量而采取的操作：用記錄的池化過程的位置信息替代直接的反卷積操作。具體如下圖所示。

圖中左側(cè)是SegNet使用的解碼方式，右側(cè)是FCN對應(yīng)的解碼方式。可以看到，SegNet的做法是先根據(jù)位置信息生成稀疏的特征圖，再利用后續(xù)的卷積計(jì)算恢復(fù)稠密特征圖。而FCN則直接利用反卷積操作求得上采樣后的特征圖，再將其與編碼器特征圖相加。

3 解碼器變體

前文已經(jīng)提到，編解碼結(jié)構(gòu)中，解碼器的效果和復(fù)雜程度對于整個(gè)分割網(wǎng)絡(luò)的影響是非常大的。這里我們就一起來看一下不同解碼器結(jié)構(gòu)和它們的效果。

SegNet中一共嘗試了8種不同的解碼結(jié)構(gòu)，先上結(jié)果：

這些變體共用相同的編碼器結(jié)構(gòu)，只是在解碼器結(jié)構(gòu)上有所不同。比如，將解碼器的結(jié)構(gòu)單純減少層數(shù)，改變解碼器最后一層通道數(shù)，改變編解碼器對應(yīng)結(jié)構(gòu)之間的連接方式（只連接池化信息、保留特征層內(nèi)信息或全部保留），改變采樣方式等。

除上面幾種變體外，論文中還嘗試了改變上采樣方法，或取消池化和下采樣過程，但是這些改變都沒有帶來更好的結(jié)果。

4 總結(jié)與思考

關(guān)于變體的分析，可以總結(jié)為以下三點(diǎn)：

保留編碼器所有特征圖所實(shí)現(xiàn)的效果最好，在這一點(diǎn)上語義分割邊緣輪廓描述度量（BF）體現(xiàn)最為明顯。

當(dāng)推理過程的內(nèi)存受限時(shí)，可以使用編碼器特征圖的壓縮形式（比如縮小維度、使用池化信息等），但需要搭配合適的解碼器形式（比如SegNet類型的）來提升表現(xiàn)。

在給定編碼器時(shí)，越大的解碼器效果越好。

今天的圖像分割模型到此結(jié)束，下回再見。

本專欄文章：

第一期：【圖像分割模型】從FCN說起

第二期：【圖像分割模型】編解碼結(jié)構(gòu)SegNet

第三期：【圖像分割模型】感受野與分辨率的控制術(shù)—空洞卷積

如果想加入我們，后臺(tái)留言吧

轉(zhuǎn)載文章請后臺(tái)聯(lián)系

侵權(quán)必究

感謝各位看官的耐心閱讀，不足之處希望多多指教。后續(xù)內(nèi)容將會(huì)不定期奉上，歡迎大家關(guān)注有三公眾號 有三AI！

總結(jié)

以上是生活随笔為你收集整理的【图像分割模型】编解码结构SegNet的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【图像分割模型】从FCN说起
下一篇：【图像分割模型】感受野与分辨率的控制术—

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

【图像分割模型】编解码结构SegNet

總結(jié)