日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【图像语义分割】Large Kernel Maters--Improved Semantic Segmentation by Global ConvNet

發(fā)布時間:2023/12/14 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【图像语义分割】Large Kernel Maters--Improved Semantic Segmentation by Global ConvNet 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

該篇文章是face++的文章,個人覺得相當(dāng)嚴謹

摘要:

目前流行的網(wǎng)絡(luò)架構(gòu)往往通過堆積小的卷積核(stack small filters),因為在相同計算量下,stack small filters往往比large kernel更加有效。然而在圖像語義分割這塊,我們需要做一個dense per-pixle prediction, 我們發(fā)現(xiàn)大內(nèi)核在同時實現(xiàn)localization和classification的時候能夠起到重要的作用。在這個設(shè)計原則下,我們提出了一個Global Convolutional Network來同時解決classification和localization問題。我們同時也提出了基于殘差的圖像塊來further refine the object boundaries。

正文:

先明白一點,Sementic Segment到底在做一件什么事情。實際上Sementic Segment主要是解決兩個子問題:1)classification; 2)localization
然而這兩個子問題在一定程度上存在著沖突
對于classification task來說: 我們的網(wǎng)絡(luò)模型需要一定的平移旋轉(zhuǎn)不變性
對應(yīng)localization task來說:模型需要transformation sensitive,因為我們需要對每個locate每個pixle

這里我簡單概括一下,也就是指的是classification需要大的感受野,也往往就需要小的feature map。 而localization需要一個大的feature map,因為這樣包含著更大的空域信息。因此對于Classification的網(wǎng)絡(luò)往往是錐型的,而localization的網(wǎng)絡(luò)往往是桶型的

原文原話是:

For classification, most modern frameworks such as AlexNet [20], VGG Net [30], GoogleNet [31, 32] or ResNet [14] employ the ”Cone-shaped” networks shown in Figure 1 A: features are extracted from a relatively small hidden layer, which is coarse on spatial dimensions, and classifiers are densely connected to entire feature map via fullyconnected layer [20, 30] or global pooling layer [31, 32, 14], which makes features robust to locally disturbances and allows classifiers to handle different types of input transformations For localization, in contrast, we need relatively large feature maps to encode more spatial information.

為了解決這兩個問題,本文提出了一種新的架構(gòu)稱之為:Global Convolutional Network(GCN)來同時解決這兩個問題。
本文的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計如下:
1)從localization角度來說,網(wǎng)絡(luò)層需要全卷積
2)從classification角度來說,我們采取大內(nèi)核來解決平移不變性

這里介紹幾個相關(guān)工作
1. Context Embeding,
上下文嵌入: Zoom-out 手工提取了層級上下文特征
Dialted-Net 在score map后嵌入multi-scale context
DeeplabV2 使用了Atrous Spatial Pyramid Pooling

2. Resolution Enlarging,
FCN利用了轉(zhuǎn)置卷積deconvolution
DeconvNetSegNet 引入了unpooling操作
LRR 認為unsampling上采樣特征比上采樣score更好
DeeplabDialted-Net提出了一種特殊的dilated conv來直接增大特征map的空域大小

3. Boundary Alignment,通過對預(yù)測結(jié)果進行進一步的refine。
比如Deeplab V1的CRF,及一些將CRF融入到網(wǎng)絡(luò)中的一些模型

本文方法
本文提出了Global ConvNet+Boundary Refinement

our GCN module employs a combination of 1 × k + k × 1 and k × 1 + 1 × k convolutions, which enables densely connections within a large k×k region in the feature map

Global ConvNet結(jié)構(gòu)
Specially, if the kernel size increases to the spatial size of feature map (named global convolution), the network will share the same benefit with pure classification models.
;

Boundary Refinement結(jié)構(gòu)

Experiment:

該文的實驗做的相當(dāng)全,做了各種對照實驗。

從a whole pipeline中可以看到,feature map到最后為16x16的大小,為了保證卷積核的alignment問題,核大小一般選擇奇數(shù),因此該文最大選擇15x15的kernel size。

當(dāng)然在kernel的大小選擇上,本文對各種大小的kernel進行了實驗:其中的base選擇1x1的卷積核,見Fig4(b)

該類實驗在PASCAL VOC2012上進行實驗,可以發(fā)現(xiàn),當(dāng)隨著kernel size的增大時,score也在提升。

然而第一個實驗的對照組并不能直接說明是GCN引起的性能提升,原因很簡單,GCN用了更大的核,那么會不會是參數(shù)引起的性能提升呢?因此作者做了第二組實驗。

直接拿一個kxk的kernel(見Figure4(c))來與GCN進行對比:

事實證明GCN依然比直接拿一個大kernel的性能提升要好

既然在GCN要比大kernel效果好,但是以前常規(guī)的網(wǎng)絡(luò)都是通過stack small filters來增大感受野,然而實驗證明在相同堆棧下,GCN依然比stack small filters(Figure4 D)的性能要好。

相同堆棧下,large kernel size可能會比GCN帶來更多參數(shù)。所以是不是參數(shù)量的增大而導(dǎo)致性能的下降呢?

然而事實證明performance suffers from degradation with fewer parameters。

事實上,我們已經(jīng)分析了GCN在classification這個子問題上有很好的性能,但是在localization這個sub task呢?
作者又做了幾個實驗,分開boundary和Internal兩個區(qū)域,

關(guān)于Fine-tuning和pre-trained

A為baseline,分別在ImageNet上進行預(yù)訓(xùn)練


事實證明當(dāng)有GCN的ResNet要比Baseline搞出5.5%

總結(jié):該篇文章的實驗相當(dāng)嚴謹,我認為相當(dāng)不錯

總結(jié)

以上是生活随笔為你收集整理的【图像语义分割】Large Kernel Maters--Improved Semantic Segmentation by Global ConvNet的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。