圆形的CNN卷积核?华中科大清华黄高团队康奈尔提出圆形卷积,进一步提升卷积结构性能!
作者丨小馬
編輯丨極市平臺(tái)
寫在前面
目前正常卷積的感受野大多都是一個(gè)矩形的,因?yàn)榫匦胃欣趦?chǔ)存和計(jì)算數(shù)據(jù)的方便。但是,人類視覺系統(tǒng)的感受野更像是一個(gè)圓形的。因此,作者就提出,能不能將CNN卷積核的感受野也變成圓形呢?作者通過(guò)一系列實(shí)驗(yàn),發(fā)現(xiàn)了圓形的卷積核確實(shí)比方形的卷積效果會(huì)更好。基于此,作者在本文中提出了一種卷積核大小可變的并且聚合了方形和圓形特點(diǎn)的集成卷積核。作者在模型訓(xùn)練結(jié)束后,采用了一種重參數(shù)的方法對(duì)模型的結(jié)構(gòu)和參數(shù)進(jìn)行修改,使得模型在inference的時(shí)候并沒有引入額外的參數(shù)量和計(jì)算量。最終作者在分類任務(wù)的三個(gè)數(shù)據(jù)集ImageNet、CIFAR-10、CIFAR-100上進(jìn)行了測(cè)試,發(fā)現(xiàn)了新的卷積核能夠有比較大的性能提升(在MobileNetV3-Small上提高了5.20%的top-1準(zhǔn)確率,在MobileNetV3-Large上提高了2.16%的top-1準(zhǔn)確率)。
剛剛搜索了一下人的視野范圍是什么形狀的。發(fā)現(xiàn)其實(shí)人眼的感受野也不是圓形的,而是一個(gè)橢圓形的。類似下面的這樣:
(圖片來(lái)自學(xué)習(xí)強(qiáng)國(guó)app慕課中的“高維看世界”)
好奇之后會(huì)不會(huì)有工作進(jìn)行了提出一個(gè)橢圓形的卷積核。除此之外,人眼的感知除了“上下左右”,還有“前后”。之后會(huì)不會(huì)有人提出一個(gè)帶深度的卷積核(比如橢球形狀的卷積核)。目前的卷積在通道維度上都是進(jìn)行非常充分的建模,導(dǎo)致在通道維度上的建模很多時(shí)候是冗余的(這一點(diǎn)Involution[1]中也有提到),所以說(shuō)不定用一個(gè)帶“深度”信息的卷積核,只對(duì)相鄰?fù)ǖ佬畔⑦M(jìn)行建模,反而能夠提升模型的泛化能力。
1. 論文和代碼地址
Integrating Circle Kernels into Convolutional Neural Networks
論文地址:https://arxiv.org/abs/2107.02451
代碼地址:未開源
2. Motivation
從LeNet開始,矩形的卷積核一直都是CNN的標(biāo)配。在這期間也有一些工作研究了可變形的卷積,但是,雖然可變形的卷積能夠提高模型的performance,但是不可避免的引入了額外的參數(shù)和計(jì)算量。
因此,受人眼視覺系統(tǒng)感受野的啟發(fā),作者就想能不能提出一個(gè)圓形的卷積操作,相比于矩形的卷積,圓形的卷積核主要有以下幾個(gè)優(yōu)點(diǎn):
1) 圓形卷積核的感受野和生物視覺的感受野更加相似;
2) 卷積核的感受野通常應(yīng)該是各個(gè)方向都是對(duì)稱的,這樣可以適應(yīng)全局或者局部輸入特征在不同方向上的信息變化,圓形卷積核具備這個(gè)性質(zhì),但是矩形卷積核只在固定的幾個(gè)方向是對(duì)稱的;
3)之前也有工作表明,矩形卷積核的有效感受野更加接近圓形的高斯分布,因此,為什么不直接用一個(gè)圓形的卷積核呢?
在構(gòu)造圓形卷積核時(shí),由于感受野上的一些點(diǎn)通常不在網(wǎng)格上,因此作者采用雙線性插值進(jìn)行逼近,并提取了相應(yīng)的變換矩陣。
最終,作者并沒有采用了單獨(dú)的圓形卷積,而是采用一種圓形和方形集成的卷積,并在訓(xùn)練過(guò)程中采用自適應(yīng)的卷積核大小(也就是說(shuō),每個(gè)集成的卷積核都有一對(duì)方核和圓核。這兩個(gè)核共享權(quán)值矩陣,但有不同的變換矩陣 )。
最終作者在分類任務(wù)的三個(gè)數(shù)據(jù)集ImageNet,CIFAR-10,CIFAR-100上做了實(shí)驗(yàn),在不同baseline結(jié)構(gòu)上,方形和圓形集成的卷積核相比于baseline都有明顯的性能提升。
3. 方法
3.1. 圓形卷積核 VS 方形卷積核
圓形卷積核(b)和方形卷積核(a)如上圖所示
對(duì)于一個(gè)3x3的方形卷積,可以用下面的公式表示(對(duì)感受野內(nèi)的特征進(jìn)行加權(quán)求和):
對(duì)于半徑為1的圓形卷積,可以被建模成下面的公式:
由于圓核的接受場(chǎng)包含不是整數(shù)的位置,所以作者使用了雙線性插值獲取相應(yīng)的采樣值:
因此,將上面的兩個(gè)公式進(jìn)行結(jié)合,我們就可以得到下面統(tǒng)一的圓形卷積核的公式:
(注意,這里的圓形的卷積核的公式看上去比較復(fù)雜,但其實(shí)由于乘法的結(jié)合律,這里的矩陣WWW和BBB其實(shí)是可以合成一個(gè)新的矩陣的,所以在測(cè)試的時(shí)候其實(shí)并不會(huì)引入新的計(jì)算量和參數(shù)量)
(另外,再通俗的解釋一下,這里的圓形卷積計(jì)算其實(shí)方形卷積計(jì)算是一樣的,都是對(duì)感受野內(nèi)特征信息進(jìn)行加權(quán)求和;不同的是,方形的卷積核的特征信息都可以輕松的獲得,但是圓形感受野內(nèi)的信息由于位置往往不是整數(shù),所以需要用雙線性插值的方法,計(jì)算相應(yīng)位置的特征值)
3.2. 集成圓形卷積核和方形卷積核
在本文中,作者并沒有單獨(dú)的使用圓形或者方形的卷積,而是對(duì)這兩個(gè)卷積進(jìn)行了集成。
每個(gè)集成的卷積核都有兩種感受野(圓形和方形)。訓(xùn)練時(shí),每層的所有卷積核都隨機(jī)選擇的圓形或者方形的卷積核進(jìn)行訓(xùn)練。所以,一個(gè)集成核的感受野是一個(gè)伯努利隨機(jī)變量E~Ber(S,R;0.5)E ~ Ber(S, R; 0.5)E~Ber(S,R;0.5),集成核的輸出卷積結(jié)構(gòu)可以被表示成:
由于每一層都有兩種卷積方式,并且在訓(xùn)練的時(shí)候,每一層的卷積都會(huì)隨機(jī)選擇這兩種卷積中的任意一種,所以對(duì)于L層,就有2L2^L2L中不同的子網(wǎng)絡(luò)結(jié)構(gòu)。(這一步隨機(jī)選擇也是大大提高了模型的學(xué)習(xí)空間 )
3.3. 可學(xué)習(xí)大小的卷積核
不同感受野大小的圓形和方形卷積核如上圖所示。在訓(xùn)練時(shí),作者采用了一個(gè)可學(xué)習(xí)的參數(shù)aaa動(dòng)態(tài)控制了卷積核感受野的大小。
方形卷積核的感受野為Ds=aSD_s=aSDs?=aS,圓形卷積核的感受野為Dc=aRD_c=aRDc?=aR。由于在訓(xùn)練過(guò)程中,卷積核的形狀是隨機(jī)選擇的,所以訓(xùn)練過(guò)程的感受野大小也符合伯努利分布Dc=aRD_c=aRDc?=aR。
3.4. 測(cè)試時(shí)重參數(shù)
卷積的過(guò)程可以用下面的公式表示:
上面也提到了BBB在訓(xùn)練完成后其實(shí)是一個(gè)固定的矩陣,由于乘法的結(jié)合律,其實(shí)是可以將BBB矩陣的參數(shù)和WWW的參數(shù)進(jìn)行合并(類似兩個(gè)FC變成一個(gè)FC)。可以在推理之前保存由轉(zhuǎn)換矩陣重參數(shù)后的新權(quán)重,模型就不再需要根據(jù)測(cè)試的偏移量逐點(diǎn)進(jìn)行特征映射。
3.5. Integrated Kernels
對(duì)于一個(gè)正常的卷積,他的所有參數(shù)都是靜態(tài),可以被表示成:
帶有自適應(yīng)參數(shù)的卷積可以被表示成:
其中$ \hat{\theta}$表示動(dòng)態(tài)自適應(yīng)的參數(shù)。
本文的訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)如上圖所示,本文模型的輸出結(jié)果可以被表示成:
其中Mul()Mul()Mul()是一個(gè)多重伯努利分布,因?yàn)槊恳粚拥木矸e過(guò)程都是隨機(jī)的,每一層隨機(jī)從N中卷積方式里選擇一種,對(duì)于L層,就有NLN^LNL種不同的組合方式。
4.實(shí)驗(yàn)
4.1. Circle Kernels VS Square Kernels
如上圖所示,感受野越大,圓形卷積的感受野就更像一個(gè)圓形
如上表所示,作者在WRNCifar和DenseNetCifar上做了實(shí)驗(yàn)。隨著卷積核大小的增加,圓核比方核的優(yōu)勢(shì)變得更加顯著,表明了圓核的優(yōu)越性。
4.2. Comparison on CIFAR Datasets
XXX-Int-SC-F表示具有固定大小的方形和圓核,XXX-Int-SC-L表示具有可學(xué)習(xí)大小的方形和圓核。
可以看出,在沒有數(shù)據(jù)增強(qiáng)的情況下,方核和圓核的方法相較于baseline都有性能的提升,并且可學(xué)習(xí)大小的集成核在性能上表現(xiàn)最好。
4.3. Comparison on ImageNet
在ImageNet上,作者基于MobileNet和ResNet進(jìn)行了實(shí)驗(yàn)。可以看出,圓核的方法會(huì)比方核的性能要更好。總體來(lái)說(shuō),可以學(xué)習(xí)的圓核和方核在性能上表現(xiàn)會(huì)更好一些。
4.4. Ablation Studies
作者進(jìn)一步探究了不同核的數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響。在沒有數(shù)據(jù)增強(qiáng)的情況下,隨著集成核數(shù)量的增加,模型性能表現(xiàn)出不斷增長(zhǎng)的趨勢(shì)。在有數(shù)據(jù)增強(qiáng)的情況下,圓核并沒有展現(xiàn)出性能的提升。
4.5. 可視化
可以看出圓核的可視化結(jié)果明顯比方核會(huì)更加精細(xì)、更容易區(qū)分物體、更加關(guān)注在圖片的主體內(nèi)容上。
5. 總結(jié)
基于人類的視覺感知原理,作者提出了一種更接近人類視覺感受的卷積核——圓形卷積核,作者也通過(guò)實(shí)驗(yàn)證明了,在沒有數(shù)據(jù)增強(qiáng)的情況下,圓形卷積核的表現(xiàn)確實(shí)比方形卷積核要好。但是有了數(shù)據(jù)增強(qiáng)之后,圓形卷積核的性能并沒有提升,反而下降了。更重要的一點(diǎn)是,沒有數(shù)據(jù)增強(qiáng)集成核的性能也沒有比用了數(shù)據(jù)增強(qiáng)方核性能要好,這就表明了,圓核帶來(lái)的效益沒有數(shù)據(jù)增強(qiáng)帶來(lái)的效益高,而且圓核的效益不能和數(shù)據(jù)增強(qiáng)的效益兼容。
所以本質(zhì)上,這篇工作只是在這個(gè)方向上開了一個(gè)頭,還有很多工作可以基于本文繼續(xù)開拓。另外,個(gè)人覺得,由于圓形卷積核在各個(gè)方向都是對(duì)稱的,所以相比于方形卷積核,圓形確實(shí)更適合作為感受野的形狀。
參考文獻(xiàn)
[1]. Li, Duo, et al. “Involution: Inverting the inherence of convolution for visual recognition.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . 2021.
[2]. Wenjie Luo, Yujia Li, Raquel Urtasun, and Richard Zemel. Understanding the effective receptive field in
deep convolutional neural networks. In Advances in Neural Information Processing Systems, volume 29,
pages 4898–4906, 2016.
總結(jié)
以上是生活随笔為你收集整理的圆形的CNN卷积核?华中科大清华黄高团队康奈尔提出圆形卷积,进一步提升卷积结构性能!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Multi-Scale Densenet
- 下一篇: CVPR 2021 Short-vide