當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR2022 | 重新审视池化：你的感受野不是最理想的

發(fā)布時間：2024/1/8 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR2022 | 重新审视池化：你的感受野不是最理想的小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言?本文提出了一種簡單而有效的動態(tài)優(yōu)化池操作（ Dynamically Optimized Pooling operation），稱為DynOPool，它通過學(xué)習(xí)每一層感受野的最佳大小和形狀來優(yōu)化特征映射的端到端比例因子。
深度神經(jīng)網(wǎng)絡(luò)中任何類型的調(diào)整大小模塊都可以用DynOPool操作以最小的成本替換。此外，DynOPool通過引入一個限制計算成本的附加損失項來控制模型的復(fù)雜性。

論文：https://arxiv.org/abs/2205.15254

代碼：未發(fā)布

背景

盡管深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺、自然語言處理、機(jī)器人、生物信息學(xué)等各種應(yīng)用中取得了前所未有的成功，但最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計仍然是一個具有挑戰(zhàn)性的問題。而感受野的大小和形狀決定了網(wǎng)絡(luò)如何聚集本地信息，并對模型的整體性能產(chǎn)生顯著影響。神經(jīng)網(wǎng)絡(luò)中的許多組成部分，例如用于卷積和池化運(yùn)算的內(nèi)核大小和步長，都會影響感受野的配置。然而，它們?nèi)匀灰蕾囉诔瑓?shù)，現(xiàn)有模型的感受野會導(dǎo)致形狀和大小不理想。

本文通過介紹固定大小和形狀的傳統(tǒng)感受野是次優(yōu)的問題，討論了DynOPool如何通過CIFAR-100上的VGG-16玩具實驗解決這個問題。

固定大小和形狀的傳統(tǒng)感受野存在的問題：

1.不對稱分布的信息

最佳感受野形狀會根據(jù)數(shù)據(jù)集中固有的空間信息不對稱性而改變。而大多數(shù)情況下固有的不對稱性是不可測量的。此外，通常用于預(yù)處理的輸入大小調(diào)整有時也會導(dǎo)致信息不對稱。在人工設(shè)計的網(wǎng)絡(luò)中，圖像的長寬比經(jīng)常被調(diào)整以滿足模型的輸入規(guī)格。然而，這種網(wǎng)絡(luò)中的感受野不是用來處理操作的。

為了驗證所提出的方法，作者在CIFAR-stretch-V上進(jìn)行實驗，如圖1（a）所示，相較于人工設(shè)計模型，形狀通過DynOPool動態(tài)優(yōu)化的特征映射通過在水平方向上提取更具有價值的信息提高性能。

圖1 用來自CIFAR-100的三個不同的合成數(shù)據(jù)集進(jìn)行玩具實驗:

(a)隨機(jī)裁剪垂直拉伸的圖像 (b)在4×4網(wǎng)格中平鋪縮小的圖像 (c)放大縮小的圖像。

2.密集分布或稀疏分布信息

局部性是設(shè)計最優(yōu)模型的組成部分。CNN通過級聯(lián)的方式聚合局部信息來學(xué)習(xí)圖像的復(fù)雜表示。而局部信息的重要性很大程度上取決于每個圖像的屬性。例如，當(dāng)一個圖像被模糊化時，大多數(shù)有意義的微觀模式，如物體的紋理，都會被抹去。在這種情況下，最好在早期層中擴(kuò)展感受野，集中于全局信息。另一方面，如果一幅圖像在局部細(xì)節(jié)中包含大量類特定的信息，例如紋理，則識別局部信息將會更加重要。

為了驗證假設(shè)，作者構(gòu)建了CIFAR-100數(shù)據(jù)集的兩個變體，CIFAR-tile和CIFAR-large，如圖1(b)和(c)所示。作者模型在很大程度上優(yōu)于人工設(shè)計的模型。

貢獻(xiàn)

為了緩解人工構(gòu)建的體系結(jié)構(gòu)和操作的次優(yōu)性，作者提出了動態(tài)優(yōu)化池操作（DynOPool），這是一個可學(xué)習(xí)的調(diào)整大小模塊，可以替代標(biāo)準(zhǔn)的調(diào)整大小操作。該模塊為在數(shù)據(jù)集上學(xué)習(xí)的操作找到感受野的最佳比例因子，從而將網(wǎng)絡(luò)中的中間特征圖調(diào)整為適當(dāng)?shù)拇笮『托螤睢?/p>

論文的主要貢獻(xiàn)：

1、解決了深度神經(jīng)網(wǎng)絡(luò)中現(xiàn)有尺度算子依賴于預(yù)定超參數(shù)的局限性。指出了在中間特征圖中尋找最佳空間分辨率和感受野的重要性。

2、提出了一個可學(xué)習(xí)的調(diào)整尺寸大小的模塊DynOPool，它可以找到中間特征圖的最佳比例因子和感受域。DynOPool使用學(xué)習(xí)到的比例因子識別某一層的最佳分辨率和感受野，并將信息傳播到后續(xù)層，從而在整個網(wǎng)絡(luò)中實現(xiàn)規(guī)模優(yōu)化。

3、證明了在圖像分類和語義分割任務(wù)中，使用DynOPool的模型在多個數(shù)據(jù)集和網(wǎng)絡(luò)架構(gòu)上優(yōu)于基線算法。它還顯示了精度和計算成本之間的理想權(quán)衡。

方法

1.動態(tài)優(yōu)化池(DynOPool)

圖2 DynOPool中的調(diào)整大小模塊

模塊通過優(yōu)化一對輸入和輸出特征映射之間的比例因子r來優(yōu)化查詢點q的位置以及獲得中間特征映射的最佳分辨率。DynOPool在不影響其他算子的情況下，自適應(yīng)控制較深層接收域的大小和形狀。

圖3 DynOPool整個的優(yōu)化過程

針對比例因子r梯度不穩(wěn)定，會產(chǎn)生梯度爆炸導(dǎo)致訓(xùn)練過程中分辨率發(fā)生顯著變化的問題，使用a重新參數(shù)化r如下：

2.模型復(fù)雜性約束

為了最大化模型的精度，DynOPool有時會有較大的比例因子，增加了中間特征圖的分辨率。因此，為了約束計算代價，減少模型規(guī)模，引入了一個額外的損失項LGMACs，它由每次訓(xùn)練迭代t的分層GMACs計數(shù)的簡單加權(quán)和給出，如下所示:

實驗

表1 人工設(shè)計模型與使用DynOPool模型的精度(%)和GMACs比較

圖4 在VGG-16上使用人工設(shè)計的Shape Adaptor與使用DynOPool的訓(xùn)練模型可視化。

表2 在CIFAR-100數(shù)據(jù)集上DynOPool和Shape Adaptor的比較

表3 在ImageNet數(shù)據(jù)集上EfficientNet-B0+DynOPool的性能

表4 基于PascalVOC的HRNet-W48語義分割結(jié)果

結(jié)論

作者提出了一種簡單而有效的動態(tài)優(yōu)化池操作（DynOPool），它通過學(xué)習(xí)每個層中感受野的理想大小和形狀來優(yōu)化端到端的特征映射的比例因子，調(diào)整中間特征圖的大小和形狀，有效提取局部細(xì)節(jié)信息，從而優(yōu)化模型的整體性能；

DynOPool還通過引入一個額外的損失項來限制計算成本，從而控制模型的復(fù)雜性。實驗表明，在多個數(shù)據(jù)集上，該模型在圖像分類和語義分割方面均優(yōu)于基線網(wǎng)絡(luò)。

------------------------------------------------------------------------------------

CV技術(shù)指南創(chuàng)建了一個計算機(jī)視覺技術(shù)交流群和免費(fèi)版的知識星球，目前星球內(nèi)人數(shù)已經(jīng)600+，主題數(shù)量達(dá)到200+。

知識星球內(nèi)將會每天發(fā)布一些作業(yè)，用于引導(dǎo)大家去學(xué)一些東西，大家可根據(jù)作業(yè)來持續(xù)打卡學(xué)習(xí)。

技術(shù)群內(nèi)每天都會發(fā)最近幾天出來的頂會論文，大家可以選擇感興趣的論文去閱讀，持續(xù)follow最新技術(shù)，若是看完后寫個解讀給我們投稿，還可以收到稿費(fèi)。

另外，技術(shù)群內(nèi)和本人朋友圈內(nèi)也將發(fā)布各個期刊、會議的征稿通知，若有需要的請掃描加好友，并及時關(guān)注。

加群加星球方式：關(guān)注公眾號CV技術(shù)指南，獲取編輯微信，邀請加入。

歡迎關(guān)注公眾號CV技術(shù)指南，專注于計算機(jī)視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀、CV招聘信息。

征稿通知：歡迎可以寫以下內(nèi)容的朋友聯(lián)系我。（掃描這個鏈接里的二維碼）

TVM入門到實踐的教程

MNN入門到實踐的教程

數(shù)字圖像處理與Opencv入門到實踐的教程

OpenVINO入門到實踐的教程

libtorch入門到實踐的教程

Oneflow入門到實踐的教程

Detectron入門到實踐的教程

caffe源碼閱讀

pytorch源碼閱讀

深度學(xué)習(xí)從入門到精通（從卷積神經(jīng)網(wǎng)絡(luò)開始講起）

最新頂會的解讀。例如最近的CVPR2022論文。

各個方向的系統(tǒng)性綜述、主要模型發(fā)展演變、各個模型的創(chuàng)新思路和優(yōu)缺點、代碼解析等。

若自己有想寫的且這上面沒提到的，可以跟我聯(lián)系。

聲明：有一定報酬，具體請聯(lián)系詳談。若有想法寫但覺得自己能力不夠，也可以先聯(lián)系本人了解

其它文章

計算機(jī)視覺入門路線

CVPR2022 | 重新審視池化：你的感受野不是最理想的

CVPR 2022 | 未知目標(biāo)檢測模塊STUD：學(xué)習(xí)視頻中的未知目標(biāo)

CVPR2022 | 基于排名的siamese視覺跟蹤

CVPR2022 | 通過目標(biāo)感知Transformer進(jìn)行知識蒸餾

CVPR2022丨無監(jiān)督預(yù)訓(xùn)練下的視頻場景分割

從零搭建Pytorch模型教程（六）編寫訓(xùn)練過程和推理過程

從零搭建Pytorch模型教程（五）編寫訓(xùn)練過程--一些基本的配置

從零搭建Pytorch模型教程（四）編寫訓(xùn)練過程--參數(shù)解析

從零搭建Pytorch模型教程（三）搭建Transformer網(wǎng)絡(luò)

從零搭建Pytorch模型教程（二）搭建網(wǎng)絡(luò)

從零搭建Pytorch模型教程（一）數(shù)據(jù)讀取

一份熱力圖可視化代碼使用教程

一份可視化特征圖的代碼

關(guān)于快速學(xué)習(xí)一項新技術(shù)或新領(lǐng)域的一些個人思維習(xí)慣與思想總結(jié)

總結(jié)

以上是生活随笔為你收集整理的CVPR2022 | 重新审视池化：你的感受野不是最理想的的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：微信小程序3天刷量开流量主
下一篇： Unity 3D鼠标操作实现旋转、缩放观