當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AAAI 2019 论文解读 | 基于区域分解集成的目标检测

發布時間：2024/10/8 ChatGpt 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 AAAI 2019 论文解读 | 基于区域分解集成的目标检测小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨文永亮

學校丨哈爾濱工業大學（深圳）

研究方向丨目標檢測、GAN

本文解讀的是一篇發表于 AAAI 2019 的 paper，文章提出了一種 R-DAD 的方法來對 RCNN 系列的目標檢測方法進行改進。

研究動機

目前主流的目標檢測算法分為 1 stage 和 2 stage 的，而 2 stage 的目標檢測方法以 Faster-RCNN 為代表是需要 RPN（Region Proposals Network）生成 RoI（Region of Interests，感興趣區域）的，文章認為正是因為被遮擋了的或者不精確的 Region Proposals 導致目標檢測算法的不準確。

作者的想法動機其實很簡單，就是假如一輛車的左邊被人遮擋了，那么這輛車的右邊帶來的信息其實才是更可信的。基于這個想法，文章提出 R-DAD（Region Decomposition and Assembly Detector），即區域分解組裝檢測器，來改善生成的 Region Proposals。

R-DAD的網絡結構

文章以 Faster-RCNN 的網絡結構為例，修改成它提出的 R-DAD 結構：

R-DAD 網絡架構主要分成兩個模塊 MRP 和 RDA：

1. MRP（Multi-Scale Region Proposal）模塊，用來改善 RPN 生成的 Region Proposals 的準確率。

▲?圖1.?MRP模塊，框內分別對應S=0.7,1,1.2的Region Proposals

MRP 表面意思就是生成多尺度的 Region Proposal，方法很簡單，就是使用傳統的 RPN 生成一些建議框，然后用不同的縮放因子（文章使用了 5 種縮放因子作為一組 s=[0.5,0.7,1,1.2,1.5]）對生成出的建議框進行不同比例的縮小放大，從而提高 Region Proposals 的多樣性。

如圖一，生成了不同尺度的區域，有一些僅僅是局部有一些是大于目標本身的，但是這也帶來了一個問題，就是原來的 Region Proposals 已經可以說是極大的數量了，再乘以五倍，想要網絡能夠完全利用這些建議框是不切實際的，作者最后還添加了 RoI 的采樣層，對分數低的和跟 ground truth 重疊率低的進行了篩選。?

由 MRP 網絡生成的各種 Region Proposals 可以進一步適應目標之間因為空間變化所導致的特征變化，提高結構的魯棒性。?

2. RDA（Region Decomposition and Assembly）模塊，作者也稱它為 mutil-region-based appearance model，即基于多區域的外觀模型，它可以同時描述一個物體的全局外觀和局部外觀，RDA 分為目標分解和目標區域集成的兩部分，目標分解如圖二所示，把一個目標分為上下左右四個方向的分解部分。

一般會先用線性插值兩倍上采樣之后再分解，后面作者給出了表格表示這樣效果更好。左右剛好是特征圖的左右一半，上下也同理，都會送入 RAB 模塊，RAB 模塊如圖三所示：

▲?圖3. RAB模塊

其實就是下面這個函數：

其中 p 代表著上下左右的每一個部分或者組合后的部分如左-右 (l/r)、下-上 (b/u) 和 comb（l/r 與 b/u 的組合），*是卷積操作，f() 是 ReLU 單元。最后再取 max，是為了融合和的信息，生成同樣大小的。

最后就是代表著全局信息的 scale 為 1 生成的 Region Proposals，一起送進 RAB 模塊。這樣整個網絡結構就可以做到既捕捉到局部信息的同時，也不丟失全局信息。?

RAB 模塊是一個類似 maxout 的單元，理論上它可以逼近任何連續的函數，所以我們使用 RAB 而不是直接使用 ReLU。這表明可以通過配置不同的分層地組合 RAB 模塊來表示各種各樣的目標特征。

損失函數

對每一個框 (box) d，我們都會通過 IoU 篩選出跟 GT (ground truth) 最匹配的 d*，如果 d 跟任何的 d* 的 IoU 超過 0.5，給予正標簽，若在 0.1 到 0.5 之間的，給予負標簽。R-DAD 的輸出層對每一個框 d 都有四個參數化坐標和一個分類標簽。對于 box regression 來說，我們與以往目標檢測的參數化一致如下：

同理，是用來評估預測框和 GT 的差距的。?

跟訓練 RPN 網絡相似，R-DAD 也需要最小化分類損失和回歸損失，如下：

實驗結果

文章中做了各種設置的組合，關于 MRP 里縮放因子的組合、是否有 RDA 模塊以及是否上采樣，得分如下表所示：

與 Faster-RCNN 對比，作者使用了 VOC07trainval 和 VOC12trainval 數據集訓練，再在 VOC07test 上測試，并且用了不同的特征提取器（VGG、ZF、Res101），得分均比 Faster-RCNN 高。

在速度方面均比 Faster-RCNN 慢。

與沒有上下區域分解集成的 R-DAD 對比，有上下分解集成的誤判率低很多，因為它在復雜情形下被遮擋物體會更有選擇地相信得到的信息。

R-DAD的優點

1. 文章提出因為我們最大化目標在橫向空間位置上局部特征的語義響應，與使用支持小區域的最大池化相比，在沒有深層次結構的情況下，我們可以改善特征位置的空間不變性。我的理解就是作者取了上下左右四個方向的特征模板，最后對四個方向進行了融合語義信息，利用了橫向空間上的空間不變性，揭示了不同方向上的語義關系。?

2. 在復雜場景下，如有目標對象被另一目標對象遮擋時，通過左右上下模板篩選出來的特征是更符合真實場景的，這樣的 Region Proposals 也更加可信。?

3. 同時描述了全局特征和局部特征的語義信息，在 RAB 的組裝上具有很強的可操作性，通過配置分層式地組裝 RAB 模塊，以及修改特征模板，特征的表達會更加靈活。

點評

這個區域分解集成的算法令我覺得跟以前傳統的人臉識別算法提取 Haar-like 特征有點異曲同工之處，同樣都是把特征圖分成上下兩部分，然后做特征提取操作，都是定義了特定的特征模板，這就很容易理解為什么作者要做 multi scale 的操作了，因為在以前使用 Haar/SIFT/HoG 的時候，往往都需要使用 muti scale 來檢測。?

但是 R-DAD 為什么對特征只分成上下各一半，左右各一半這種特征模板，文章并沒有給出令人信服的理由。盡管如此，這也是一個對目標檢測的改進方向，通過 MRP 和 RDA 模塊代替了之前的單純的 RPN 網絡，而且在不使用 FPN (Feature Pyramid Networks) 的情況下取得了不錯的 mAP，這樣看來 R-DAD 是 2 stage 目標檢測系列的另一種技巧，綜合了橫向空間上的語義信息。

點擊以下標題查看更多往期內容：?

Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述：模型與應用
近期值得讀的10篇GAN進展論文
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
深度思考 | 從BERT看大規模數據的無監督利用
AI Challenger 2018 機器翻譯參賽總結
小米拍照黑科技：基于NAS的圖像超分辨率算法
異構信息網絡表示學習論文解讀
不懂Photoshop如何P圖？交給深度學習吧

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？?答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

??來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 獲取最新論文推薦

總結

以上是生活随笔為你收集整理的AAAI 2019 论文解读 | 基于区域分解集成的目标检测的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：仅剩3天 | 带学《百面机器学习》葫芦书
下一篇：巧断梯度：单个loss实现GAN模型（附