目标又多又密?多轮迭代的方式进行密集目标检测
點擊上方“AI搞事情”關(guān)注我們
?
論文:IterDet: Iterative Scheme for ObjectDetection in Crowded Environments
代碼:https://github.com/saic-vul/iterdet
簡介
2020年5月莫斯科三星AI研究院提出的文章,針對密集目標(biāo)進(jìn)行檢測,密集目標(biāo)檢測的難點在于既要檢測出不同的目標(biāo),又要抑制重復(fù)目標(biāo)框的產(chǎn)生。作者提出了一種「迭代檢測」的方案,不論單步檢測器還是多步檢測器,只需要在訓(xùn)練和推理上做很少的修改,就能簡單高效地檢測出密集目標(biāo)。
迭代檢測,不用保證每次迭代的召回率,早期,檢測部分目標(biāo)子集,后期將檢測的結(jié)果和圖像再一次輸入網(wǎng)絡(luò),使檢出的目標(biāo)不再被檢測到,迭代檢測出復(fù)雜的目標(biāo)子集。
黃色框為二次迭代檢測結(jié)果方法
模型結(jié)構(gòu)如何迭代
,輸入圖像:,history map?為空,檢測器? 將輸入和映射為一系列邊框。
「history map 映射方式」:每個像素點的目標(biāo)個數(shù)。?
,輸入圖像:,history map? 由映射而得,檢測器將輸入和映射為一系列邊框;
結(jié)束標(biāo)志:以此類推,直到達(dá)到迭代次數(shù)或當(dāng)前迭代未檢測到新目標(biāo),即時,結(jié)束迭代。
那么最后的檢測結(jié)果就是每次迭代檢測出的目標(biāo)的全集,即:
要想實現(xiàn)上述方案,有兩點必須解決:1)如何將一個檢測器轉(zhuǎn)換為對歷史檢測敏感的新檢測器;2)如何讓新檢測器在不同的迭代下檢測出不同的目標(biāo)子集。
訓(xùn)練過程
隨機(jī)地將標(biāo)注目標(biāo)框分為:和兩個集合,且,將制作為history map?,使得模型訓(xùn)練來利用已有的目標(biāo)框信息,預(yù)測缺失的目標(biāo)框集合,同時,通過不同隨機(jī)劃分和,還可以達(dá)到了數(shù)據(jù)增強(qiáng)的效果。
數(shù)據(jù)集:
AdaptIS:包含兩個子集Toy V1和Toy V2,用于實力分割任務(wù)而生成的數(shù)據(jù)集,現(xiàn)有標(biāo)注可以使其用于目標(biāo)檢測,且每張圖片平均有30個目標(biāo),大部分有重疊情況,絕對是一個密集目標(biāo)檢測的數(shù)據(jù)集。
「Toy V1」:訓(xùn)練集、驗證集分別有2000和10000張圖像,大小為:96×96。
「Toy V2」:訓(xùn)練集、驗證集和測試集分別有25000, 1000和1000張,圖片大小為128×128。
「CrowdHuman」:訓(xùn)練集、驗證集和測試集分別有15000, 4370和5000張圖片,平均每張圖的人物數(shù)量達(dá)到了22.64個,遠(yuǎn)大于其他主流的人體檢測數(shù)據(jù)集,其中,每個目標(biāo)有三個標(biāo)注框:full body, visible body 和 head。官網(wǎng):www.crowdhuman.org
同人體檢測數(shù)據(jù)集的容量、密度和多樣性 (為了公平比較,只顯示訓(xùn)練子集的統(tǒng)計信息)圖片樣例「WiderPerson」:訓(xùn)練集、驗證集和測試集分別有8000,1000和4382張圖片,共5個類別:pedestrians, riders, partially visible persons, crowd 和 ignored regions。作者在訓(xùn)練和測試時,將后四類合并為了一類。
官網(wǎng):www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson
實現(xiàn)細(xì)節(jié)
采用香港中文大學(xué)-商湯科技聯(lián)合實驗室開源的基于Pytorch實現(xiàn)的深度學(xué)習(xí)目標(biāo)檢測工具箱mmdetection,倉庫地址:
https://github.com/open-mmlab/mmdetection
,預(yù)訓(xùn)練模型包含單步檢測器的RetinaNet和兩步檢測器FasterRCNN,兩者的BackBone均采用ResNet-50的默認(rèn)訓(xùn)練參數(shù),優(yōu)化器采用Adam,學(xué)習(xí)率learning rate為0.0001 。
此外,作者修改了兩個個地方:1)FPN中每個卷積層之后添加了Batch Normalization;2)未凍結(jié)ResNet的第一個block,因為在這個block之前添加了歷史映射和可訓(xùn)練的卷積層。
實驗指標(biāo)與結(jié)果如下:
搞事情
今年5月,2020 CrowdHuman人體檢測大賽啟動上線,本屆比賽是CrowdHuman人體檢測賽的第二期,數(shù)據(jù)集應(yīng)該就是論文中的CrowdHuman數(shù)據(jù)集。官方基于上述論文方法公布了baseline,具體可見:【Ranking第7名,2020 CrowdHuman大賽Baseline發(fā)布】
git地址:https://github.com/thuwyh/BAAI-2020-CrowdHuman-Baseline
一些檢測結(jié)果:
往期推薦
DeepHSV:號稱可以商用的計算機(jī)筆跡鑒別算法
CVPR 2019筆跡識別論文:逆鑒別網(wǎng)絡(luò)+八路Attention
PolarMask:單階段實例分割框架,FCOS進(jìn)階!
真正意義的Anchor-Free,FCOS目標(biāo)檢測算法了解一下
眨眼算什么,讓蒙娜麗莎像你一樣嘮上嗑才算硬核
抖音同款白眼特效,DeepWarp讓蒙拉麗莎對你眨眨眼
長按二維碼關(guān)注我們
有趣的靈魂在等你
總結(jié)
以上是生活随笔為你收集整理的目标又多又密?多轮迭代的方式进行密集目标检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 利用python分析了下乘风破浪的姐姐
- 下一篇: ECCV 2018 | CornerNe