ICCV 2019 COCO Mapillary挑战赛冠军团队技术分享
近日,在 ICCV 2019 Workshop 舉辦的 COCO + Mapillary Joint Recognition Challenge(COCO + Mapillary 聯合挑戰賽)公布了最終結果,深蘭科技團隊 DeepBlueAI 獲得了該挑戰賽 7 大賽題中的 Mapillary Detection 賽道的冠軍。
作者丨羅志鵬
單位丨深蘭北京AI研發中心
論文動機
ICCV 的全稱是 IEEE International Conference on Computer Vision,即國際計算機視覺大會,由 IEEE 主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)并稱計算機視覺方向的三大頂級會議,被澳大利亞 ICT 學術會議排名和中國計算機學會等機構評為最高級別學術會議,在業內具有極高的評價。?
COCO + Mapillary Joint Recognition Challenge Workshop?
這個 Workshop 的目的是研究場景理解背景下的目標檢測識別,每年都會舉辦挑戰賽,堪稱 ImageNet 之后計算機視覺領域最受矚目和最具含金量的競賽。今年該挑戰賽共有 7 大賽題,分別是 COCO Detection、COCO Panoptic、COCO Keypoints、COCO DensePose、Mapillary Detection、Mapillary Panoptic 和? LVIS Challenge。?
COCO 是一種應用廣泛的視覺識別數據集,旨在促進通用物體目標檢測和實例分割的研究,重點是對復雜場景的全面理解。Mapillary-Vistas 是一個新的街道級圖像數據集,它強調對高層次語義圖像的理解,并應用于自動駕駛車輛和機器人導航。該數據集具有來自世界各地的位置,在天氣和照明條件、捕獲傳感器特性等方面具有多樣性。?
Mapillary-Vistas在數據集中方面是 COCO 的補充,可以很容易地用于研究不同于 COCO 的視覺領域中的各種識別任務。COCO 側重于自然場景的識別,而 Mapillary 側重于街景場景的識別。從去年開始,COCO 和 Mapillary 的檢測賽道(Detection)都改為實例分割(Instance Segmentation)任務,目標是同時檢測和分割每個對象實例。
賽題介紹
Mapillary Vistas Object Detection Task?
該任務強調識別靜態街道圖像對象(如路燈、標志、標桿)和動態街道參與者(如汽車、行人、自行車)的單個實例,即同時檢測和分割每個實例。這項任務旨在推動實例分割的最新進展,針對汽車或運輸機器人等自主行為主體的關鍵感知任務。這個賽道的數據集是高分辨率的街景自動駕駛場景的圖片,其中訓練集 18000 張,驗證集 2000 張和測試集 5000 張,賽題主要關注的 37 個對象類別包括汽車、行人、自行車、路燈、標志、標桿等等。
評測指標
和 COCO 數據集的評估方案一樣,評測將使用 mask AP,包括,,,,?和?,且這些指標是基于 37 個對象類別上計算出來的。為了進行綜合評估,并報告每個對象類別的性能。
方案概述:HTC + CBNet + DCN + FPN
我們團隊基于現有數據集結合以往檢測經驗,實現了一個強大的實例分割模型。
HTC(Hybrid Task Cascade)是上一屆挑戰賽 COCO Detection 賽道的冠軍模型,也是目前 COCO 實例分割的最佳模型。我們團隊以這個極強的模型為基礎進一步改進,取得了更好的效果。HTC 又是基于 Cascade Mask R-CNN 改進的,它主要改進了兩個方面。?
1. Interleaved Execution:在每個 stage 里,先執行 box 分支,將回歸過的框再交由 mask 分支來預測 mask,也消除了訓練和測試流程的 gap,這樣也就改進了 Cascade Mask R-CNN 在每一個 stage 里的 box 和 mask 兩個分支在訓練時中并行執行沒有交互的問題。
2. Mask Information Flow:在相鄰的 stage 的 mask 分支之間增加一條連接,提供 mask 分支的信息流,這樣后面 stage 的 mask head 既能得到 backbone 的特征,也能得到上一個 stage 的特征。?
而我們團隊在 HTC 網絡結構基礎上嘗試從以下幾個方面進行改進:?
1. Backbone--CBNet?
CBNet 提出了一種通過相鄰 backbone 之間的復合連接來組裝多個相同 backbone 的新策略。使用 CBNet 提取特征,相比于普通的強 backbone,在前景目標處具有更強的激活值,在背景處具有更弱的激活值。我們團隊在 mmdetection 開源框架上自己實現了 CBNet,并接近復現原論文的精度。最終團隊使用的是兩個 ResNeXt-101(64*4d)組合而成的 CBNet,這也成了提分的重要武器。
HRNet 通過并行連接高分辨率和低分辨率卷積來保持高分辨率表示,并通過在并行卷積中重復執行多尺度融合來增強高分辨率表示。HRNet 作為另一個極強的 backbone 已廣泛運用在目標檢測、語義分割、關鍵點檢測等任務中。而將 HRNet 和 CBNet 結合在一起,可以得到一個更強大的 backbone。
2. Head -- MaskIoU?head?
大多數實例分割框架都采用實例分類的置信度作為 Mask 質量分數,然而 Mask 質量通常與分類分數相關性不強。由于背景雜波、遮擋等問題,分類分數可能較高,但 Mask 質量較低。Mask Scoring R-CNN 論文提出了一種實例分割 rescoring 再評分的方法,在 mask head 上新拼接 MaskIoU head,對預測 Mask 與其 Mask gt 之間的 iou 進行回歸,將預測的 Mask 與分類分數相乘,得到新的校準 Mask 分數作為最終 Mask 置信度。
3. Data Augmentation -- InstaBoost?
InstaBoost 論文提出了一種高效的數據增強方法。利用背景像素的冗余性,提出了一種基于位置概率圖的方法來探索基于局部外觀相似度的可行目標位置。其中的 Random InstaBoost 和 Map-guided InstaBoost 均可在不改變網絡結構的基礎上,顯著提升實例分割的精度。
4. 其他Tricks?
DCN
DCN 論文提出了 deformable convolution 和 deformable RoI pooling 兩種網絡,都是基于通過學習一個額外的偏移(offset),使卷積核對輸入 feature map 的采樣的產生偏移,集中于感興趣的目標區域,產生更好的感受野。?
Sync BN?
目前網絡的訓練大都是多卡訓練,大型網絡結構以及復雜任務會使得每張 GPU 負責的 batch-size 小于等于 1,若不進行 Sync BN,那么 moving mean、moving variance 參數會產生較大影響,可能造成 BN 層失效。而 Sync BN 訓練時利用全局樣本的均值和方差,后向時樣本得到相應的全局梯度,訓練效果就不再受 GPU ?個數的影響。
實驗細節
1. 采用 HTC + DCN + FPN 作為 baseline,逐步進行改進;
2. 將 CBNet-ResNeXt-101 作為新的 backbone;
3. 將原有 mask head 改為 MaskIoU head;
4. 使用 COCO-Pretrained weight;
5. 調參和多尺度訓練和一些測試 tricks;
6. 沒有使用額外數據和多模型融合策略。
實驗結果
這是我們團隊第一次完整訓完 HTC +CBNet + DCN + FPN 的模型后,在單尺度(3200*2400)下提交的測試集的結果,精度已經超越了去年的冠軍(Bo_Li),后面主辦方未公開榜單具體成績。本著公平參賽和探索高質量實例分割單模型的原則,我們團隊沒有使用額外數據和多模型融合策略,甚至最終由于時間和資源有限還沒有采用多尺度測試融合,后幾次交的結果都是單模型單尺度,但也保持優勢到了最后并順利拿下今年的冠軍。
點擊以下標題查看更多往期內容:?
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的ICCV 2019 COCO Mapillary挑战赛冠军团队技术分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有什么好吃的中国美食?
- 下一篇: 看尽SLAM、ReID和文字识别等技术进