阿波罗数据集怎么下载_从2D images 到3D估计:现有最大规模数据集 ApolloCar3D
任務:給定2D圖像,給出檢測車輛的3D屬性(距離,旋轉(zhuǎn),外形)
貢獻分為3方面:
1)20× larger than PASCAL3D+ and KITTI,5, 277 images, 60K instances
2)實現(xiàn)了2個baseline的算法,基本步驟分為兩部:1. 用預訓練的Mask R-CNN分割car;2.回歸其3D的pose與形狀(根據(jù)使用或者不使用語義關(guān)鍵點分為兩套方案)
3)提出了同時考慮3D的pose和shape的metric
現(xiàn)有的具有3D instances的datasets對比:
注意作者在構(gòu)建數(shù)據(jù)集的3D keypoint的groundtruth的時候,采用了一些優(yōu)化輔助,對于足夠利用關(guān)鍵點回歸出的車僅使用PnP loss,但對于遮擋較大的車(關(guān)鍵點不足以得到準確的回歸)新增loss以校準,該loss的定義原則就是和附近估計比較準確的車輛的一些位姿量盡可能接近,如roll角度分量(假設靠近的車地面起伏很小)。后續(xù)還需要人工最終修正調(diào)整確認。
該數(shù)據(jù)集使用了非常豐富的關(guān)鍵點(多達66個),如圖所示:
但個人感覺似乎從實用的角度來講,可能不太需要那么多的關(guān)鍵點;同時對于任意異形車,關(guān)鍵點基本都是失效的,所以過多的關(guān)鍵點略微顯得有那么些吃力不討好。
整體兩套baseline的方案基于3D-RCNN以及DeepMANTA,主要創(chuàng)新有:
1) 全像素回歸pose和shape
2) 引入self-attention機制
3)之前提到的利用附近車輛輔助被遮擋車輛的估計
在評價metric中,作者將threshold擴展為shape,translation,rotation三者的聯(lián)合判定,注意shape部分是將3D投影回2D進行IoU計算的:
并取多種閾值進行組合進行指標評估:
最后給出2個baseline可視化的對比:
下面坐等dataset release~
update------------------------------------20190319
向作者問到了數(shù)據(jù)集的位置,動起手來~:
總結(jié)
以上是生活随笔為你收集整理的阿波罗数据集怎么下载_从2D images 到3D估计:现有最大规模数据集 ApolloCar3D的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 划拨二手房是不是私有财产?
- 下一篇: 生活常识之如何防止家居污染?