CVPR 2020 | 港中文提出3D目标检测新框架DSGN
?PaperWeekly 原創 ·?作者|張承灝
學校|中科院自動化所碩士生
研究方向|雙目深度估計
本文介紹的是香港中文大學賈佳亞團隊在 CVPR 2020 上提出的?3D 目標檢測新框架——深度立體幾何網絡(Deep Stereo Geometry Network,DSGN)。
通過構造一種可導的 3D 幾何體來實現 3D 目標檢測,從而減小了基于圖像的方法和基于 LiDAR 的方法之間的鴻溝。這是第一個一階段的,基于雙目的 3D 目標檢測器,在 KITTI 3D 目標檢測榜單上超越以往基于雙目的 3D 目標檢測方法。
論文標題:DSGN: Deep Stereo Geometry Network for 3D Object Detection
論文地址:https://arxiv.org/abs/2001.03398
開源代碼:https://github.com/chenyilun95/DSGN
背景
根據特征的表示方法不同,3D 目標檢測器主要分為基于圖像的 3D 檢測器和基于 LiDAR 的 3D 檢測器。
基于 LiRAD 的 3D 檢測器:主要分為基于體素的方法和基于點云的方法;
基于圖像的 3D 檢測器:主要分為基于深度估計的方法和基于 3D 特征的方法;
由于 LiDAR 傳感器能夠捕捉準確的 3D 信息,因此基于 LiDAR 的 3D 檢測器準確率較高。其不足之處在于 LiDAR 設備笨重且價格昂貴,得到是帶有激光束的稀疏分辨率的數據。
相比之下,視頻攝像機要便宜很多,并且能夠產生更加稠密的分辨率。這種基于圖像的方法通常依靠單目或者雙目深度估計,但是準確率仍然無法與基于 LiDAR 的方法相媲美。
基于深度估計的方法將 3D 目標檢測分為兩步:深度估計和目標檢測,這其中最大的挑戰在于 2D 網絡并不能提取到穩定的 3D 信息。
另一種方案是先利用深度估計產生中間偽點云,再利用基于 LiDAR 的 3D 目標檢測方法。但是這種方法中的變換是不可導的,并且需要多個獨立的網絡,還容易出現失真現象。
DSGN 是一種基于雙目深度估計的,端到端的 3D 目標檢測框架,其核心在于通過空間變換將 2D 特征轉換成有效的 3D 結構。論文的主要貢獻如下:
為了彌補 2D 圖像和 3D 空間的鴻溝,作者利用立體匹配構建平面掃描體(plane-sweep volume,PSV),并將其轉換成 3D 幾何體(3D geometric volume,3DGV),以便能夠編碼 3D 幾何形狀和語義信息。
作者設計了一個端到端的框架,以提取用于立體匹配的像素級特征和用于目標識別的高級特征。所提出的 DSGN 能同時估計場景深度并檢測 3D 目標,從而實現多種實際應用。
作者提出的簡單且完全可導的網絡在 KITTI 排行榜上超越所有其他基于雙目深度估計的 3D 目標檢測器(AP 高出 10 個點)。
方法
上圖展示了 DSGN 的整體框架圖。將雙目圖像對 作為輸入,利用權重共享的孿生網絡提取特征,并構建一個平面掃描體(PSV),它可以學習逐像素的對應關系。
接著通過可導的 warping 操作,將 PSV 轉換為 3D 幾何體(3DGV),從而構建 3D 世界坐標系的 3D 幾何特征。最后利用 3D 卷積網絡作用于 3DGV 進行 3D 目標檢測。
2.1 特征提取
作者借鑒 PSMNet [1] 的特征提取器作為深度估計和 3D 目標檢測的共享特征提取網絡。為了提取更多的高層次特征,并且減少計算量,主要進行了以下改動:
將更多的計算從 conv_3 轉到 conv_4 和 conv_5,比如從 conv_2 到 conv_5 的基本模塊的通道數從 {3,16,3,3} 變成 {3,6,12,4}。
PSMNet 中的 SPP 模塊增加了 conv_4 和 conv_5。
conv_1 的輸出通道數和殘差模塊的輸出通道數有所改變。
詳細的網絡結構可參考論文中的附錄部分。
2.2 構建3DGV
論文的核心是如何構建帶有 3D 幾何特征的 3DGV,它是由 PSV 經過 warping 操作轉換得到。3DGV 可以看做是 3D 世界坐標系的 3D 體素網格,它的大小是 ,分別沿攝像機視角的右方,下方和前方。每個體素的大小是 。
2.3 Plane-Sweep Volume
在雙目立體匹配中,一對左右圖像 用來構造基于視差的匹配代價體(cost volume),它計算了左右圖像的像素點在水平方向上的位移是視差 的匹配代價。
根據基于 cost volume 的立體匹配方法,連接左右圖特征構造 PSV,它的坐標表示為 ,其中 表示圖像上在該位置的像素點, 表示垂直于圖像平面的深度信息。那么 空間可以被稱為相機坐標系。
之后利用 3D Hourglass 網絡進行代價聚合。對于視差/深度估計,利用可導的 soft argmin 操作來計算所有概率為 ? 的深度候選值的期望:
其中深度的候選值在間隔為 的預定義網格(即 ,)內均勻采樣。再利用 softmax 函數使得模型為每個像素點只選擇一個深度值,從而完成深度估計。
2.4 3D Geometric Volume
有了照相機坐標,在已知攝像機內參的情況下,可以利用相機投影矩陣 實現從世界坐標系到相機坐標系的轉換。假設世界坐標系表示為 ,而前面的相機坐標表示為 ,經典的轉換方法是從世界坐標系到相機坐標系:
而現在PSV的最后一層特征作為已知的相機坐標系,要想得到世界坐標系,因此需要使用相機投影矩陣的逆矩陣 。
其中 和 分別是水平方向和豎直方向的焦距, 和 是相機位姿參數。該操作是完全可導的,可以利用三線性差值的 warp 操作實現。
2.5 3D目標檢測器
對于 3D 目標檢測網絡部分,作者借鑒 anchor-free 的方法 FCOS [2] 中的centerness思想,設計了一種基于距離的策略來分配目標,同時也繼續保持anchor。
具體來說,令 3DGV 中的特征圖大小為 ,經過逐步下采樣操作,得到用于鳥瞰視角的特征圖 ,其大小為 。
對于 中的每一個位置 ,放置幾個不同方向和大小的anchor。假設anchors用 表示,而GT目標框用 表示,那么它們的位置,預設大小和方向定義如下:
Anchors:
GT:
預測值:
其中 是 anchor 方向的數量, 是每個參數學習的偏置。
沿用 FCOS 中的 centerness 思想,作者利用 anchor 和 GT 在 8 個角上的坐標距離作為目標分配的策略:
將與 GT 最近的 N 個樣本作為正樣本,其中 , 是 GT 中體素的個數,而 用來調整正樣本的個數。最終的 centerness 定義如下:
其中的范數表示最小-最大歸一化。
2.6 多任務訓練
DSGN 的整個網絡同時進行雙目深度估計和 3D 目標檢測,因此是一個多任務訓練過程,整體 loss 如下:
對于深度估計,采用 smooth L1 loss, 是 GT 中的有效像素點,
對于 3D 目標檢測的分類任務,采用 focal loss 避免樣本不平衡的缺陷, 是正樣本的個數,對于 centerness 采用 BCE loss。
對于 3D 目標檢測的回歸任務,采用 smooth L1 loss 進行回歸,
實驗
作者在 KITTI 3D 目標檢測數據集上進行實驗評測,該數據集包含 7481 張訓練圖像對和 7518 張測試圖像對,分為 Car, Pedestrian 和 Cyclist 三種類型。下面是在測試集上的主要結果:
從表中可以看出,對于 3D 和 BEV(Bird's Eye View)目標檢測,DSGN 超越了所有基于圖像的 3D 目標檢測器;在 2D 檢測上,也僅僅比 3DOP 要差一點。
值得一提的是,DSGN 首次得到了與基于 LiDAR 的目標檢測器 MV3D 相當的準確率,該結果證明至少在低速自動駕駛條件下是有應用前景的。這些都驗證了 3DGV 的有效性,表明 3DGV 構建了 2D 圖像和 3D 空間的橋梁。
作者將訓練集分成一半訓練集,一半驗證集進行消融分析,下面是消融實驗的結果:
從上表中可以得到以下幾個結論:
點云的監督是很重要的。有點云監督的結果要大大優于沒有監督的情況。
在有點云監督的情況下,基于雙目的方法要遠遠優于基于單目的方法。再次證明僅僅有 3D 檢測框的監督信息是不充分的,基于雙目的深度信息對于 3D 檢測相當重要。
PSV 對于 3D 結構是一種更合適的特征表示。PSCV 相比于 CV 的不同在于從相機坐標系到世界坐標系的轉換,對于 3D 檢測 AP 從 45.89 提升到 54.27。
PSV 作為一種中間編碼方式能更有效地包含深度信息,因為它是深度估計網絡的中間特征。
討論和總結
Stereo RCNN [3] 是 CVPR 2019 的 3D 目標檢測器,它是通過擴展 Faster RCNN,以雙目圖像作為輸入的端到端 3D 檢測器。我們可以通過比較 DSGN 和 Stereo RCNN 的不同之處來更好的理解 DSGN。
DSGN 是 one-stage 的目標檢測器,而 Stereo RCNN 是 two-stage 的。
DSGN 利用了深度點云信息作為深度估計網絡的監督,從而實現深度估計和3D目標檢測的多任務學習,而 Stereo RCNN 僅有 3D 檢測框的監督信息。這種點云監督信息使得DSGN中的 PSV 成為更好的特征表示,這可能是 DSGN 性能大大提升的根本所在。
從目標檢測的角度看,二者都采用了 anchor,不過 DSGN 借鑒了 anchor-free 的 centerness 思想,使得檢測性能更優。
參考文獻
[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.?
[2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.?
[3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.
點擊以下標題查看更多往期內容:?
變分推斷(Variational Inference)最新進展簡述
變分自編碼器VAE:原來是這么一回事
圖神經網絡三劍客:GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法?
深度學習預訓練模型可解釋性概覽
ICLR 2020:從去噪自編碼器到生成模型
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的CVPR 2020 | 港中文提出3D目标检测新框架DSGN的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一只小猪多少钱 猪肉价格走势及市场行情分
- 下一篇: 为什么喝完酸奶拉肚子?