日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > 目标检测 >内容正文

目标检测

CVPR 2020 | 港中文提出3D目标检测新框架DSGN

發布時間:2024/10/8 目标检测 104 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2020 | 港中文提出3D目标检测新框架DSGN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|張承灝

學校|中科院自動化所碩士生

研究方向|雙目深度估計

本文介紹的是香港中文大學賈佳亞團隊在 CVPR 2020 上提出的?3D 目標檢測新框架——深度立體幾何網絡(Deep Stereo Geometry Network,DSGN)。

通過構造一種可導的 3D 幾何體來實現 3D 目標檢測,從而減小了基于圖像的方法和基于 LiDAR 的方法之間的鴻溝。這是第一個一階段的,基于雙目的 3D 目標檢測器,在 KITTI 3D 目標檢測榜單上超越以往基于雙目的 3D 目標檢測方法。

論文標題:DSGN: Deep Stereo Geometry Network for 3D Object Detection

論文地址:https://arxiv.org/abs/2001.03398

開源代碼:https://github.com/chenyilun95/DSGN

背景

根據特征的表示方法不同,3D 目標檢測器主要分為基于圖像的 3D 檢測器和基于 LiDAR 的 3D 檢測器。

  • 基于 LiRAD 的 3D 檢測器:主要分為基于體素的方法和基于點云的方法;

  • 基于圖像的 3D 檢測器:主要分為基于深度估計的方法和基于 3D 特征的方法;

由于 LiDAR 傳感器能夠捕捉準確的 3D 信息,因此基于 LiDAR 的 3D 檢測器準確率較高。其不足之處在于 LiDAR 設備笨重且價格昂貴,得到是帶有激光束的稀疏分辨率的數據。

相比之下,視頻攝像機要便宜很多,并且能夠產生更加稠密的分辨率。這種基于圖像的方法通常依靠單目或者雙目深度估計,但是準確率仍然無法與基于 LiDAR 的方法相媲美。

基于深度估計的方法將 3D 目標檢測分為兩步:深度估計和目標檢測,這其中最大的挑戰在于 2D 網絡并不能提取到穩定的 3D 信息。

另一種方案是先利用深度估計產生中間偽點云,再利用基于 LiDAR 的 3D 目標檢測方法。但是這種方法中的變換是不可導的,并且需要多個獨立的網絡,還容易出現失真現象。

DSGN 是一種基于雙目深度估計的,端到端的 3D 目標檢測框架,其核心在于通過空間變換將 2D 特征轉換成有效的 3D 結構。論文的主要貢獻如下:

  • 為了彌補 2D 圖像和 3D 空間的鴻溝,作者利用立體匹配構建平面掃描體(plane-sweep volume,PSV),并將其轉換成 3D 幾何體(3D geometric volume,3DGV),以便能夠編碼 3D 幾何形狀和語義信息。

  • 作者設計了一個端到端的框架,以提取用于立體匹配的像素級特征和用于目標識別的高級特征。所提出的 DSGN 能同時估計場景深度并檢測 3D 目標,從而實現多種實際應用。

  • 作者提出的簡單且完全可導的網絡在 KITTI 排行榜上超越所有其他基于雙目深度估計的 3D 目標檢測器(AP 高出 10 個點)。

方法

上圖展示了 DSGN 的整體框架圖。將雙目圖像對 作為輸入,利用權重共享的孿生網絡提取特征,并構建一個平面掃描體(PSV),它可以學習逐像素的對應關系。

接著通過可導的 warping 操作,將 PSV 轉換為 3D 幾何體(3DGV),從而構建 3D 世界坐標系的 3D 幾何特征。最后利用 3D 卷積網絡作用于 3DGV 進行 3D 目標檢測。

2.1 特征提取

作者借鑒 PSMNet [1] 的特征提取器作為深度估計和 3D 目標檢測的共享特征提取網絡。為了提取更多的高層次特征,并且減少計算量,主要進行了以下改動:

  • 將更多的計算從 conv_3 轉到 conv_4 和 conv_5,比如從 conv_2 到 conv_5 的基本模塊的通道數從 {3,16,3,3} 變成 {3,6,12,4}。

  • PSMNet 中的 SPP 模塊增加了 conv_4 和 conv_5。

  • conv_1 的輸出通道數和殘差模塊的輸出通道數有所改變。

  • 詳細的網絡結構可參考論文中的附錄部分。

    2.2 構建3DGV

    論文的核心是如何構建帶有 3D 幾何特征的 3DGV,它是由 PSV 經過 warping 操作轉換得到。3DGV 可以看做是 3D 世界坐標系的 3D 體素網格,它的大小是 ,分別沿攝像機視角的右方,下方和前方。每個體素的大小是 。

    2.3 Plane-Sweep Volume

    在雙目立體匹配中,一對左右圖像 用來構造基于視差的匹配代價體(cost volume),它計算了左右圖像的像素點在水平方向上的位移是視差 的匹配代價。

    根據基于 cost volume 的立體匹配方法,連接左右圖特征構造 PSV,它的坐標表示為 ,其中 表示圖像上在該位置的像素點, 表示垂直于圖像平面的深度信息。那么 空間可以被稱為相機坐標系

    之后利用 3D Hourglass 網絡進行代價聚合。對于視差/深度估計,利用可導的 soft argmin 操作來計算所有概率為 ? 的深度候選值的期望:

    其中深度的候選值在間隔為 的預定義網格(即 ,)內均勻采樣。再利用 softmax 函數使得模型為每個像素點只選擇一個深度值,從而完成深度估計。

    2.4 3D Geometric Volume

    有了照相機坐標,在已知攝像機內參的情況下,可以利用相機投影矩陣 實現從世界坐標系到相機坐標系的轉換。假設世界坐標系表示為 ,而前面的相機坐標表示為 ,經典的轉換方法是從世界坐標系到相機坐標系:

    而現在PSV的最后一層特征作為已知的相機坐標系,要想得到世界坐標系,因此需要使用相機投影矩陣的逆矩陣 。

    其中 和 分別是水平方向和豎直方向的焦距, 和 是相機位姿參數。該操作是完全可導的,可以利用三線性差值的 warp 操作實現。

    2.5 3D目標檢測器

    對于 3D 目標檢測網絡部分,作者借鑒 anchor-free 的方法 FCOS [2] 中的centerness思想,設計了一種基于距離的策略來分配目標,同時也繼續保持anchor。

    具體來說,令 3DGV 中的特征圖大小為 ,經過逐步下采樣操作,得到用于鳥瞰視角的特征圖 ,其大小為 。

    對于 中的每一個位置 ,放置幾個不同方向和大小的anchor。假設anchors用 表示,而GT目標框用 表示,那么它們的位置,預設大小和方向定義如下:

    • Anchors:

    • GT:

    • 預測值:

    其中 是 anchor 方向的數量, 是每個參數學習的偏置。

    沿用 FCOS 中的 centerness 思想,作者利用 anchor 和 GT 在 8 個角上的坐標距離作為目標分配的策略:

    將與 GT 最近的 N 個樣本作為正樣本,其中 , 是 GT 中體素的個數,而 用來調整正樣本的個數。最終的 centerness 定義如下:

    其中的范數表示最小-最大歸一化。

    2.6 多任務訓練

    DSGN 的整個網絡同時進行雙目深度估計和 3D 目標檢測,因此是一個多任務訓練過程,整體 loss 如下:

    對于深度估計,采用 smooth L1 loss, 是 GT 中的有效像素點,

    對于 3D 目標檢測的分類任務,采用 focal loss 避免樣本不平衡的缺陷, 是正樣本的個數,對于 centerness 采用 BCE loss。

    對于 3D 目標檢測的回歸任務,采用 smooth L1 loss 進行回歸,

    實驗

    作者在 KITTI 3D 目標檢測數據集上進行實驗評測,該數據集包含 7481 張訓練圖像對和 7518 張測試圖像對,分為 Car, Pedestrian 和 Cyclist 三種類型。下面是在測試集上的主要結果:

    從表中可以看出,對于 3D 和 BEV(Bird's Eye View)目標檢測,DSGN 超越了所有基于圖像的 3D 目標檢測器;在 2D 檢測上,也僅僅比 3DOP 要差一點。

    值得一提的是,DSGN 首次得到了與基于 LiDAR 的目標檢測器 MV3D 相當的準確率,該結果證明至少在低速自動駕駛條件下是有應用前景的。這些都驗證了 3DGV 的有效性,表明 3DGV 構建了 2D 圖像和 3D 空間的橋梁。

    作者將訓練集分成一半訓練集,一半驗證集進行消融分析,下面是消融實驗的結果:

    從上表中可以得到以下幾個結論:

    • 點云的監督是很重要的。有點云監督的結果要大大優于沒有監督的情況。

    • 在有點云監督的情況下,基于雙目的方法要遠遠優于基于單目的方法。再次證明僅僅有 3D 檢測框的監督信息是不充分的,基于雙目的深度信息對于 3D 檢測相當重要。

    • PSV 對于 3D 結構是一種更合適的特征表示。PSCV 相比于 CV 的不同在于從相機坐標系到世界坐標系的轉換,對于 3D 檢測 AP 從 45.89 提升到 54.27。

    • PSV 作為一種中間編碼方式能更有效地包含深度信息,因為它是深度估計網絡的中間特征。

    討論和總結

    Stereo RCNN [3] 是 CVPR 2019 的 3D 目標檢測器,它是通過擴展 Faster RCNN,以雙目圖像作為輸入的端到端 3D 檢測器。我們可以通過比較 DSGN 和 Stereo RCNN 的不同之處來更好的理解 DSGN。

    • DSGN 是 one-stage 的目標檢測器,而 Stereo RCNN 是 two-stage 的。

    • DSGN 利用了深度點云信息作為深度估計網絡的監督,從而實現深度估計和3D目標檢測的多任務學習,而 Stereo RCNN 僅有 3D 檢測框的監督信息。這種點云監督信息使得DSGN中的 PSV 成為更好的特征表示,這可能是 DSGN 性能大大提升的根本所在。

    • 從目標檢測的角度看,二者都采用了 anchor,不過 DSGN 借鑒了 anchor-free 的 centerness 思想,使得檢測性能更優。

    參考文獻

    [1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.?

    [2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.?

    [3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.

    點擊以下標題查看更多往期內容:?

    • 變分推斷(Variational Inference)最新進展簡述

    • 變分自編碼器VAE:原來是這么一回事

    • 圖神經網絡三劍客:GCN、GAT與GraphSAGE

    • 如何快速理解馬爾科夫鏈蒙特卡洛法?

    • 深度學習預訓練模型可解釋性概覽

    • ICLR 2020:從去噪自編碼器到生成模型

    #投 稿?通 道#

    ?讓你的論文被更多人看到?

    如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

    總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

    PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

    ?????來稿標準:

    ? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

    ? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

    ? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

    ?????投稿郵箱:

    ? 投稿郵箱:hr@paperweekly.site?

    ? 所有文章配圖,請單獨在附件中發送?

    ? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

    ????

    現在,在「知乎」也能找到我們了

    進入知乎首頁搜索「PaperWeekly」

    點擊「關注」訂閱我們的專欄吧

    關于PaperWeekly

    PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

    總結

    以上是生活随笔為你收集整理的CVPR 2020 | 港中文提出3D目标检测新框架DSGN的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。