當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一文解析激光雷达中时序融合的研究现状和发展方向

發(fā)布時間：2024/10/8 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了一文解析激光雷达中时序融合的研究现状和发展方向小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在自動駕駛領(lǐng)域，基于激光雷達（LiDAR）的 3D 物體檢測和運動行為預(yù)測是一種普遍的方案。目前絕大部分關(guān)于激光雷達的物體檢測算法都是基于單幀的。

激光雷達的多幀時序數(shù)據(jù)，提供了對于檢測物體的多視角觀測（multiple views），歷史記憶（history memory），安全冗余（redundant safty），以及運動特征（motion kinematics）等豐富的信息；可用來幫助提高檢測速度和精度，并且增加檢測結(jié)果的可靠性。

對于感知的下游模塊，例如追蹤和預(yù)測，時序信息則更為重要。

在傳統(tǒng)視頻理解領(lǐng)域，時序信息融合研究相對比較成熟，具體方法主要通過后處理（post-processing）來建立檢測物體間的對應(yīng)關(guān)系 [1,2]；借助光流（optical flow）跨越多幀來傳播高層特征 [3,4]；或者利用記憶對準（memory alignment）直接融合多幀特征信息 [5,6]。

相較于視頻或者圖像，激光雷達的點云非常稀疏，導(dǎo)致對其提取的特征圖譜（feature maps）也非常稀疏；此外，在點云鳥瞰圖（bird’s eye view）中絕大多數(shù)前景物體如車輛和行人只占據(jù)很小的空間范圍。所以如何有效融合激光雷達的時序信息對于學(xué)術(shù)界和工業(yè)界仍然是一個開放的問題。

時序融合—3D物體檢測

FaF 是一個具有代表性的考慮激光雷達時序信息的物體檢測和行為預(yù)測算法。

論文標題：Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net

論文來源：CVPR 2018

論文鏈接：http://openaccess.thecvf.com/content_cvpr_

2018/papers/Luo_Fast_and_Furious_CVPR_

2018_paper.pdf

該論文提出了一種結(jié)合檢測，跟蹤和預(yù)測于一體的網(wǎng)絡(luò)結(jié)構(gòu)。通常自動駕駛系統(tǒng)包含檢測，跟蹤，軌跡預(yù)測與規(guī)劃等模塊，下游模塊以上游模塊的結(jié)果作為輸入。

這樣的解決方案存在一個問題，即每個模塊的誤差會在下游逐步累積，例如誤檢或漏檢的物體會對后續(xù)的跟蹤與預(yù)測帶來很大影響，從而造成錯誤的規(guī)劃，最終對乘車舒適度甚至安全造成負面影響。

FaF 提出了一種端到端的網(wǎng)絡(luò)用以同時完成檢測，追蹤和預(yù)測三項任務(wù)，從而在一定程度上緩解了各個模塊錯誤的逐級累積。其具體做法是首先將相鄰若干幀激光雷達掃描得到的點云轉(zhuǎn)換到同一坐標系下，把每一幀的點云進行體素化（voxelization）。

同時為了避免在單幀上使用 3D 卷積及其所引入的計算復(fù)雜度，將高度這一維作為通道（channel），從而將每一幀表示成為一個三維張量以便使用 2D 卷積處理。網(wǎng)絡(luò)以多幀點云的鳥瞰圖作為輸入，直接輸出當前輸入 5 幀的檢測結(jié)果以及未來 10 幀的預(yù)測結(jié)果（如下圖所示）。

對于多幀點云的時序信息，FaF 提出了兩種融合方式：早期融合（early fusion）和后期融合（late fusion），具體做法如下圖所示。早期融合（下圖a）對輸入的每一幀體素表示采取 1D 時間卷積，空間維度共享權(quán)重，將多幀信息合并在一起。這種做法十分高效，可以達到和單幀幾乎一樣的檢測速度。

論文中的實驗指出，單幀處理需要 9ms，早期融合處理 5 幀需要 11ms；但早期融合的缺點是無法準確地捕捉復(fù)雜的運動信息。后期融合（下圖b）則采取逐級融合的方式，通過 3D 時空卷積逐步將多幀時序信息融合在一起。

論文在 Uber 內(nèi)部數(shù)據(jù)集上報告的結(jié)果顯示，后期融合效果最好，但推理時間也相應(yīng)增加到 30ms。

最近的一篇關(guān)于激光雷達時序融合的論文收錄于 CVPR 2020。

論文標題：LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

論文來源：CVPR 2020

論文鏈接：https://arxiv.org/abs/2004.01389

代碼鏈接：https://github.com/yinjunbo/3DVID

該論文首先利用圖神經(jīng)網(wǎng)絡(luò)（graph neural networks）構(gòu)建體柱信息傳輸網(wǎng)絡(luò)PMPNet（Pillar Message Passing Network）從而增加每個體柱特征的感受野（receptive field）來增強單幀激光雷達的特征提取。

文中進一步提出了結(jié)合注意力機制的門控循環(huán)卷積 AST-GRU（Attentive Spatio-temporal Transformer GRU）進行時空建模。

AST-GRU 包含兩部分：STA（Spatial Transformer Attention）和 TTA（Temporal Transformer Attention）。STA 關(guān)注于前景物體檢測，TTA 用以處理運動物體在特征圖譜上的對齊，具體操作是通過可變形卷積（deformable convolution）來對齊前后兩幀特征圖譜中的運動物體。

該方法的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示，它在 nuScenes 的 3D 物體檢測數(shù)據(jù)集上相比于單幀算法有較大提升。

時序融合—3D物體行為預(yù)測和運動檢測

FaF 的后續(xù)工作收錄于 CoRL 2018。

論文標題：IntentNet: Learning to Predict Intention from Raw Sensor Data

論文來源：CoRL 2018

論文鏈接：http://www.cs.toronto.edu/~wenjie/papers

/intentnet_corl18.pdf

IntentNet 在 FaF 的基礎(chǔ)上進一步加入動態(tài)高精地圖作為輸入來提供靜態(tài) (如車道，交叉口，交通指示牌等) 和動態(tài)（如紅綠燈的狀態(tài)轉(zhuǎn)換）語意地圖（semantic map）。包含時序信息的動態(tài)高精地圖為 3D 物體檢測，意圖分類和軌跡預(yù)測提供了豐富的線索。

為了更好的挖掘和利用激光雷達和動態(tài)地圖的時序信息，如下圖所示，IntentNet 的輸出端在 FaF 的 3D 物體檢測（detection）和軌跡預(yù)測（regression）的基礎(chǔ)上加入了行為意圖分類（intention classification，例如左/右轉(zhuǎn)，停/泊車，變道等）一起進行端到端（end-to-end）的訓(xùn)練。

如下圖所示，行為意圖分類的結(jié)果被連接補充到共享特征（shared features）上進行基于行為意圖分類的軌跡預(yù)測，使得軌跡預(yù)測獲得了豐富的背景環(huán)境信息（context）。相比于 FaF，IntentNet 的檢測和預(yù)測的結(jié)果均有所提升。

利用時序信息進行物體運動檢測是另一個值得關(guān)注的方向。這一方向近期有兩篇論文發(fā)表：

論文標題：MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird's Eye View Maps

論文來源：CVPR 2020

論文鏈接：https://arxiv.org/abs/2003.06754

代碼鏈接：https://github.com/pxiangwu/MotionNet

論文標題：Any Motion Detector: Learning Class-Agnostic Scene Dynamics from a Sequence of LiDAR Point Clouds

論文來源：ICRA 2020

論文鏈接：https://arxiv.org/pdf/2004.11647

這兩篇論文的核心方法相近，都是利用多幀點云作為輸入，通過網(wǎng)絡(luò)在鳥瞰圖上回歸物體的運動行為。MotionNet 通過時空金字塔網(wǎng)絡(luò)（spatio-temporal pyramid network）內(nèi)部的 2D 空間卷積和 1D 時間卷積來實現(xiàn)時空信息的提取和融合，從而實現(xiàn)鳥瞰圖上以體柱（pillar）為單位的語意和狀態(tài)分類以及運動檢測。

Any Motion Detector 則提出自運動補償層（ego-motion compensation layer）并結(jié)合循環(huán) 2D 卷積（recurrent convolution）來實現(xiàn)時序信息的高效融合。如下圖所示，這類方法的優(yōu)勢在于檢測激光雷達視野中所有運動的物體，包括訓(xùn)練集中沒有見過的物體，這對自動駕駛的安全性十分有意義。

目前點云算法對于常見的物體，例如車輛，行人和騎單車的人，具有較高的檢測準確率；而對于不常見的物體（尤其是運動的物體）和突發(fā)狀況，其結(jié)果往往并不滿意。這類方法也為物體檢測和感知提供了一種新的思路。

時序融合—總結(jié)

本文對于激光雷達的時序融合這一前沿方向進行了簡單的梳理和總結(jié)。融合時序信息，可以提升對于 3D 物體檢測的準確率；而對于 3D 物體的行為預(yù)測和運動檢測，時序信息則更是必不可少。

時序融合同時也為整合自動駕駛系統(tǒng)的感知，跟蹤，預(yù)測甚至決策等模塊提供了信息基礎(chǔ)和可能性。相對于視頻理解領(lǐng)域，時序融合在激光雷達中的研究和應(yīng)用還處于相對早期階段，希望這一重要方向能夠吸引越來越多的研發(fā)和工程力量來得以不斷推進和完善。

關(guān)于作者

羅晨旭，輕舟智航實習(xí)生，約翰·霍普金斯大學(xué)（Johns Hopkins University）計算機科學(xué)系博士研究生，在CVPR、ICCV等發(fā)表過高質(zhì)量計算機視覺科研文章。

楊曉東，輕舟智航高級科學(xué)家、機器學(xué)習(xí)技術(shù)總監(jiān)，曾任英偉達（NVIDIA）高級科學(xué)家，在NeurIPS、CVPR、ICCV、ECCV等發(fā)表過多篇重量級計算機視覺科研文章。

輕舟智航（QCraft）成立于美國硅谷，世界前沿的無人駕駛公司，致力于打造適應(yīng)城市復(fù)雜交通環(huán)境的“老司機”，將無人駕駛帶進現(xiàn)實。專注于為合作伙伴提供城市復(fù)雜交通環(huán)境下的可量產(chǎn)無人駕駛解決方案。

其核心團隊成員來自Waymo、特斯拉、Uber、福特、英偉達等世界頂級公司，實現(xiàn)了無人駕駛關(guān)鍵技術(shù)模塊的全棧覆蓋，現(xiàn)輕舟智航多個崗位正面向全球持續(xù)熱招中。

參考文獻

[1] W. Han, P. Khorrami, T. L. Paine, P. Ramachandran, M. Babaeizadeh, H. Shi, J. Li, S. Yan, and T. S. Huang. Seq-NMS for Video Object Detection. arXiv:1602.08465, 2016.

[2] K. Kang, W. Ouyang, H. Li, and X. Wang. Object Detection from Video Tubelets with Convolutional Neural Networks. CVPR, 2016.?

[3] X. Zhu, Y. Wang, J. Dai, L. Yuan, and Y. Wei. Flow-Guided Feature Aggregation for Video Object Detection. ICCV, 2017.

[4] S. Wang, Y. Zhou, J. Yan, and Z. Deng. Fully Motion-Aware Network for Video Object Detection. ECCV, 2018.

[5] F. Xiao and Y. J. Lee. Video Object Detection with an Aligned Spatial-Temporal Memory. ECCV, 2018.

[6] C. Guo, B. Fan, J. Gu, Q. Zhang, S. Xiang, V. Prinet, C. Pan. Progressive Sparse Local Attention for Video Object Detection. ICCV, 2019.

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā)，均會添加“原創(chuàng)”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式（微信或手機），以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的一文解析激光雷达中时序融合的研究现状和发展方向的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：北汽蓝谷：子公司 2024 年 9 月销
下一篇： ACL 2020 | 基于多级排序学习的