最新综述:自动驾驶中的多模态三维目标检测
?PaperWeekly 原創(chuàng) ·?作者?|?張一帆
學(xué)校?|?華南理工大學(xué)本科生
研究方向?|?CV,Causality
Abstract
在過去幾年,自動駕駛?cè)〉昧伺畈陌l(fā)展,但是由于駕駛環(huán)境的復(fù)雜多變,實現(xiàn)完全自動依然是一個非常艱巨的任務(wù)。自動駕駛汽車往往配備了一系列復(fù)雜的傳感器來進(jìn)行準(zhǔn)確、穩(wěn)健的環(huán)境感知。這大量的類型不同的傳感器如何互補(bǔ),融合來促進(jìn)感知依然是一個有待研究的問題。
本文致力于回顧最近的基于融合的 3D 檢測深度學(xué)習(xí)模型,這些模型有一個共同的特點:多個傳感器數(shù)據(jù)源,比如攝像機(jī)和激光雷達(dá)。本文首先介紹了各種常見傳感器的背景和通用數(shù)據(jù)表示,以及針對每種傳感器數(shù)據(jù)開發(fā)的目標(biāo)檢測網(wǎng)絡(luò)。然后,本文討論了一些用于多模態(tài) 3D 目標(biāo)檢測的流行數(shù)據(jù)集,特別關(guān)注數(shù)據(jù)集中的傳感器數(shù)據(jù)。
接下來作者對近幾年的多模態(tài) 3D 目標(biāo)檢測網(wǎng)絡(luò)從三個方面進(jìn)行了深入的調(diào)研:融合定位、融合數(shù)據(jù)表示和融合粒度。最后作者討論了開放式挑戰(zhàn)并指出了可能的解決方案。
論文標(biāo)題:
Multi-Modal 3D Object Detection in Autonomous Driving: a Survey
論文作者:
Yingjie Wang, Qiuyu Mao, Hanqi Zhu, Yu Zhang, Jianmin Ji, Yanyong Zhang
論文鏈接:
https://arxiv.org/abs/2106.12735
Introduction
自動駕駛的普及有很多好處,但是由于現(xiàn)實場景中的感知性能還不夠好,現(xiàn)階段依然很難在城市或者其他復(fù)雜場景下部署。一個自動駕駛汽車要完成的感知任務(wù)是非常多的,比如定位,檢測,對其他車/人移動的估計,對場景的理解(紅綠燈),如下圖所示,需要大量的傳感器來完成這些功能。比如攝像機(jī),LiDARs(光探測和測距傳感器),Radar(無線電探測),GPS,IMUs(慣性測量裝置)等。
在這大量的功能中,有三個功能最為重要:1)對環(huán)境的準(zhǔn)確描述;2)在各種不同的惡劣環(huán)境中可以穩(wěn)健運(yùn)行;3)實時性。為了滿足上述要求,感知子系統(tǒng)同時執(zhí)行多個重要任務(wù),如目標(biāo)檢測、跟蹤、同步局部化和映射(SLAM)等。
2.1 3D Object Detection through Single Sensor Modality
物體檢測即檢測物體的位置與類別,2D 目標(biāo)檢測已經(jīng)發(fā)展的很成熟了,但是 2D 并不能給自動駕駛提供足夠的信息,只能標(biāo)注一個框和類別的置信度。在 3D 物體檢測任務(wù)中,需要更多的輸出參數(shù)來指定物體周圍的邊界框。
如下圖所示,我們需要預(yù)測物體的中心三維坐標(biāo) 、長度、寬度、高度和偏轉(zhuǎn)角度 ,從而繪制出紅色的三維邊界框。顯然,由于缺乏真實世界坐標(biāo)系統(tǒng)中的物體位置,二維物體檢測不能滿足自主駕駛環(huán)境感知的要求。本文主要研究自動駕駛的三維目標(biāo)檢測任務(wù),根據(jù)傳感器的使用類型,可以進(jìn)一步分為以下幾類。
2.1.1?3D Object Detection Using Cameras
雖然 camera 只能提供 2D 圖像,但是很多研究工作直接用 2D 那套方法來預(yù)測三維信息,近期的研究表明基于圖像的三維目標(biāo)檢測方法也可以在低成本下獲得滿意的性能。但是顯然單個 image 是不可能提供可靠的空間信息的,而且單個攝像機(jī)很可能出現(xiàn)高遮擋,計算成本高等問題。此外,如圖 4 所示,基于攝像頭的感知子系統(tǒng)在不利條件下提供的 image 質(zhì)量很差,如光線差或大霧天氣,這限制了它們的全天候能力。
2.1.2 3D Object Detection Using LiDARs
更流行的方法是使用 ?LiDARs 提供的點云數(shù)據(jù),不像圖像,點云提供了豐富的三維空間信息。激光雷達(dá)的優(yōu)勢還在于其強(qiáng)大的測距能力和穿透能力,可以提供高質(zhì)量的空間信息,而不存在目標(biāo)遮擋問題。此外,激光雷達(dá)還能抵抗不利的照明條件。在激光雷達(dá)的幫助下,自動駕駛汽車可以看得更遠(yuǎn)、更清楚。
目前,基于 LiDARs 的方法比基于相機(jī)的方法獲得了更好的檢測精度和更高的查全率。比如在? KITTI 3D 數(shù)據(jù)集上,目前的 sota MonoFlex 如果輸入 image 只能得到 mAP,但是如果輸入點云數(shù)據(jù)能得到超過 80 的 mAP。
目前 LiDARs 還沒有被自動駕駛廣泛采用,主要原因如下:
激光雷達(dá)既昂貴又笨重,尤其是與照相機(jī)相比;
激光雷達(dá)捕獲的點云分辨率較低(16~128通道),刷新率較低,不能滿足實時檢測的要求;
激光雷達(dá)的工作距離相當(dāng)有限,遠(yuǎn)離激光雷達(dá)的點云非常稀疏;
激光雷達(dá)在極端惡劣的天氣條件下不能正常工作,如大雨或大雪,因為激光的傳輸距離受到很大的影響。
2.1.3 3D Object Detection Using Other Sensors.
相比于相機(jī)和雷達(dá),有一些傳感器對環(huán)境更為魯棒,比如毫米波雷達(dá)和紅外攝像機(jī)。毫米波雷達(dá)通過多普勒效應(yīng)來測量速度,提供對周圍環(huán)境的遠(yuǎn)距離和精確測量。它們比激光雷達(dá)便宜很多,可以抵抗惡劣的天氣條件,對照明變化也不敏感。
然而,與其他兩種傳感器相比,包含毫米波雷達(dá)數(shù)據(jù)的大規(guī)模公共數(shù)據(jù)集有限。此外,由于毫米波雷達(dá)的低分辨率和高高光性,很難獲得上下文或感知信息,不能直接檢測物體的形狀。與激光雷達(dá)和相機(jī)相比,毫米波雷達(dá)識別物體的能力相對較差。
為了進(jìn)一步填補(bǔ)夜間自動駕駛可靠解決方案的空白,紅外攝像機(jī)已成為不可或缺的工具。紅外攝像機(jī)采用紅外熱成像技術(shù),不受夜間、反光表面、大雨等惡劣環(huán)境的影響。紅外攝像機(jī)可以探測 300 米以外的物體。有了它們,司機(jī)有更多的時間對交通狀況的突然變化做出反應(yīng),從而大大提高了駕駛安全。與價格高達(dá)數(shù)萬美元的激光雷達(dá)傳感器相比,紅外攝像頭還是比較劃算的。
2.2 3D Object Detection through Multi-modal Fusion
在現(xiàn)實的自動駕駛情況下,通過單一類型的傳感器進(jìn)行目標(biāo)檢測是遠(yuǎn)遠(yuǎn)不夠的。首先,每種傳感器都有其固有的缺點。例如,只使用相機(jī)很可能遭受物體遮擋;與圖像相比,激光雷達(dá)的輸入數(shù)據(jù)分辨率較低,特別是在遠(yuǎn)距離時,這一問題阻礙了激光雷達(dá)的應(yīng)用。
圖 5 清楚地說明了兩種情況。其次,要實現(xiàn)真正的自動駕駛,我們需要考慮廣泛的天氣、道路和交通條件。感知子系統(tǒng)必須在所有不同的條件下都能提供良好的感知結(jié)果,這是依靠單一類型的傳感器難以實現(xiàn)的。例如進(jìn)入隧道時,由于光線的突然變化,相機(jī)會出現(xiàn)曝光不足和過度曝光的問題。LiDAR 傳感器也會受到雨天和大霧天氣的影響。很明顯,單傳感器系統(tǒng)在不利條件下不能很好地工作
為了緩解這些問題,許多基于融合的三維檢測方案已經(jīng)被提出來了。在這些方法中,來自具有互補(bǔ)特性的多種類型傳感器的數(shù)據(jù)被用來提高性能和降低成本。雖然傳感器融合帶來了好處,但進(jìn)行高效的融合對底層系統(tǒng)設(shè)計提出了嚴(yán)峻的挑戰(zhàn)。
本文接下來就來討論這些挑戰(zhàn)。一方面,不同類型的傳感器在時間和空間上不同步;在時域上,由于不同傳感器的采集周期是相互獨(dú)立的,很難保證同時采集數(shù)據(jù)。在空間域內(nèi),傳感器在部署時具有不同的視角。另一方面,在設(shè)計一種融合方法時,我們需要密切關(guān)注幾個問題,比如:
多傳感器校準(zhǔn)和數(shù)據(jù)對齊:由于多模態(tài)數(shù)據(jù)的異質(zhì)性(如表 1 所示),無論是在原始輸入空間還是在特征空間,都很難對它們進(jìn)行精確對齊。
信息丟失:為了將傳感器數(shù)據(jù)轉(zhuǎn)換成能夠以計算成本進(jìn)行對齊和處理的格式,信息丟失是不可避免的
跨模態(tài)數(shù)據(jù)增強(qiáng):數(shù)據(jù)增強(qiáng)在三維目標(biāo)檢測中起著至關(guān)重要的作用,可以減少模型過擬合,這種過擬合通常是由訓(xùn)練數(shù)據(jù)不足引起的。全局旋轉(zhuǎn)和隨機(jī)翻轉(zhuǎn)等增強(qiáng)策略在單模態(tài)融合方法中得到了廣泛的應(yīng)用,但由于多傳感器一致性的問題,在許多多傳感器融合方法中缺乏這種方法。
數(shù)據(jù)集和評測標(biāo)準(zhǔn):高質(zhì)量、公共可用的多模態(tài)數(shù)據(jù)集數(shù)量有限。即使是現(xiàn)有的數(shù)據(jù)集也存在規(guī)模小、類別不平衡、標(biāo)記錯誤等問題。此外,目前還沒有針對數(shù)據(jù)集的指標(biāo)來具體評估多傳感器融合的有效性,這給多傳感器融合方法之間的比較帶來了困難。
綜上所述,傳感器融合已成為感知子系統(tǒng)實現(xiàn)滿意性能的必要模塊,但在真正享受其帶來的好處之前,還需要解決許多設(shè)計和實現(xiàn)上的挑戰(zhàn)。為了實現(xiàn)這一目標(biāo),本文開始對最近基于融合的 3D 目標(biāo)檢測方法進(jìn)行系統(tǒng)的回顧。這樣的回顧可以幫助確定傳感器融合中的技術(shù)挑戰(zhàn),并幫助我們比較和對比各種模型提出的解決方案。特別是,由于攝像頭和激光雷達(dá)是自動駕駛中最常見的傳感器,該綜述主要關(guān)注這兩種傳感器數(shù)據(jù)的融合。
之前關(guān)于基于深度學(xué)習(xí)的多模態(tài)融合方法的調(diào)查涵蓋了大量的傳感器,包括雷達(dá),攝像頭,激光雷達(dá),超聲波傳感器等,并提供了一個簡短的綜述,包括多目標(biāo)檢測,跟蹤,環(huán)境重建等廣泛的主題。本綜述具有明顯不同的目的:它針對的是想仔細(xì)研究多模態(tài) 3D 檢測領(lǐng)域的研究人員,本文的貢獻(xiàn)總結(jié)如下:
根據(jù)輸入傳感器數(shù)據(jù)的不同組合,本文回顧了基于多模態(tài)的三維目標(biāo)檢測方法。特別是距離圖像,它是激光雷達(dá)點云的一種信息完整形式,在過去的綜述文章中沒有被討論。此外,偽激光雷達(dá)(由相機(jī)圖像生成)的表示也沒有討論;
本文從多個角度仔細(xì)研究了基于多模態(tài)的三維目標(biāo)檢測策略的發(fā)展。特別關(guān)注這些方法如何實現(xiàn)跨模式數(shù)據(jù)對齊、如何減少信息丟失等關(guān)鍵問題;
本文詳細(xì)討論了最近的相機(jī)-激光雷達(dá)融合檢測方法。同時還總結(jié)了近年來可用于三維目標(biāo)檢測的多模態(tài)數(shù)據(jù)集;
仔細(xì)討論了一些具有挑戰(zhàn)性的問題以及可能的解決方案,以期對未來的研究有所啟發(fā)。
Conclusion
由于三維視覺在自動駕駛等應(yīng)用中的重要性日益增加,本文調(diào)研了近年來的多模態(tài)三維目標(biāo)檢測網(wǎng)絡(luò),特別是相機(jī)圖像和激光雷達(dá)點云的融合。首先作者仔細(xì)比較了常用的傳感器,討論了它們的優(yōu)缺點,總結(jié)了單模態(tài)方法的常見問題。然后,本文提供了幾個常用的自動駕駛數(shù)據(jù)集。
為了提供一個系統(tǒng)的回顧,本文從以下三個維度將多模態(tài)融合方法進(jìn)行分類:1)融合發(fā)生在模型中的位置;1)每個融合輸入使用數(shù)據(jù)表示的形式;3)融合算法的粒度。最后,本文討論了多模三維目標(biāo)檢測中的開放式挑戰(zhàn)和潛在的解決方案。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的最新综述:自动驾驶中的多模态三维目标检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: KBQA相关论文分类整理:简单KBQA和
- 下一篇: 2500平方瓷砖要多大车子可以装下