當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合

發(fā)布時間：2023/12/31 windows 42 豆豆

生活随笔收集整理的這篇文章主要介紹了先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

先進(jìn)駕駛員輔助系統(tǒng)中用于車輛檢測的雷達(dá)和攝像機(jī)早期融合

摘要
1 Introduction
2 Related Work
3 FusionNet

Radar and Camera Early Fusion for Vehicle Detection in Advanced Driver Assistance Systems 的翻譯

摘要

感知模塊是現(xiàn)代高級駕駛員輔助系統(tǒng)(ADAS)的核心。為了提高該模塊的質(zhì)量和魯棒性，特別是在光照和天氣條件變化等環(huán)境噪聲存在的情況下，傳感器(主要是相機(jī)和激光雷達(dá))的融合是近年來研究的重點。在這篇論文中，我們關(guān)注一個相對未開發(fā)的領(lǐng)域，即相機(jī)和雷達(dá)傳感器的早期融合。為了提高感知模塊的準(zhǔn)確性和魯棒性，我們將經(jīng)過最小處理的雷達(dá)信號與相應(yīng)的攝像機(jī)框架一起提供給我們的深度學(xué)習(xí)架構(gòu)。我們對真實世界數(shù)據(jù)的評估表明，雷達(dá)和攝像機(jī)信號的互補(bǔ)性可以在應(yīng)用于目標(biāo)檢測時減少15%的橫向誤差。

1 Introduction

在過去的幾年里，自動駕駛和自動駕駛已經(jīng)成為深度學(xué)習(xí)領(lǐng)域研究的主要力量之一。目標(biāo)檢測是這些系統(tǒng)魯棒感知系統(tǒng)設(shè)計中的一個關(guān)鍵問題。相機(jī)本身已經(jīng)成為構(gòu)建感知模塊的主要傳感器。近年來，為了提高對一系列操作條件的魯棒性，人們越來越重視使傳感器的種類多樣化。各種各樣的傳感器，如激光雷達(dá)、近程雷達(dá)、遠(yuǎn)程雷達(dá)、紅外攝像機(jī)和sonars都被用來提高感知模塊輸出的質(zhì)量。
在我們的工作中，我們專注于相機(jī)和雷達(dá)傳感器的融合。雷達(dá)提供了一個低成本的替代激光雷達(dá)作為距離確定傳感器。由于其基本設(shè)計的性質(zhì)，目前典型的汽車?yán)走_(dá)要比激光雷達(dá)便宜得多。除了成本之外，雷達(dá)還能適應(yīng)不同的照明和天氣條件(如雨和霧)，并能提供瞬時速度測量，這為改進(jìn)系統(tǒng)反應(yīng)時間提供了機(jī)會。
車輛上有多個傳感器，傳感器融合可以提高目標(biāo)檢測的準(zhǔn)確性，尤其是在相對嘈雜環(huán)境下的魯棒性，因此對于ADAS系統(tǒng)來說，傳感器融合是一個很自然的發(fā)展方向。傳統(tǒng)上，采用擴(kuò)展卡爾曼濾波器(EKF)[8]等方法來結(jié)合不同感知模塊的檢測。最近，深度學(xué)習(xí)也被用于相機(jī)和激光雷達(dá)的傳感器融合[3,15,5,13,17]。
不同傳感器之間的數(shù)據(jù)融合可以在后期進(jìn)行，例如，相機(jī)和激光雷達(dá)/雷達(dá)分別對物體/車輛進(jìn)行檢測，后期將檢測到的物體屬性(如物體邊界盒)進(jìn)行合并。典型地，這種融合技術(shù)比早期的融合方法復(fù)雜度要低，在早期的融合方法中，來自多個模態(tài)的傳感器測量數(shù)據(jù)被聯(lián)合處理以生成對象屬性。傳統(tǒng)上，早期融合允許低水平的特征融合，從而提高了檢測精度。例如，在早期融合的情況下，一個傳感器可以檢測到車輛的側(cè)鏡，而前保險杠可能被另一個傳感器檢測到。早期融合和晚期融合之間的權(quán)衡最近被研究人員所研究[12,27]。

雷達(dá)數(shù)據(jù)，在自動駕駛和ADAS的背景下，已被用來提高傳感器融合和/或感知模塊的準(zhǔn)確性。然而，通常使用CFAR算法處理雷達(dá)數(shù)據(jù)，將原始數(shù)據(jù)轉(zhuǎn)換為點云，從而將感興趣的目標(biāo)與周圍的雜波區(qū)分開。將原始的4D雷達(dá)張量(由稠密的2D歐幾里德空間、多普勒和時間組成)轉(zhuǎn)換成稀疏的2D點云，可以去除信號中大量的信息。相反，我們依賴原始雷達(dá)數(shù)據(jù)來最小化信號后處理所引入的人工制品，同時最小化雷達(dá)輸出的抽象。

在本文中，我們做出了以下貢獻(xiàn):

提出了一種利用雷達(dá)數(shù)據(jù)進(jìn)行探測和分類的新方法一種新的深度學(xué)習(xí)結(jié)構(gòu)，允許融合雷達(dá)信號和相機(jī)圖像，共同產(chǎn)生物體邊界盒。

一個基礎(chǔ)設(shè)施和方法，以發(fā)展和評估我們的傳感器融合系統(tǒng)的性能對現(xiàn)實世界的數(shù)據(jù)。

論文的其余部分組織如下。在第二部分，我們將討論相關(guān)的工作。第3節(jié)介紹了我們的相機(jī)和雷達(dá)傳感器融合的解決方案。第4節(jié)重點介紹了用于我們的評估的培訓(xùn)設(shè)置和數(shù)據(jù)集。第五部分討論了我們的實驗研究和相應(yīng)的結(jié)果。最后，第6節(jié)給出了我們的結(jié)論。

2 Related Work

圖像目標(biāo)檢測
圖像分類和目標(biāo)檢測一直是計算機(jī)視覺領(lǐng)域的兩大難題。近年來，圖像分類任務(wù)的性能有了突破性的進(jìn)展。基于深度的神經(jīng)網(wǎng)絡(luò)已經(jīng)成為應(yīng)對這些挑戰(zhàn)的實際解決方案。目標(biāo)檢測建立在圖像分類的基礎(chǔ)上，解決了另外兩個問題——給定圖像中的目標(biāo)列表和目標(biāo)在圖像中的位置。在這一領(lǐng)域主要有兩類正在開發(fā)的解決方案:單級和兩級探測器。單級檢波器，如單次發(fā)射多盒檢波器(Single-Shot Multibox Detector, SSD)[16]或YOLO[20]，主要關(guān)注每幀的推理時間。由于速度是最重要的，所以這些網(wǎng)絡(luò)內(nèi)部依賴于一個單一的通道來識別先前的機(jī)器。另一方面，兩級探測器通常速度較慢，但可以獲得更好的精度結(jié)果。例如RCNN[7]、Fast-RCNN[6]、Fast-RCNN[22]、R-FCN[4]和Mask-RCNN[9]等網(wǎng)絡(luò)。這些網(wǎng)絡(luò)依賴于區(qū)域建議網(wǎng)絡(luò)(RPN)來識別感興趣的區(qū)域(RoI)， RoI隨后被傳遞到執(zhí)行最終分類和boxcoordinate調(diào)整的第二階段。
自動駕駛雷達(dá)深度學(xué)習(xí)
由于雷達(dá)的獨特性，在這方面缺乏文獻(xiàn)和數(shù)據(jù)集是可以理解的。此外，傳統(tǒng)的雷達(dá)文獻(xiàn)通常將“檢測”稱為返回空間點的任務(wù)，而在計算機(jī)視覺社區(qū)中，“檢測”是將區(qū)域作為對象對象返回的任務(wù)。在自動駕駛的背景下，已發(fā)表的方法[24][19]利用了來自商用汽車?yán)走_(dá)系統(tǒng)的稀疏點云。在這些商用雷達(dá)系統(tǒng)中，這些點是用恒虛警率(CFAR)[23]算法對原始雷達(dá)信號進(jìn)行處理而產(chǎn)生的。這種方法的缺點是雷達(dá)回波的背景信息丟失，只有距離、方位和多普勒信息被保留了。這限制了對雷達(dá)信號進(jìn)行更高級別分類的能力。除了自主駕駛外，微多普勒[25][2]還應(yīng)用了深度神經(jīng)網(wǎng)絡(luò)進(jìn)行活動分類，但是這些方法并沒有解決空間定位的問題。

使用深度學(xué)習(xí)的傳感器融合
在最近的工作中，一些作者關(guān)注于相機(jī)和激光雷達(dá)的融合，這是不同于我們的目標(biāo)。此外，汽車?yán)走_(dá)系統(tǒng)返回的點云的稀疏性(通常≤64點)限制了使用雷達(dá)點云的激光雷達(dá)方法。多視圖三維(MV3D)[3]應(yīng)用特征提取分別對3幀:激光雷達(dá)鳥瞰圖，激光雷達(dá)前視圖，和相機(jī)前視圖。然后，激光雷達(dá)鳥瞰圖的特點是用來產(chǎn)生三維包圍框的建議，以指導(dǎo)最后融合的其他兩幀。在[15]中，作者依靠激光雷達(dá)和攝像機(jī)來提高目標(biāo)檢測的精度。激光雷達(dá)的鳥瞰圖是用來作為融合的相機(jī)功能在多個決議與激光雷達(dá)的特點。連續(xù)融合層考慮了攝像機(jī)幀中發(fā)生的遮擋，使融合在整個網(wǎng)絡(luò)中成為可能。PointFusion[26]使用了一個早期的工作(即。， PointNet[18])直接處理激光雷達(dá)點云，而不需要將其映射到2D平面。使用3D錨盒進(jìn)行融合增加了復(fù)雜性，同時使架構(gòu)更加一般化。

3 FusionNet

我們提出了FusionNet(圖1)，我們提出的架構(gòu)融合了來自多個傳感器的特征映射來進(jìn)行對象檢測。我們的網(wǎng)絡(luò)設(shè)計受到了SSD[16]的啟發(fā)，通過它，一個特征提取器網(wǎng)絡(luò)可以生成多尺度的特征圖，然后是檢測頭。然而，我們的網(wǎng)絡(luò)并沒有使用單一的特征提取網(wǎng)絡(luò)來提取攝像機(jī)圖像，而是將來自不同來源的觀測同一物理場景的輸入組合在一起。FusionNet的目標(biāo)是從觀察同一空間的不同傳感器中提取和組合特征，這些特征可能來自不同的角度，并且它們的相對位置已知。每個特征提取分支合并一個空間轉(zhuǎn)換，以便每個分支的輸出特征映射在空間上與其他分支對齊。
高級體系結(jié)構(gòu)
我們在FusionNet中實現(xiàn)了兩個分支，即處理來自雷達(dá)的距離-方位圖像的雷達(dá)分支和處理由前置相機(jī)捕獲的圖像的相機(jī)分支。在獨立的特征提取器分支之后，這些特征被傳遞到融合層。為了確保網(wǎng)絡(luò)從不同的信號源學(xué)習(xí)有意義的表示，我們采用了一種獨特的訓(xùn)練策略:部分凍結(jié)網(wǎng)絡(luò)并進(jìn)行微調(diào)。

雷達(dá)分支
與其他利用汽車?yán)走_(dá)的文獻(xiàn)相比，我們的網(wǎng)絡(luò)的輸入不是點云。相反，我們的雷達(dá)分支采用密集的2D距離-方位“圖像”，允許我們使用圖像對象檢測網(wǎng)絡(luò)中流行的特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)。由于目標(biāo)是預(yù)測笛卡爾坐標(biāo)中的邊界框，所以在中間特征圖中添加了一個映射層(如圖2所示)。根據(jù)經(jīng)驗，我們發(fā)現(xiàn)將空間轉(zhuǎn)換放在中間特征層的早期效果最好。在這個轉(zhuǎn)換之后，在與其他分支連接之前添加了更多的卷積層。
相機(jī)分支
為了將攝像機(jī)圖像轉(zhuǎn)換成笛卡爾空間，我們設(shè)計了一種逆投影映射，即攝像機(jī)圖像的單應(yīng)性變換。為了計算這個投影映射，我們首先假設(shè)攝像機(jī)正在成像一個平面場景(即雷達(dá)平面，它與道路平面近似平行)。然后，利用本征和非本征標(biāo)定信息，將笛卡爾雷達(dá)平面上的一組點投影到圖像坐標(biāo)上。然后使用標(biāo)準(zhǔn)的4點算法可以找到一個平面單應(yīng)性變換。在無法進(jìn)行校準(zhǔn)的情況下，也可以手動分配多個聯(lián)絡(luò)點，最終使用最小二乘法求解最佳單應(yīng)性。
攝像機(jī)分支的結(jié)構(gòu)與雷達(dá)分支非常相似。然而，我們并沒有在特征圖中進(jìn)行坐標(biāo)變換，而是根據(jù)經(jīng)驗發(fā)現(xiàn)，當(dāng)這種變換直接應(yīng)用于相機(jī)圖像而不是特征圖時，網(wǎng)絡(luò)的表現(xiàn)最好。經(jīng)單應(yīng)性變換后，輸入到網(wǎng)絡(luò)的圖像為3通道256×256彩色圖像。如果平面假設(shè)是正確的，并且相機(jī)相對于雷達(dá)不移動，那么圖像坐標(biāo)現(xiàn)在應(yīng)該與笛卡爾坐標(biāo)相匹配。
融合層
獨立特征提取器分支的輸出僅依賴于單個傳感器的數(shù)據(jù)。為了使網(wǎng)絡(luò)能夠使用來自多個傳感器的輸入進(jìn)行預(yù)測，我們使用了額外的融合層來結(jié)合兩個分支的特征。我們設(shè)計了這兩個分支，使它們的輸出特征映射的分辨率匹配。因此，我們可以簡單地將這些來自radar分支和camera分支的輸出特征連接起來，形成一個兩倍于通道數(shù)量的unifiedfeature map。接下來，我們在訓(xùn)練中應(yīng)用了一個 p= 0.5的dropout來引導(dǎo)網(wǎng)絡(luò)結(jié)合來自兩個分支的部分特性。最后，我們應(yīng)用1×1的卷積將信道數(shù)減少到原來的單個傳感器的信道數(shù)。
檢測輸出
對于目標(biāo)檢測，我們將SSD頭應(yīng)用到融合特征圖上。我們選擇錨盒來匹配訓(xùn)練集中的地面真值盒分布。我們使用k-means聚類(類似于[20,21])來構(gòu)建一組更適合我們的車輛檢測網(wǎng)絡(luò)的錨盒。應(yīng)該清楚的是，由于我們主要關(guān)注的是車輛，只有少數(shù)幾種類型的車輛通常在路上(例如，中型轎車，卡車)。特別是，考慮到美國交通部對車道寬度的限制，這些車輛的寬度變化很小。
基于平面假設(shè)的強(qiáng)度
平面道路似乎是一個非常強(qiáng)的假設(shè)，但事實并非如此。美國州際公路的最高等級為6%[1];考慮立即從0%等級轉(zhuǎn)換到6%等級，導(dǎo)致我們雷達(dá)的最大射程誤差為0.08m，低于我們雷達(dá)系統(tǒng)的距離分辨率(第4.1節(jié))。此外，道路等級是逐漸變化的，在大多數(shù)道路上，我們不應(yīng)該看到明顯和持續(xù)的等級變化。另一方面，更大的誤差來源是不可避免的機(jī)械振動。我們不能期望任何傳感器的安裝在一個移動的平臺上是完全剛性的。對于相機(jī)，這個錯誤表現(xiàn)為一個擺動的變換圖像，最明顯的是在頂部的變換圖像。對于雷達(dá)，這將轉(zhuǎn)化為采取一個傾斜的場景切片。沒有進(jìn)行顯式處理或數(shù)據(jù)清理來排除這些扭曲，我們期望網(wǎng)絡(luò)學(xué)會如何在融合過程中處理這些錯誤。

總結(jié)

以上是生活随笔為你收集整理的先进驾驶员辅助系统中用于车辆检测的雷达和摄像机早期融合的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：第二次作业--------STEAM
下一篇：基于JAVA毕业设计的超市管理系统