论文阅读:PMF基于视觉感知的多传感器融合点云语义分割Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation
題目:Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation
中文:用于 3D LiDAR 語義分割的多傳感器感知融合
來源:?ICCV 2021
鏈接:https://arxiv.org/abs/2106.15277v2
個人覺得有用的和自己理解加粗和()內(nèi)表示,盡量翻譯的比較全,有一些官方話就沒有翻譯了,一些疑惑的地方歡迎大家探討。[]內(nèi)引用的文獻(xiàn)如果感興趣,可以找到對應(yīng)原文去尋找閱讀,也可以一起探討。
如果對整個領(lǐng)域比較了解 建議只用看一下 引言最后一段 + 第三章網(wǎng)絡(luò)結(jié)構(gòu)即可。可以打開右側(cè)目錄跳轉(zhuǎn)~
0、摘要
????????3D LiDAR (光檢測和測距) 語義分割對于許多應(yīng)用 (例如自動駕駛和機(jī)器人技術(shù)) 在場景理解中很重要。例如,對于配備RGB攝像頭和激光雷達(dá)的自動駕駛汽車,至關(guān)重要的是融合來自不同傳感器的互補(bǔ)信息,以實(shí)現(xiàn)穩(wěn)健和準(zhǔn)確的分割。但是,由于兩種模式之間的巨大差異,現(xiàn)有的基于融合的方法可能無法實(shí)現(xiàn)有前途的性能。在這項(xiàng)工作中,我們研究了一種稱為多傳感器感知融合perception-aware multi-sensor fusion (PMF)的協(xié)作融合方案,以利用兩種模式的感知信息,即來自RGB圖像的外觀信息和來自點(diǎn)云的空間深度信息。為此,我們首先將點(diǎn)云投射到相機(jī)坐標(biāo)上,為RGB圖像提供空間深度信息。然后,我們提出了一個包含兩個工作流(激光雷達(dá)流+相機(jī)流)的網(wǎng)絡(luò),分別從兩種模態(tài)中提取特征,并通過有效的基于殘差的融合模塊融合特征。此外,我們提出了額外的感知感知損失來測量兩種模態(tài)之間的感知差異。在兩個基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明了我們方法的優(yōu)越性。例如,在nuScenes上,我們的PMF通過在mIoU中0.8% 而優(yōu)于最先進(jìn)的方法。
1、引言
????????語義場景理解是許多應(yīng)用程序的基本任務(wù),例如自動駕駛和機(jī)器人技術(shù) [16,34,47,48]。具體來說,在自動駕駛的場景中,它為高級運(yùn)動規(guī)劃提供了細(xì)粒度的環(huán)境信息,并提高了自動駕駛汽車的安全性 [3,18]。語義場景理解中的重要任務(wù)之一是語義分割,它為輸入數(shù)據(jù)中的每個數(shù)據(jù)點(diǎn)分配一個類標(biāo)簽,并幫助自動駕駛汽車更好地理解環(huán)境。
????????根據(jù)語義分割方法使用的傳感器,最近的研究可以分為三類:只用相機(jī)的方法 [2, 9, 10, 35, 58],只用激光雷達(dá)的方法 [1, 13, 26, 54, 62] 和多傳感器融合方法 [30、37、39、52、59]。借助大量開放訪問數(shù)據(jù)集 [6,12,14],僅相機(jī)方法取得了很大進(jìn)展。由于相機(jī)獲得的圖像具有豐富的外觀信息(例如,紋理和顏色),因此僅相機(jī)方法可以提供細(xì)粒度和準(zhǔn)確的語義分割結(jié)果。然而,作為被動傳感器,相機(jī)容易受到光照條件變化的影響,因此不可靠 [50]。為了解決這個問題,研究人員對 LiDAR 的點(diǎn)云進(jìn)行了語義分割。與僅使用相機(jī)的方法相比,僅使用 LiDAR 的方法對不同的光照條件更加穩(wěn)健,因?yàn)?LiDAR 可提供有關(guān)物理世界的可靠且準(zhǔn)確的空間深度信息。不幸的是,由于點(diǎn)云的稀疏和不規(guī)則分布,僅 LiDAR 的語義分割具有挑戰(zhàn)性。(相機(jī)和激光都有各自的缺點(diǎn))
????????此外,點(diǎn)云缺乏紋理和顏色信息,導(dǎo)致僅激光雷達(dá)方法的細(xì)粒度分割任務(wù)存在較高的分類誤差。解決僅攝像機(jī)和僅激光雷達(dá)方法的兩個缺點(diǎn)的簡單解決方案是融合來自兩個傳感器的多模態(tài)數(shù)據(jù),即多傳感器融合方法。盡管如此,由于RGB相機(jī)和激光雷達(dá)之間存在較大的領(lǐng)域差距,多傳感器融合仍然是一項(xiàng)艱巨的任務(wù)。
????????在多傳感器融合方法中,融合來自不同傳感器的多模態(tài)數(shù)據(jù)是一個重要問題。現(xiàn)有的基于融合的方法[37、52]主要使用球面投影[40]將密集的圖像特征投影到LiDAR坐標(biāo),并在稀疏的LiDAR域中進(jìn)行特征融合。然而,這些方法有一個關(guān)鍵的局限性:由于點(diǎn)云非常稀疏,RGB 圖像的大部分外觀信息在投影到 LiDAR 坐標(biāo)后都丟失了。例如,如圖1(c)所示,圖像中的汽車和摩托車因球面投影而變形。因此,現(xiàn)有的基于融合的方法難以從投影的 RGB 圖像中捕獲外觀信息。
????????在本文中,我們旨在開發(fā)一種有效的多傳感器融合方法。與現(xiàn)有方法 [37、52] 不同,我們假設(shè)并強(qiáng)調(diào)來自 RGB 圖像和點(diǎn)云的感知信息,即來自圖像的外觀信息和來自點(diǎn)云的空間深度信息,在基于融合的語義分割中很重要。基于這種直覺,我們提出了一種感知多傳感器融合(PMF)方案,該方案從三個方面對來自兩種數(shù)據(jù)模態(tài)的感知信息進(jìn)行協(xié)同融合。首先,我們提出了一種透視投影,將點(diǎn)云投影到相機(jī)坐標(biāo)系,以獲得 RGB 圖像的額外空間深度信息。其次,我們提出了一個包含相機(jī)流和激光雷達(dá)流的雙流網(wǎng)絡(luò) (TSNet),以分別從多模態(tài)傳感器中提取感知特征。考慮到來自圖像的信息在室外環(huán)境中不可靠,我們通過有效的基于殘差的融合(RF)模塊將圖像特征融合到 LiDAR 流中,這些模塊旨在學(xué)習(xí)原始 LiDAR 模塊的互補(bǔ)特征。第三,我們提出感知損失來衡量兩種數(shù)據(jù)模式之間巨大的感知差異,并促進(jìn)不同感知信息的融合。具體來說,如圖2所示,相機(jī)流和LiDAR流捕獲的感知特征是不同的。因此,我們使用置信度較高的預(yù)測來監(jiān)督置信度較低的預(yù)測。
我們的貢獻(xiàn)總結(jié)如下。首先,我們提出了一種感知的多傳感器融合 (PMF) 方案,以有效地融合來自RGB圖像和點(diǎn)云的感知信息。其次,通過融合來自點(diǎn)云的空間深度信息和來自RGB圖像的外觀信息,PMF能夠解決不希望的光照條件和稀疏點(diǎn)云的分割問題。更關(guān)鍵的是,PMF通過整合來自點(diǎn)云的信息,對RGB圖像的對抗性樣本具有魯棒性。第三,我們將感知感知損失引入網(wǎng)絡(luò),并迫使網(wǎng)絡(luò)從兩個不同的模態(tài)傳感器捕獲感知信息。在兩個基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明了我們方法的卓越性能。例如,在nuScenes [7] 上,通過在mIoU中0.8%,PMF的性能優(yōu)于Cylinder3D [64],這是一種最先進(jìn)的僅激光雷達(dá)方法。
2. 相關(guān)工作Related Work
2.1 僅相機(jī)方法 Camera-Only Methods
僅相機(jī)的語義分割旨在預(yù)測2D圖像的像素標(biāo)記。FCN [35] 是語義分割的基礎(chǔ)工作,它提出了一種基于圖像分類網(wǎng)絡(luò)的端到端全卷積體系結(jié)構(gòu)。除FCN外,最近的工作還通過探索多尺度信息 [9,31,63],擴(kuò)張卷積 [10,38,53] 和注意機(jī)制 [27,58] 獲得了重大改進(jìn)。然而,僅相機(jī)的方法容易受到照明 (例如,曝光不足或曝光過度) 的干擾,并且可能對室外場景不具有魯棒性。
2.2. 僅激光方法LiDAR-Only Methods
為了解決攝像頭的缺點(diǎn),激光雷達(dá)是自動駕駛汽車上的重要傳感器,因?yàn)樗鼘Ω鼜?fù)雜的場景具有魯棒性。根據(jù)預(yù)處理流水線,現(xiàn)有的點(diǎn)云方法主要包含兩類,包括直接方法 [26,44,45,64] 和基于投影的方法 [13,54,55,56]。直接方法通過直接處理原始3D點(diǎn)云來執(zhí)行語義分割。PointNet [44] 是該類別中的一項(xiàng)開創(chuàng)性工作,通過多層感知提取點(diǎn)云特征。隨后的擴(kuò)展,即 PointNet++ [45],進(jìn)一步聚合了多尺度采樣機(jī)制以聚合全局和局部特征。然而,這些方法沒有考慮室外場景中點(diǎn)云的不同稀疏性。 Cylinder3D [64] 通過使用 3D 圓柱分區(qū)和非對稱 3D 卷積網(wǎng)絡(luò)解決了這個問題。然而,直接方法具有較高的計(jì)算復(fù)雜度,這限制了它們在自動駕駛中的適用性。基于投影的方法更有效,因?yàn)樗鼈儗?3D 點(diǎn)云轉(zhuǎn)換為 2D 網(wǎng)格。在基于投影的方法中,研究人員專注于開發(fā)有效的投影方法,例如球面投影 [40、54] 和鳥瞰投影 [62]。這種 2D 表示允許研究人員研究基于現(xiàn)有 2D 卷積網(wǎng)絡(luò)的高效網(wǎng)絡(luò)架構(gòu) [1、13、21]。除了基于投影的方法之外,還可以通過現(xiàn)有的神經(jīng)架構(gòu)搜索 [8、22、42] 和模型壓縮技術(shù) [23、33、57] 輕松提高網(wǎng)絡(luò)效率。
2.3. 融合方法Multi-Sensor Fusion Methods
為了利用相機(jī)和激光雷達(dá)的優(yōu)勢,最近的工作試圖融合來自兩個互補(bǔ)傳感器的信息,以提高3D語義分割算法的準(zhǔn)確性和魯棒性 [30,37,39,52]。RGBAL [37] 將RGB圖像轉(zhuǎn)換為極坐標(biāo)網(wǎng)格映射表示,并設(shè)計(jì)早期和中級融合策略。PointPainting [52] 獲得圖像的分割結(jié)果,并通過使用鳥瞰投影 [62] 或球形投影 [40] 將其投影到激光雷達(dá)空間。將投影的分割分?jǐn)?shù)與原始點(diǎn)云特征相連接,以提高激光雷達(dá)網(wǎng)絡(luò)的性能。與在LiDAR域中執(zhí)行特征融合的現(xiàn)有方法不同,PMF利用了相機(jī)坐標(biāo)中多峰數(shù)據(jù)的協(xié)作融合。
3、我們的方法Proposed Method
在這項(xiàng)工作中,我們提出了一種感知感知多傳感器融合 (PMF) 方案,以對來自RGB圖像和點(diǎn)云的感知信息進(jìn)行有效融合。具體來說,如圖3所示,PMF包含三個組成部分 :( 1) 透視投影; (2) 具有基于殘差的融合模塊的雙流網(wǎng)絡(luò) (TSNet); (3) 感知感知損失。PMF的一般方案如算法1所示。我們首先使用透視投影將點(diǎn)云投影到相機(jī)坐標(biāo)系。然后,我們使用包含相機(jī)流和激光雷達(dá)流的雙流網(wǎng)絡(luò)分別從兩種模態(tài)中提取感知特征。來自相機(jī)流的特征通過基于殘差的融合模塊融合到激光雷達(dá)流中。最后,我們將感知感知損失引入網(wǎng)絡(luò)優(yōu)化中。
小知識圖片里的 w.r.t. :with respect to 關(guān)于
?3.1?透視投影的公式 Formulation of Perspective Projection
????????現(xiàn)有方法 [37,52] 主要使用球面投影將圖像投影到激光雷達(dá)坐標(biāo)系。但是,由于點(diǎn)云的稀疏性質(zhì),來自圖像的大多數(shù)外觀信息都隨球形投影而丟失 (請參見圖1)。為了解決這個問題,我們提出了透視投影,將稀疏點(diǎn)云投影到相機(jī)坐標(biāo)系。
? ? ? ? {P,X,y} 是來自給定數(shù)據(jù)集的訓(xùn)練樣本。分別是點(diǎn)云、圖像、點(diǎn)云的標(biāo)簽。
????????表示來自激光雷達(dá)的點(diǎn)云,N表示點(diǎn)數(shù)。點(diǎn)云P中的每個點(diǎn)Pi由3D坐標(biāo) (x,y,z) 和反射率值 (r) 組成。
????????是來自RGB相機(jī)的圖像,其中H和W分別表示圖像的高度和寬度。
????????是點(diǎn)云P的語義標(biāo)簽集。
????????在透視投影中,我們旨在將點(diǎn)云 P 從 LiDAR 坐標(biāo)投影到相機(jī)坐標(biāo)以獲得 2D LiDAR 特征。這里,C 表示投影點(diǎn)云的通道數(shù)。根據(jù)[17]的思想 ,我們通過將第四列附加到 Pi 獲得,并通過下面的公式計(jì)算相機(jī)坐標(biāo)中的投影點(diǎn)
????????是從激光雷達(dá)坐標(biāo)到相機(jī)坐標(biāo)的投影矩陣。R是旋轉(zhuǎn)矩陣,T和R可以通過[19]中的方法獲得。隨后,投影圖像中的對應(yīng)像素 (h,w)可以通過?和獲得。
????????由于點(diǎn)云很稀疏,投影圖像可能沒有對應(yīng)的點(diǎn)云p。因此,我們首先讓所有點(diǎn)初始化為0。根據(jù)[13],?對于每個投影圖像像素點(diǎn)(h,w),我們計(jì)算5個通道的雷達(dá)特征(d,x,y,z,r),。
3.2. PMF的結(jié)構(gòu)設(shè)計(jì)Architecture Design of PMF
由于圖像和點(diǎn)云是不同模態(tài)的數(shù)據(jù),因此很難使用單個網(wǎng)絡(luò)處理來自兩種模態(tài)的兩種類型的信息 [30]。受 [15, 49] 的啟發(fā),我們提出了一個包含相機(jī)流和 LiDAR 流的雙流網(wǎng)絡(luò) (TSNet),分別處理來自相機(jī)和 LiDAR 的特征,如圖3所示。通過這種方式,我們可以使用為圖像和點(diǎn)云設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)作為 TSNet 中每個流的主干。
令和M分別為TSNet中的激光雷達(dá)流和攝像機(jī)流(之后也都是這么定義的,帶~都指代的是激光,整體上是個很并行的網(wǎng)絡(luò),只有融合模塊有交集)。令和為輸出概率。每個網(wǎng)絡(luò),其中S表示語義類的數(shù)量。TSNet的輸出為
由于圖像的特征包含許多物體的細(xì)節(jié),因此我們引入了一個基于殘差的融合模塊,將圖像特征融合到 LiDAR 流中。如圖 4?(補(bǔ)充了公式對應(yīng)的位置)所示,。設(shè)是來自相機(jī)流的一組圖像特征,其中 l 表示我們在其中獲取特征的層。表示相機(jī)流中第l層的通道數(shù)。 和? 分別表示第 l 層特征圖的高度和寬度。設(shè)為來自 LiDAR 流的特征,其中表示 LiDAR 流中第 l 層的通道數(shù)。為了獲得融合特征,我們首先連接來自每個網(wǎng)絡(luò)的特征并使用卷積層來減少融合特征的通道數(shù)。融合特征由下式計(jì)算
其中 [·? ; ·] 表示串聯(lián)操作。fl(·) 是卷積運(yùn)算關(guān)于第l個融合模塊。
?考慮到相機(jī)容易受到不同光照和天氣條件的影響,RGB 圖像的信息在室外環(huán)境中并不可靠。我們使用融合的特征作為原始 LiDAR 特征的補(bǔ)充,并基于殘差結(jié)構(gòu)設(shè)計(jì)融合模塊 [24]。結(jié)合attention module [5], 融合模塊的輸出特征
σ是sigmoid,表示attention模塊中的卷積操作,⊙表示逐元素乘法運(yùn)算。
(這里圖四對應(yīng)的是圖三黃色部分,根絕圖三示意,l應(yīng)該就是3,也就是分層進(jìn)行融合操作)
3.3. 感知損失的構(gòu)建Construction of Perception-Aware Loss
感知感知損失的構(gòu)建在我們的方法中非常重要。如圖 2 所示,由于點(diǎn)云非常稀疏,LiDAR 流網(wǎng)絡(luò)僅學(xué)習(xí)點(diǎn)的局部特征而忽略了物體的形狀。相比之下,相機(jī)流可以很容易地從密集的圖像中捕捉到物體的形狀和紋理。換句話說,相機(jī)流和 LiDAR 流捕獲的感知特征是不同的。憑借這種直覺,我們引入了感知損失,使融合網(wǎng)絡(luò)專注于來自相機(jī)和 LiDAR 的感知特征。
為了測量激光雷達(dá)流中置信度,我們首先通過計(jì)算熵映射
根據(jù)[46]思想,我們使用logS來歸一化熵到(0,1]。激光雷達(dá)的置信度,同理相機(jī)流的置信度。
(熵:越平均可能性越大、熵越大,這里衡量的是結(jié)果分布情況。也就是說我們希望某個像素點(diǎn)的分類結(jié)果集中在某一個標(biāo)簽上,因此熵會很小,因此歸一化后希望趨近于0,而置信度就是趨近于1。自己的疑問,熵這里為什么不能是0呢)
注意到不是所有的相機(jī)流的信息都是有用的。例如,相機(jī)流在對象內(nèi)部是有信心的,但可能會在邊緣出錯。(中間比較準(zhǔn)邊緣測可能比較差)此外,置信度分?jǐn)?shù)較低的預(yù)測結(jié)果更容易出錯。結(jié)合置信度閾值,我們通過以下方式衡量攝像機(jī)流中感知信息的重要性
這里 τ 表示置信度閾值。
受 [25, 28, 61] 的啟發(fā),為了從相機(jī)流中學(xué)習(xí)感知信息,我們構(gòu)建了激光雷達(dá)流的預(yù)測感知損失
其中 Q = H · W 和 表示 KullbackLeibler 散度。
(這里個人理解是,假設(shè)目前相機(jī)的置信度比較高(超過了閾值),同時(shí)激光雷達(dá)的置信度沒這么高,此時(shí)就加到了中,這里相當(dāng)于是mask。因此會優(yōu)化激光流網(wǎng)絡(luò),讓結(jié)果向著和相機(jī)流的置信度優(yōu)化)。
除了感知損失外,我們還使用了現(xiàn)有分割工作中常用的multi-class focal loss [32] 和Lov′asz-softmax loss [4] 來訓(xùn)練激光雷達(dá)流。
?和分別是multi-class focal loss和Lov′asz-softmax loss,和是超參數(shù)。
原文沒有寫具體公式這里簡單講解一下
- focal loss,這個損失函數(shù)是在標(biāo)準(zhǔn)交叉熵?fù)p失基礎(chǔ)上修改得到的。這個函數(shù)可以通過減少易分類樣本的權(quán)重,使得模型在訓(xùn)練時(shí)更專注于難分類的樣本。解決類別不平衡的問題
- Lovász-Softmax?該損失基于凸 Lovasz 擴(kuò)展的子模塊損失,直接優(yōu)化神經(jīng)網(wǎng)絡(luò)中的平均 IoU。
?
????????雖然我看不懂但是大家肯定沒問題的,大概就是說這兩種loss比一般的交叉熵要好一點(diǎn)。可能優(yōu)化的更快一點(diǎn),或者結(jié)果更準(zhǔn)一點(diǎn)。還有幾個其他的損失函數(shù) 可以來看下別人的知乎總結(jié)深度學(xué)習(xí) - 損失函數(shù) - 知乎
第三個loss就是剛才的預(yù)測感知損失。
——————————————————————————接下來是一樣的
?與激光雷達(dá)流類似,我們構(gòu)造了用于優(yōu)化相機(jī)流的目標(biāo)。
(原文中的算法放在了最后這里,再來看一遍這個算法就可以看懂了,不過最后步驟6中的更新,感覺是用兩個loss分別更新兩個流的網(wǎng)絡(luò)。)
大佬們下邊其實(shí)就不用看了~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
4. 實(shí)驗(yàn)Experiments
在本節(jié)中,我們根據(jù)經(jīng)驗(yàn)評估 PMF 在基準(zhǔn)數(shù)據(jù)集上的性能,包括 SemanticKITTI [3] 和 nuScenes [7]。 SemanticKITTI 是一個基于 KITTI Odometry Benchmark [18] 的大規(guī)模數(shù)據(jù)集,提供 43,000 次帶有逐點(diǎn)語義標(biāo)注的掃描,其中 21,000 次掃描(序列 00-10)可用于訓(xùn)練和驗(yàn)證。該數(shù)據(jù)集有 19 個語義類,用于評估語義基準(zhǔn)。 nuScenes 包含 1,000 個具有不同天氣和光照條件的駕駛場景。場景分為 28,130 個訓(xùn)練幀和 6,019 個驗(yàn)證幀。與只提供前視攝像頭圖像的 SemanticKITTI 不同,nuScenes 有 6 個攝像頭用于 LiDAR 的不同視角。
4.1. 實(shí)施細(xì)節(jié)Implementation Details
我們在 PyTorch [43] 中實(shí)現(xiàn)了所提出的方法,并分別使用 ResNet-34 [24] 和 SalsaNext [13] 作為相機(jī)流和 LiDAR 流的主干。因?yàn)槲覀兲幚硐鄼C(jī)坐標(biāo)中的點(diǎn)云,所以我們將 ASPP [9] 納入 LiDAR 流網(wǎng)絡(luò)以自適應(yīng)調(diào)整感受野。為了利用現(xiàn)有圖像分類模型的優(yōu)勢,我們使用來自 [43] 的預(yù)訓(xùn)練 ImageNet 模型初始化 ResNet-34 的參數(shù)。我們還采用混合優(yōu)化方法 [60] 來訓(xùn)練網(wǎng)絡(luò) w.r.t.不同的模態(tài),即 SGD 和 Nesterov [41] 用于相機(jī)流,Adam [29] 用于 LiDAR 流。我們在兩個基準(zhǔn)數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò) 50 個時(shí)期。學(xué)習(xí)率從 0.001 開始,并使用余弦策略衰減到 0 [36]。我們在 SemanticKITTI 上將批量大小設(shè)置為 8,在 nuScenes 上將批量大小設(shè)置為 24。我們將 τ、γ、λ 分別設(shè)置為 0.7、0.5 和 1.0。3 為了防止過度擬合,使用了一系列數(shù)據(jù)增強(qiáng)策略,包括隨機(jī)水平翻轉(zhuǎn)、顏色抖動、2D 隨機(jī)旋轉(zhuǎn)和隨機(jī)裁剪。我們的源代碼可在 https://github.com/ICEORY/PMF 獲得。
4.2. KITTI結(jié)果Results on SemanticKITTI
為了評估我們在語義上的方法,我們將PMF與幾種最先進(jìn)的僅激光雷達(dá)方法 (包括SalsaNext [13],Cylinder3D [64] 等) 進(jìn)行了比較。由于SemanticKITTI僅提供前視攝像機(jī)的圖像,因此我們將點(diǎn)云投影到透視圖,并僅保留圖像上的可用點(diǎn)以構(gòu)建SemanticKITTI的子集。在 [13,28,64] 之后,我們使用序列08進(jìn)行驗(yàn)證。其余序列 (00-07和09-10) 用作訓(xùn)練集。我們在數(shù)據(jù)集上評估了最先進(jìn)的僅激光雷達(dá)方法的發(fā)布模型。由于SPVNAS [51] 沒有發(fā)布其最佳模型,因此我們報(bào)告了最佳發(fā)布模型 (帶有65G mac) 的結(jié)果。此外,我們在數(shù)據(jù)集上重新實(shí)現(xiàn)了兩種最先進(jìn)的基于融合的方法,即RGBAL [37] 和PointPainting [52]。
從表1中,PMF在基于投影的方法中獲得了最佳性能。例如,PMF在mIoU中4.5% 優(yōu)于SalsaNext。然而,通過在mIoU中1.0%,PMF的性能比最先進(jìn)的3D卷積方法 (即Cylinder3D) 差。由于長距離感知對自動駕駛汽車的安全性也至關(guān)重要,因此我們還對SemanticKITTI進(jìn)行了基于距離的評估。從圖5中,由于點(diǎn)云在距離增加時(shí)變得稀疏,因此僅激光雷達(dá)的方法在長距離下會遭受很大的性能下降。相反,由于圖像為遠(yuǎn)處的物體提供了更多信息,因此基于融合的方法在遠(yuǎn)距離上優(yōu)于僅激光雷達(dá)的方法。具體地,當(dāng)距離大于30米時(shí),PMF實(shí)現(xiàn)最佳性能。這表明我們的方法更適合解決稀疏點(diǎn)云的分割問題。這種能力源于我們的融合策略,該策略有效地結(jié)合了RGB圖像。
4.3.nuScenes的結(jié)果 Results on nuScenes
在 [64] 之后,為了在更復(fù)雜的場景中評估我們的方法,我們將PMF與nuScenes LiDAR-seg驗(yàn)證集上的最新方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果如表2所示。注意,nuScenes的點(diǎn)云比SemanticKITTI的點(diǎn)云稀疏 (35k點(diǎn)/幀對125k點(diǎn)/幀)。因此,對于3D分割任務(wù)而言更具挑戰(zhàn)性。在這種情況下,與LiDARonly方法相比,PMF達(dá)到了最佳性能。具體而言,PMF在mIoU中0.8% 優(yōu)于Cylinder3D。此外,與最先進(jìn)的2D卷積方法 (即SalsaNext) 相比,PMF在mIoU方面取得了4.7% 的改善。這些結(jié)果與我們的預(yù)期一致。由于PMF結(jié)合了RGB圖像,因此我們的融合策略能夠解決稀疏點(diǎn)云下這種具有挑戰(zhàn)性的分割。
?4.4. 定性評價(jià)Qualitative Evaluation
為了更好地理解 PMF 的優(yōu)勢,我們可視化了 PMF 在基準(zhǔn)數(shù)據(jù)集上的預(yù)測。4從圖 6 中可以看出,與 Cylinder3D 相比,PMF 在對象邊緣實(shí)現(xiàn)了更好的性能。例如,如圖 6 (d) 所示,PMF 分割的卡車具有更完整的形狀。更關(guān)鍵的是,PMF 對不同的照明條件具有魯棒性。具體來說,如圖 7 所示,PMF 在更具挑戰(zhàn)性的場景(例如夜晚)上優(yōu)于基線。此外,如圖 6 (e) 和圖 7 (c) 所示,PMF 生成密集的分割結(jié)果,結(jié)合了相機(jī)和 LiDAR 的優(yōu)點(diǎn),這與現(xiàn)有的僅 LiDAR 和基于融合的方法有很大不同。
4.5. Adversarial Analysis
為了研究 PMF 在對抗樣本上的穩(wěn)健性,我們首先向圖像插入額外的對象(例如,交通標(biāo)志)并保持點(diǎn)云不變。5 此外,我們實(shí)施了一種僅限相機(jī)的方法,即 FCN [35] , 以 SemanticKITTI 為基線。請注意,我們在訓(xùn)練期間不使用任何對抗訓(xùn)練技術(shù)。如圖 8 所示,僅相機(jī)方法很容易受到輸入圖像變化的影響。相比之下,由于 PMF 集成了可靠的點(diǎn)云信息,因此在特征融合過程中圖像中的噪聲減少,對模型性能的影響很小。
(這個感覺就是p圖,然后說FCN僅圖像的效果不好。感覺有一點(diǎn)點(diǎn)牽強(qiáng),因?yàn)槿诤闲畔H作為類似加強(qiáng)信息加到激光網(wǎng)絡(luò)中,所以加入在激光中加入噪聲,不知道結(jié)果。不過以前有一個想法,加入一輛車的涂裝是馬路顏色,純視覺的能分辨出來的嗎)
4.6. Efficiency Analysis
在本節(jié)中,我們評估 PMF 在 GeForce RTX 3090 上的效率。請注意,我們從兩個方面考慮 PMF 的效率。首先,由于相機(jī)流的預(yù)測被融合到 LiDAR 流中,我們刪除了相機(jī)流的解碼器以加速推理。其次,我們的 PMF 建立在二維卷積之上,可以通過現(xiàn)有的推理工具包(例如 TensorRT)輕松優(yōu)化。相比之下,Cylinder3D 是建立在 3D 稀疏卷積 [20] 上的,很難被 TensorRT 加速。我們在表 3 中報(bào)告了通過 TensorRT 優(yōu)化的不同模型的推理時(shí)間。從結(jié)果來看,我們的 PMF 在 nuScenes 上實(shí)現(xiàn)了最佳性能,并且比 Cylinder3D 快 2.8 倍(22.3 毫秒對 62.5 毫秒)且參數(shù)更少。
5. 消融實(shí)驗(yàn)Ablation Study
5.1. 網(wǎng)絡(luò)組件的影響Effect of Network Components
我們研究了PMF的網(wǎng)絡(luò)組件的影響,即透視投影,ASPP,基于殘差的融合模塊和感知感知損失。實(shí)驗(yàn)結(jié)果如表4所示。由于我們僅使用SemanticKITTI的frontview point云,因此我們使用官方發(fā)布的代碼將SalsaNext訓(xùn)練為數(shù)據(jù)集的基線。比較表4中的第一行和第二行,與僅激光雷達(dá)輸入的球形投影相比,透視投影僅實(shí)現(xiàn)0.4% 的mIoU改進(jìn)。相比之下,對比第四和第五行,透視投影帶來了比具有多模態(tài)數(shù)據(jù)輸入的球形投影5.9% 的mIoU改進(jìn)。從第三和第五線開始,我們的融合模塊為融合網(wǎng)絡(luò)帶來了2.0% 的mIoU改進(jìn)。此外,比較第五和第六行,感知感知損耗通過2.2% mIoU來提高網(wǎng)絡(luò)性能。
5.2. 感知損失影響Effect of Perception-Aware Loss
為了研究感知感知損失的影響,我們在圖9中可視化了有和沒有感知感知損失的LiDAR流網(wǎng)絡(luò)的預(yù)測。從結(jié)果來看,感知感知損失有助于激光雷達(dá)流從圖像中捕獲感知信息。例如,用感知感知損失訓(xùn)練的模型學(xué)習(xí)汽車的完整形狀,而基線模型只關(guān)注點(diǎn)的局部特征。由于感知感知損失引入了RGB圖像和點(diǎn)云之間的感知差異,因此可以有效地融合來自兩種模態(tài)數(shù)據(jù)的感知信息。結(jié)果,我們的PMF生成了密集的預(yù)測,這些預(yù)測結(jié)合了圖像和點(diǎn)云的好處。
6. 結(jié)論Conclusion
在這項(xiàng)工作中,我們提出了一種用于 3D LiDAR 語義分割的感知感知多傳感器融合方案。與在 LiDAR 坐標(biāo)系中進(jìn)行特征融合的現(xiàn)有方法不同,我們將點(diǎn)云投影到相機(jī)坐標(biāo)系,以實(shí)現(xiàn)來自兩種模態(tài)的感知特征的協(xié)同融合。此外,通過融合來自相機(jī)和 LiDAR 的互補(bǔ)信息,PMF 對復(fù)雜的室外場景具有魯棒性。兩個基準(zhǔn)的實(shí)驗(yàn)結(jié)果表明了我們方法的優(yōu)越性。未來,我們會將 PMF 擴(kuò)展到自動駕駛中的其他具有挑戰(zhàn)性的任務(wù),例如目標(biāo)檢測。(為啥我感覺語義分割比目標(biāo)檢測更難)
整理不易,求點(diǎn)贊!
總結(jié)
以上是生活随笔為你收集整理的论文阅读:PMF基于视觉感知的多传感器融合点云语义分割Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AndroidStudio动态so库加载
- 下一篇: Kubernetes 学习总结(34)—