日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读:PMF基于视觉感知的多传感器融合点云语义分割Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation

發布時間:2023/12/29 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文阅读:PMF基于视觉感知的多传感器融合点云语义分割Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

題目:Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation

中文:用于 3D LiDAR 語義分割的多傳感器感知融合

來源:?ICCV 2021

鏈接:https://arxiv.org/abs/2106.15277v2

個人覺得有用的和自己理解加粗和()內表示,盡量翻譯的比較全,有一些官方話就沒有翻譯了,一些疑惑的地方歡迎大家探討。[]內引用的文獻如果感興趣,可以找到對應原文去尋找閱讀,也可以一起探討。

如果對整個領域比較了解 建議只用看一下 引言最后一段 + 第三章網絡結構即可。可以打開右側目錄跳轉~

0、摘要

????????3D LiDAR (光檢測和測距) 語義分割對于許多應用 (例如自動駕駛和機器人技術) 在場景理解中很重要。例如,對于配備RGB攝像頭和激光雷達的自動駕駛汽車,至關重要的是融合來自不同傳感器的互補信息,以實現穩健和準確的分割。但是,由于兩種模式之間的巨大差異,現有的基于融合的方法可能無法實現有前途的性能。在這項工作中,我們研究了一種稱為多傳感器感知融合perception-aware multi-sensor fusion (PMF)的協作融合方案,以利用兩種模式的感知信息,即來自RGB圖像的外觀信息和來自點云的空間深度信息。為此,我們首先將點云投射到相機坐標上,為RGB圖像提供空間深度信息。然后,我們提出了一個包含兩個工作流(激光雷達流+相機流)的網絡,分別從兩種模態中提取特征,并通過有效的基于殘差的融合模塊融合特征。此外,我們提出了額外的感知感知損失來測量兩種模態之間的感知差異。在兩個基準數據集上進行的大量實驗表明了我們方法的優越性。例如,在nuScenes上,我們的PMF通過在mIoU中0.8% 而優于最先進的方法。

1、引言

????????語義場景理解是許多應用程序的基本任務,例如自動駕駛和機器人技術 [16,34,47,48]。具體來說,在自動駕駛的場景中,它為高級運動規劃提供了細粒度的環境信息,并提高了自動駕駛汽車的安全性 [3,18]。語義場景理解中的重要任務之一是語義分割,它為輸入數據中的每個數據點分配一個類標簽,并幫助自動駕駛汽車更好地理解環境。

????????根據語義分割方法使用的傳感器,最近的研究可以分為三類只用相機的方法 [2, 9, 10, 35, 58],只用激光雷達的方法 [1, 13, 26, 54, 62] 和多傳感器融合方法 [30、37、39、52、59]。借助大量開放訪問數據集 [6,12,14],僅相機方法取得了很大進展。由于相機獲得的圖像具有豐富的外觀信息(例如,紋理和顏色),因此僅相機方法可以提供細粒度和準確的語義分割結果。然而,作為被動傳感器,相機容易受到光照條件變化的影響,因此不可靠 [50]。為了解決這個問題,研究人員對 LiDAR 的點云進行了語義分割。與僅使用相機的方法相比,僅使用 LiDAR 的方法對不同的光照條件更加穩健,因為 LiDAR 可提供有關物理世界的可靠且準確的空間深度信息。不幸的是,由于點云的稀疏和不規則分布,僅 LiDAR 的語義分割具有挑戰性。(相機和激光都有各自的缺點)

????????此外,點云缺乏紋理和顏色信息,導致僅激光雷達方法的細粒度分割任務存在較高的分類誤差。解決僅攝像機和僅激光雷達方法的兩個缺點的簡單解決方案是融合來自兩個傳感器的多模態數據,即多傳感器融合方法。盡管如此,由于RGB相機和激光雷達之間存在較大的領域差距,多傳感器融合仍然是一項艱巨的任務。

????????在多傳感器融合方法中,融合來自不同傳感器的多模態數據是一個重要問題。現有的基于融合的方法[37、52]主要使用球面投影[40]將密集的圖像特征投影到LiDAR坐標,并在稀疏的LiDAR域中進行特征融合。然而,這些方法有一個關鍵的局限性:由于點云非常稀疏,RGB 圖像的大部分外觀信息在投影到 LiDAR 坐標后都丟失了。例如,如圖1(c)所示,圖像中的汽車和摩托車因球面投影而變形。因此,現有的基于融合的方法難以從投影的 RGB 圖像中捕獲外觀信息。

????????在本文中,我們旨在開發一種有效的多傳感器融合方法。與現有方法 [37、52] 不同,我們假設并強調來自 RGB 圖像和點云的感知信息,即來自圖像的外觀信息和來自點云的空間深度信息,在基于融合的語義分割中很重要。基于這種直覺,我們提出了一種感知多傳感器融合(PMF)方案,該方案從三個方面對來自兩種數據模態的感知信息進行協同融合。首先,我們提出了一種透視投影,將點云投影到相機坐標系,以獲得 RGB 圖像的額外空間深度信息。其次,我們提出了一個包含相機流和激光雷達流的雙流網絡 (TSNet),以分別從多模態傳感器中提取感知特征。考慮到來自圖像的信息在室外環境中不可靠,我們通過有效的基于殘差的融合(RF)模塊將圖像特征融合到 LiDAR 流中,這些模塊旨在學習原始 LiDAR 模塊的互補特征。第三,我們提出感知損失來衡量兩種數據模式之間巨大的感知差異,并促進不同感知信息的融合。具體來說,如圖2所示,相機流和LiDAR流捕獲的感知特征是不同的。因此,我們使用置信度較高的預測來監督置信度較低的預測。

我們的貢獻總結如下。首先我們提出了一種感知的多傳感器融合 (PMF) 方案,以有效地融合來自RGB圖像和點云的感知信息。其次,通過融合來自點云的空間深度信息和來自RGB圖像的外觀信息,PMF能夠解決不希望的光照條件和稀疏點云的分割問題。更關鍵的是,PMF通過整合來自點云的信息,對RGB圖像的對抗性樣本具有魯棒性。第三,我們將感知感知損失引入網絡,并迫使網絡從兩個不同的模態傳感器捕獲感知信息。在兩個基準數據集上進行的大量實驗證明了我們方法的卓越性能。例如,在nuScenes [7] 上,通過在mIoU中0.8%,PMF的性能優于Cylinder3D [64],這是一種最先進的僅激光雷達方法。

2. 相關工作Related Work

2.1 僅相機方法 Camera-Only Methods

僅相機的語義分割旨在預測2D圖像的像素標記。FCN [35] 是語義分割的基礎工作,它提出了一種基于圖像分類網絡的端到端全卷積體系結構。除FCN外,最近的工作還通過探索多尺度信息 [9,31,63],擴張卷積 [10,38,53] 和注意機制 [27,58] 獲得了重大改進。然而,僅相機的方法容易受到照明 (例如,曝光不足或曝光過度) 的干擾,并且可能對室外場景不具有魯棒性。

2.2. 僅激光方法LiDAR-Only Methods

為了解決攝像頭的缺點,激光雷達是自動駕駛汽車上的重要傳感器,因為它對更復雜的場景具有魯棒性。根據預處理流水線,現有的點云方法主要包含兩類,包括直接方法 [26,44,45,64] 和基于投影的方法 [13,54,55,56]。直接方法通過直接處理原始3D點云來執行語義分割。PointNet [44] 是該類別中的一項開創性工作,通過多層感知提取點云特征。隨后的擴展,即 PointNet++ [45],進一步聚合了多尺度采樣機制以聚合全局和局部特征。然而,這些方法沒有考慮室外場景中點云的不同稀疏性。 Cylinder3D [64] 通過使用 3D 圓柱分區和非對稱 3D 卷積網絡解決了這個問題。然而,直接方法具有較高的計算復雜度,這限制了它們在自動駕駛中的適用性。基于投影的方法更有效,因為它們將 3D 點云轉換為 2D 網格。在基于投影的方法中,研究人員專注于開發有效的投影方法,例如球面投影 [40、54] 和鳥瞰投影 [62]。這種 2D 表示允許研究人員研究基于現有 2D 卷積網絡的高效網絡架構 [1、13、21]。除了基于投影的方法之外,還可以通過現有的神經架構搜索 [8、22、42] 和模型壓縮技術 [23、33、57] 輕松提高網絡效率。

2.3. 融合方法Multi-Sensor Fusion Methods

為了利用相機和激光雷達的優勢,最近的工作試圖融合來自兩個互補傳感器的信息,以提高3D語義分割算法的準確性和魯棒性 [30,37,39,52]。RGBAL [37] 將RGB圖像轉換為極坐標網格映射表示,并設計早期和中級融合策略。PointPainting [52] 獲得圖像的分割結果,并通過使用鳥瞰投影 [62] 或球形投影 [40] 將其投影到激光雷達空間。將投影的分割分數與原始點云特征相連接,以提高激光雷達網絡的性能。與在LiDAR域中執行特征融合的現有方法不同,PMF利用了相機坐標中多峰數據的協作融合。

3、我們的方法Proposed Method

在這項工作中,我們提出了一種感知感知多傳感器融合 (PMF) 方案,以對來自RGB圖像和點云的感知信息進行有效融合。具體來說,如圖3所示,PMF包含三個組成部分 :( 1) 透視投影; (2) 具有基于殘差的融合模塊的雙流網絡 (TSNet); (3) 感知感知損失。PMF的一般方案如算法1所示。我們首先使用透視投影將點云投影到相機坐標系。然后,我們使用包含相機流和激光雷達流的雙流網絡分別從兩種模態中提取感知特征。來自相機流的特征通過基于殘差的融合模塊融合到激光雷達流中。最后,我們將感知感知損失引入網絡優化中。

小知識圖片里的 w.r.t. :with respect to 關于

?3.1?透視投影的公式 Formulation of Perspective Projection

????????現有方法 [37,52] 主要使用球面投影將圖像投影到激光雷達坐標系。但是,由于點云的稀疏性質,來自圖像的大多數外觀信息都隨球形投影而丟失 (請參見圖1)。為了解決這個問題,我們提出了透視投影,將稀疏點云投影到相機坐標系。

? ? ? ? {P,X,y} 是來自給定數據集的訓練樣本。分別是點云、圖像、點云的標簽。

????????表示來自激光雷達的點云,N表示點數。點云P中的每個點Pi由3D坐標 (x,y,z) 和反射率值 (r) 組成。

????????是來自RGB相機的圖像,其中H和W分別表示圖像的高度和寬度。

????????是點云P的語義標簽集。

????????在透視投影中,我們旨在將點云 P 從 LiDAR 坐標投影到相機坐標以獲得 2D LiDAR 特征。這里,C 表示投影點云的通道數。根據[17]的思想 ,我們通過將第四列附加到 Pi 獲得,并通過下面的公式計算相機坐標中的投影點

????????是從激光雷達坐標到相機坐標的投影矩陣。R是旋轉矩陣,T和R可以通過[19]中的方法獲得。隨后,投影圖像中的對應像素 (h,w)可以通過?和獲得。

????????由于點云很稀疏,投影圖像可能沒有對應的點云p。因此,我們首先讓所有點初始化為0。根據[13],?對于每個投影圖像像素點(h,w),我們計算5個通道的雷達特征(d,x,y,z,r),。

3.2. PMF的結構設計Architecture Design of PMF

由于圖像和點云是不同模態的數據,因此很難使用單個網絡處理來自兩種模態的兩種類型的信息 [30]。受 [15, 49] 的啟發,我們提出了一個包含相機流和 LiDAR 流的雙流網絡 (TSNet),分別處理來自相機和 LiDAR 的特征,如圖3所示。通過這種方式,我們可以使用為圖像和點云設計的網絡架構作為 TSNet 中每個流的主干。

令和M分別為TSNet中的激光雷達流和攝像機流(之后也都是這么定義的,帶~都指代的是激光,整體上是個很并行的網絡,只有融合模塊有交集)。令和為輸出概率。每個網絡,其中S表示語義類的數量。TSNet的輸出為

由于圖像的特征包含許多物體的細節,因此我們引入了一個基于殘差的融合模塊,將圖像特征融合到 LiDAR 流中。如圖 4?(補充了公式對應的位置)所示,。設是來自相機流的一組圖像特征,其中 l 表示我們在其中獲取特征的層。表示相機流中第l層的通道數。 和? 分別表示第 l 層特征圖的高度和寬度。設為來自 LiDAR 流的特征,其中表示 LiDAR 流中第 l 層的通道數。為了獲得融合特征,我們首先連接來自每個網絡的特征并使用卷積層來減少融合特征的通道數。融合特征由下式計算

其中 [·? ; ·] 表示串聯操作。fl(·) 是卷積運算關于第l個融合模塊。

?考慮到相機容易受到不同光照和天氣條件的影響,RGB 圖像的信息在室外環境中并不可靠。我們使用融合的特征作為原始 LiDAR 特征的補充,并基于殘差結構設計融合模塊 [24]。結合attention module [5], 融合模塊的輸出特征

σ是sigmoid,表示attention模塊中的卷積操作,⊙表示逐元素乘法運算。

(這里圖四對應的是圖三黃色部分,根絕圖三示意,l應該就是3,也就是分層進行融合操作)

3.3. 感知損失的構建Construction of Perception-Aware Loss

感知感知損失的構建在我們的方法中非常重要。如圖 2 所示,由于點云非常稀疏,LiDAR 流網絡僅學習點的局部特征而忽略了物體的形狀。相比之下,相機流可以很容易地從密集的圖像中捕捉到物體的形狀和紋理。換句話說,相機流和 LiDAR 流捕獲的感知特征是不同的。憑借這種直覺,我們引入了感知損失,使融合網絡專注于來自相機和 LiDAR 的感知特征。

為了測量激光雷達流中置信度,我們首先通過計算熵映射

根據[46]思想,我們使用logS來歸一化熵到(0,1]。激光雷達的置信度同理相機流的置信度

(熵:越平均可能性越大、熵越大,這里衡量的是結果分布情況。也就是說我們希望某個像素點的分類結果集中在某一個標簽上,因此熵會很小,因此歸一化后希望趨近于0,而置信度就是趨近于1。自己的疑問,熵這里為什么不能是0呢)

注意到不是所有的相機流的信息都是有用的。例如,相機流在對象內部是有信心的,但可能會在邊緣出錯。(中間比較準邊緣測可能比較差)此外,置信度分數較低的預測結果更容易出錯。結合置信度閾值,我們通過以下方式衡量攝像機流中感知信息的重要性

這里 τ 表示置信度閾值。

受 [25, 28, 61] 的啟發,為了從相機流中學習感知信息,我們構建了激光雷達流的預測感知損失

其中 Q = H · W 和 表示 KullbackLeibler 散度。

(這里個人理解是,假設目前相機的置信度比較高(超過了閾值),同時激光雷達的置信度沒這么高,此時就加到了中,這里相當于是mask。因此會優化激光流網絡,讓結果向著和相機流的置信度優化)。

除了感知損失外,我們還使用了現有分割工作中常用的multi-class focal loss [32] 和Lov′asz-softmax loss [4] 來訓練激光雷達流。

?和分別是multi-class focal loss和Lov′asz-softmax loss,和是超參數。

原文沒有寫具體公式這里簡單講解一下

  • focal loss,這個損失函數是在標準交叉熵損失基礎上修改得到的。這個函數可以通過減少易分類樣本的權重,使得模型在訓練時更專注于難分類的樣本。解決類別不平衡的問題

  • Lovász-Softmax?該損失基于凸 Lovasz 擴展的子模塊損失,直接優化神經網絡中的平均 IoU。

?

????????雖然我看不懂但是大家肯定沒問題的,大概就是說這兩種loss比一般的交叉熵要好一點。可能優化的更快一點,或者結果更準一點。還有幾個其他的損失函數 可以來看下別人的知乎總結深度學習 - 損失函數 - 知乎

第三個loss就是剛才的預測感知損失。

——————————————————————————接下來是一樣的

?與激光雷達流類似,我們構造了用于優化相機流的目標。

(原文中的算法放在了最后這里,再來看一遍這個算法就可以看懂了,不過最后步驟6中的更新,感覺是用兩個loss分別更新兩個流的網絡。)

大佬們下邊其實就不用看了~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

4. 實驗Experiments

在本節中,我們根據經驗評估 PMF 在基準數據集上的性能,包括 SemanticKITTI [3] 和 nuScenes [7]。 SemanticKITTI 是一個基于 KITTI Odometry Benchmark [18] 的大規模數據集,提供 43,000 次帶有逐點語義標注的掃描,其中 21,000 次掃描(序列 00-10)可用于訓練和驗證。該數據集有 19 個語義類,用于評估語義基準。 nuScenes 包含 1,000 個具有不同天氣和光照條件的駕駛場景。場景分為 28,130 個訓練幀和 6,019 個驗證幀。與只提供前視攝像頭圖像的 SemanticKITTI 不同,nuScenes 有 6 個攝像頭用于 LiDAR 的不同視角。

4.1. 實施細節Implementation Details

我們在 PyTorch [43] 中實現了所提出的方法,并分別使用 ResNet-34 [24] 和 SalsaNext [13] 作為相機流和 LiDAR 流的主干。因為我們處理相機坐標中的點云,所以我們將 ASPP [9] 納入 LiDAR 流網絡以自適應調整感受野。為了利用現有圖像分類模型的優勢,我們使用來自 [43] 的預訓練 ImageNet 模型初始化 ResNet-34 的參數。我們還采用混合優化方法 [60] 來訓練網絡 w.r.t.不同的模態,即 SGD 和 Nesterov [41] 用于相機流,Adam [29] 用于 LiDAR 流。我們在兩個基準數據集上訓練網絡 50 個時期。學習率從 0.001 開始,并使用余弦策略衰減到 0 [36]。我們在 SemanticKITTI 上將批量大小設置為 8,在 nuScenes 上將批量大小設置為 24。我們將 τ、γ、λ 分別設置為 0.7、0.5 和 1.0。3 為了防止過度擬合,使用了一系列數據增強策略,包括隨機水平翻轉、顏色抖動、2D 隨機旋轉和隨機裁剪。我們的源代碼可在 https://github.com/ICEORY/PMF 獲得。

4.2. KITTI結果Results on SemanticKITTI

為了評估我們在語義上的方法,我們將PMF與幾種最先進的僅激光雷達方法 (包括SalsaNext [13],Cylinder3D [64] 等) 進行了比較。由于SemanticKITTI僅提供前視攝像機的圖像,因此我們將點云投影到透視圖,并僅保留圖像上的可用點以構建SemanticKITTI的子集。在 [13,28,64] 之后,我們使用序列08進行驗證。其余序列 (00-07和09-10) 用作訓練集。我們在數據集上評估了最先進的僅激光雷達方法的發布模型。由于SPVNAS [51] 沒有發布其最佳模型,因此我們報告了最佳發布模型 (帶有65G mac) 的結果。此外,我們在數據集上重新實現了兩種最先進的基于融合的方法,即RGBAL [37] 和PointPainting [52]。

從表1中,PMF在基于投影的方法中獲得了最佳性能。例如,PMF在mIoU中4.5% 優于SalsaNext。然而,通過在mIoU中1.0%,PMF的性能比最先進的3D卷積方法 (即Cylinder3D) 差。由于長距離感知對自動駕駛汽車的安全性也至關重要,因此我們還對SemanticKITTI進行了基于距離的評估。從圖5中,由于點云在距離增加時變得稀疏,因此僅激光雷達的方法在長距離下會遭受很大的性能下降。相反,由于圖像為遠處的物體提供了更多信息,因此基于融合的方法在遠距離上優于僅激光雷達的方法。具體地,當距離大于30米時,PMF實現最佳性能。這表明我們的方法更適合解決稀疏點云的分割問題。這種能力源于我們的融合策略,該策略有效地結合了RGB圖像。

4.3.nuScenes的結果 Results on nuScenes

在 [64] 之后,為了在更復雜的場景中評估我們的方法,我們將PMF與nuScenes LiDAR-seg驗證集上的最新方法進行了比較。實驗結果如表2所示。注意,nuScenes的點云比SemanticKITTI的點云稀疏 (35k點/幀對125k點/幀)。因此,對于3D分割任務而言更具挑戰性。在這種情況下,與LiDARonly方法相比,PMF達到了最佳性能。具體而言,PMF在mIoU中0.8% 優于Cylinder3D。此外,與最先進的2D卷積方法 (即SalsaNext) 相比,PMF在mIoU方面取得了4.7% 的改善。這些結果與我們的預期一致。由于PMF結合了RGB圖像,因此我們的融合策略能夠解決稀疏點云下這種具有挑戰性的分割。

?4.4. 定性評價Qualitative Evaluation

為了更好地理解 PMF 的優勢,我們可視化了 PMF 在基準數據集上的預測。4從圖 6 中可以看出,與 Cylinder3D 相比,PMF 在對象邊緣實現了更好的性能。例如,如圖 6 (d) 所示,PMF 分割的卡車具有更完整的形狀。更關鍵的是,PMF 對不同的照明條件具有魯棒性。具體來說,如圖 7 所示,PMF 在更具挑戰性的場景(例如夜晚)上優于基線。此外,如圖 6 (e) 和圖 7 (c) 所示,PMF 生成密集的分割結果,結合了相機和 LiDAR 的優點,這與現有的僅 LiDAR 和基于融合的方法有很大不同。

4.5. Adversarial Analysis

為了研究 PMF 在對抗樣本上的穩健性,我們首先向圖像插入額外的對象(例如,交通標志)并保持點云不變。5 此外,我們實施了一種僅限相機的方法,即 FCN [35] , 以 SemanticKITTI 為基線。請注意,我們在訓練期間不使用任何對抗訓練技術。如圖 8 所示,僅相機方法很容易受到輸入圖像變化的影響。相比之下,由于 PMF 集成了可靠的點云信息,因此在特征融合過程中圖像中的噪聲減少,對模型性能的影響很小。

(這個感覺就是p圖,然后說FCN僅圖像的效果不好。感覺有一點點牽強,因為融合信息僅作為類似加強信息加到激光網絡中,所以加入在激光中加入噪聲,不知道結果。不過以前有一個想法,加入一輛車的涂裝是馬路顏色,純視覺的能分辨出來的嗎)

4.6. Efficiency Analysis

在本節中,我們評估 PMF 在 GeForce RTX 3090 上的效率。請注意,我們從兩個方面考慮 PMF 的效率。首先,由于相機流的預測被融合到 LiDAR 流中,我們刪除了相機流的解碼器以加速推理。其次,我們的 PMF 建立在二維卷積之上,可以通過現有的推理工具包(例如 TensorRT)輕松優化。相比之下,Cylinder3D 是建立在 3D 稀疏卷積 [20] 上的,很難被 TensorRT 加速。我們在表 3 中報告了通過 TensorRT 優化的不同模型的推理時間。從結果來看,我們的 PMF 在 nuScenes 上實現了最佳性能,并且比 Cylinder3D 快 2.8 倍(22.3 毫秒對 62.5 毫秒)且參數更少。

5. 消融實驗Ablation Study

5.1. 網絡組件的影響Effect of Network Components

我們研究了PMF的網絡組件的影響,即透視投影,ASPP,基于殘差的融合模塊和感知感知損失。實驗結果如表4所示。由于我們僅使用SemanticKITTI的frontview point云,因此我們使用官方發布的代碼將SalsaNext訓練為數據集的基線。比較表4中的第一行和第二行,與僅激光雷達輸入的球形投影相比,透視投影僅實現0.4% 的mIoU改進。相比之下,對比第四和第五行,透視投影帶來了比具有多模態數據輸入的球形投影5.9% 的mIoU改進。從第三和第五線開始,我們的融合模塊為融合網絡帶來了2.0% 的mIoU改進。此外,比較第五和第六行,感知感知損耗通過2.2% mIoU來提高網絡性能。

5.2. 感知損失影響Effect of Perception-Aware Loss

為了研究感知感知損失的影響,我們在圖9中可視化了有和沒有感知感知損失的LiDAR流網絡的預測。從結果來看,感知感知損失有助于激光雷達流從圖像中捕獲感知信息。例如,用感知感知損失訓練的模型學習汽車的完整形狀,而基線模型只關注點的局部特征。由于感知感知損失引入了RGB圖像和點云之間的感知差異,因此可以有效地融合來自兩種模態數據的感知信息。結果,我們的PMF生成了密集的預測,這些預測結合了圖像和點云的好處。

6. 結論Conclusion

在這項工作中,我們提出了一種用于 3D LiDAR 語義分割的感知感知多傳感器融合方案。與在 LiDAR 坐標系中進行特征融合的現有方法不同,我們將點云投影到相機坐標系,以實現來自兩種模態的感知特征的協同融合。此外,通過融合來自相機和 LiDAR 的互補信息,PMF 對復雜的室外場景具有魯棒性。兩個基準的實驗結果表明了我們方法的優越性。未來,我們會將 PMF 擴展到自動駕駛中的其他具有挑戰性的任務,例如目標檢測。(為啥我感覺語義分割比目標檢測更難)

整理不易,求點贊!

總結

以上是生活随笔為你收集整理的论文阅读:PMF基于视觉感知的多传感器融合点云语义分割Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。