3D车道线检测:Gen-LaneNet
3D車道線檢測:Gen-LaneNet
Gen-LaneNet: A Generalized and Scalable Approach for 3D Lane
Detection
論文鏈接:https://arxiv.org/abs/2003.10656
摘要
提出了一種廣義的、可擴展的方法,稱為Gen-LaneNet,用于從單個圖像中檢測3D車道。該方法受到最新最先進的3D LaneNet的啟發,是一個統一的框架,可在單個網絡中解決圖像編碼、特征空間變換和3D車道預測。這個設計方案復雜度為Gen-LaneNet兩倍。首先,在一個新的坐標系中引入一種新的幾何引導車道錨定表示,并應用特定的幾何變換直接從網絡輸出中計算出真實的三維車道點。將車道點與新坐標系中的基礎俯視圖特征對齊對于處理不熟悉場景的通用方法至關重要。其次,提出了一個可擴展的兩階段框架,該框架將圖像分割子網和幾何編碼子網的學習分離開來。與3D-LaneNet相比,本文提出的Gen-LaneNet大大減少了在實際應用中實現穩健解決方案所需的3D車道標簽數量。此外,還發布了一個新的合成數據集及其構建策略,以鼓勵開發和評估三維車道檢測方法。在實驗中,進行了廣泛的消融研究,以證實所提出的Gen-LaneNet在平均精度(AP)和F評分方面明顯優于3D-LaneNet。
- 論文主要創新點
本文提出了一種通用的、可擴展的三維車道檢測方法3D-LaneNet。在新的坐標系中引入了一種新的幾何導向車道錨定表示設計,并應用特定的幾何變換直接從網絡輸出計算出真實的三維車道點。將錨與俯視圖特征對齊,可推廣到未觀察到的場景。提出了一個可擴展的兩階段框架,允許圖像分割子網和幾何編碼子網的獨立學習,這大大減少了學習所需的3D標簽的數量。得益于廉價的二維數據,昂貴的三維標簽局限于某些視覺變化,兩階段框架優于端到端學習框架。最后,提出了一個具有豐富視覺變化的高逼真度圖像合成數據集,為三維車道檢測的發展和評價服務。在實驗中,進行了廣泛的消融研究,以證實LaneNet基因在AP和F評分方面顯著優于先前的最新水平[6],在一些測試集中高達13%。
- Gen-LaneNet
首先,3D LaneNet在錨定表示中使用了一個不合適的坐標系,其中地面真實車道與視覺特征不一致。這在丘陵道路場景中最為明顯,如圖2頂行所示,投影到虛擬俯視圖的平行車道看起來是非平行的。三維坐標系中的地面真實車道(藍線)與基礎視覺特征(白色車道標記)不對齊。訓練一個模型來對抗這種“垃圾”的基本事實可能會迫使該模型學習整個場景的全局編碼。該模型很難推廣到與訓練中觀察到的場景部分不同的新場景。
由于端到端學習網絡將三維幾何推理與圖像編碼緊密結合,使得幾何編碼不可避免地受到圖像外觀變化的影響。3D LaneNet可能需要成倍增加的訓練數據量,以便在存在部分遮擋、變化的照明或天氣條件下產生相同的3D幾何體。標記3D車道要比標記2D車道貴得多。它通常需要建立在昂貴的多傳感器(激光雷達、攝像機等)上的高分辨率地圖、精確的定位和在線校準,以及在3D空間中更昂貴的手動調整來產生正確的地面真實感。這些限制阻止了3D LaneNet在實際應用中的可伸縮性。
Geometry in 3D Lane Detection
回顧幾何學,以建立理論激勵我們的方法。在如圖3所示的普通車輛攝像機設置中,3D車道在由x、y、z軸和或數字O定義的ego車輛坐標框中表示。定義了攝像機中心在道路上的垂直投影。在簡單的設置之后,用攝像機高度h和俯仰角θ來表示攝像機姿態,建立由xc、yc、zc軸和原點C定義的攝像機坐標框架。先通過投影變換將3D場景投影到圖像平面,然后將捕獲的圖像投影到平面道路平面。由于涉及攝像機參數,虛擬俯視圖中的點原則上與ego車輛系統中相應的3D點相比具有不同的x、y值。本文將虛擬頂視圖形式化地看作一個由x、y、z軸和原O軸定義的唯一坐標系,并推導了虛擬頂視圖坐標系與ego車輛坐標系之間的幾何變換。
根據所提出的幾何模型,分兩步來解決三維車道檢測問題:
首先應用網絡對圖像進行編碼,將特征轉換為虛擬俯視圖,并預測虛擬俯視圖中表示的車道點;
然后采用幾何變換計算ego車輛坐標系中的三維車道點,如圖6所示。方程式2原則上保證了這種方法的可行性,因為幾何變換與相機角度無關。這是確保方法不受攝像機姿態估計影響的一個重要事實。
與3D LaneNet[6]類似,開發了錨定表示,這樣網絡可以直接以多段線的形式預測3D車道。錨點表示實際上是結構化場景中邊界檢測和輪廓分組的網絡實現的本質。如圖5所示,車道錨定被定義為x位置的N條等距垂直線。
- 實驗測試
數據集設置:
為了從不同的角度評估算法,設計了三種不同的規則來分割合成數據集:
(1)平衡場景:
訓練和測試集遵循整個數據集的五倍標準分割,用大量無偏數據對算法進行基準測試。
(2)很少觀察到的場景:
此數據集分割包含與平衡場景相同的訓練數據,但僅使用從復雜城市地圖捕獲的測試數據的子集。此數據集分割旨在檢查方法對很少從訓練中觀察到的測試數據的泛化能力。由于測試圖像在不同的位置呈現稀疏,涉及到劇烈的高程變化和急轉,因此很少從訓練數據中觀察到測試數據中的場景。
(3)具有視覺變化的場景:
與昂貴的三維數據相比,這種數據集分割在光照變化的情況下評估方法,因為與昂貴的三維數據相比,使用更經濟的二維數據可以覆蓋相同區域的光照變化。具體來說,在我們的Gen-LaneNet的第一階段,使用與平衡場景相同的訓練集訓練圖像分割子網。然而,在某一天,也就是黎明前,本文的方法(3DGeoNet)和3D LaneNet的3D幾何子網的訓練中排除了3D示例。在測試中,只使用與排除的時間相對應的示例。
與文獻[6]相比,我們首先證明了所提出的幾何導向錨表示的優越性。對于每種候選方法,我們都保持體系結構完全相同,只不過錨表示是集成的。如表1所示,無論是端到端的3D LaneNet[6]、“理論上存在的”3D GeoNet,還是我們的兩階段Gen-LaneNet,這三種方法都從新錨設計中受益匪淺。在數據集的所有分割中,AP和F-score都實現了3%到10%的改進。
用兩階段Gen-LaneNet與先前最先進的3D LaneNet之間的整個系統比較來結束實驗[6]。如表3所示,對數據集的所有三個部分進行了蘋果與蘋果的比較。在平衡的場景中,3D LaneNet效果很好,但是Gen-LaneNet仍然實現了0.8%的AP和1.7%的F分數提高。考慮到這種數據分割在訓練數據和測試數據之間很好地平衡,并且覆蓋了各種場景,這意味著所提出的Gen-LaneNet在各種場景下有更好的泛化能力;
在很少的情況下觀察到的場景,本方法AP和F評分分別提高了6%和4.4%,證明了本方法在遇到不常見的測試場景時具有很好的魯棒性;
最后,在有視覺變化的場景中,本方法在F評分和AP上顯著地超過了3D LaneNet約13%,這表明我們的兩階段算法圖像編碼的解耦學習和三維幾何推理的成功應用。
對于特定場景,可以在圖像中標注更經濟的二維車道,以訓練一般的分割子網,同時標記有限數量昂貴的三維車道訓練三維車道幾何。這使得本方法在實際應用中更具可伸縮性。除了F分數和AP,近距離(0-40米)和遠距離(40-100米)分別報告了這些匹配車道上米的誤差(歐氏距離)。正如所觀察到的,Gen-LaneNet保持較低的誤差或與3D LaneNet相當,甚至涉及更多的匹配車道。
- Conclusion
提出了一種通用的、可擴展的三維車道檢測方法Gen-LaneNet。介紹了一種幾何導向錨定表示方法,并提出了一種兩階段的圖像分割學習和三維車道預測解耦框架。此外,我們還提出了一種新的策略來構建三維車道檢測的合成數據集。實驗證明,本方法在AP和F評分方面都明顯優于3D-LaneNet。
總結
以上是生活随笔為你收集整理的3D车道线检测:Gen-LaneNet的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第四代自动泊车从APA到AVP技术
- 下一篇: 最佳点云分割分析