图像语义分割_uNetXST:将多个车载摄像头转换为鸟瞰图语义分割图像
作者:Longway
來源:公眾號@3D視覺工坊
項目地址:https://github.com/ika-rwth-aachen/Cam2BEV
論文地址:https://arxiv.org/pdf/2005.04078.pdf
概述
準確的環境感知對于自動駕駛來說是非常重要的,當用單目攝像頭時,環境中的距離估計是一個很大的挑戰。當攝像機視角轉換為鳥瞰視角(BEV)時,距離能夠更加容易的建立。對于扁平表面,逆透視映射能夠準確的轉換圖像到BEV。但是對于三維物體來說,會被這種轉換所扭曲,使得很難估計他們相對于傳感器的位置。
這篇文章描述了一種獲取360°鳥瞰圖的方法,這些圖像來自于多個攝像頭。對校正后的BEV圖像進行語義分割,并預測遮擋的部分。該方法不需要手工標注數據,而是在合成數據集上面進行訓練,這樣就能夠在真實世界表現更好的效果。
介紹
最近,自動駕駛受到工業研究的廣泛關注。自動駕駛的其中一個關鍵因素是準確的感知周圍的環境,這對于安全來說至關重要。
不同的環境表示通過環境中的坐標信息都能夠被計算出來,在用于了解環境的不同類型的傳感器中,攝像機因其低成本和成熟的計算機視覺技術而流行。由于單目攝像機只能提供圖像平面上位置的信息,因此可以對圖像進行透視變換。
透視變換是從一個視角所看到的相同場景的近似,在這個視角中,成像平面與攝像機前面的地平面對齊。將相機圖像轉換為BEV的方法通常稱為逆變換角度映射(IPM)。IPM假設世界是扁平的,但是任何三維物體都會違背這一假設,所以不太適用。
盡管IPM引入的錯誤是可以校正的,但是仍然需要在BEV中檢測目標。深度學習方法對于語義分割等任務來說非常有效,但是需要標記數據,盡管模擬可以獲得這些數據,和真實數據比起來還是有一些差距。從模擬中學習到的復雜任務到現實世界的歸納是困難的,為了縮小差距,許多方法都旨在使模擬數據更加真實。
在本文中,作者提出了一種不受IPM下的平度假設所帶來的誤差影響的BEV圖像獲取方法。通過計算語義分割的攝像機圖像,從真實數據中去除大部分不必要的紋理。
通過語義分割的輸入,該算法能夠獲取類信息,從而能夠將這些信息納入IPM生成的圖像的校正中。模型的輸出是輸入場景的語義分段BEV,由于對象形狀被保留,輸出不僅可以用于確定自由空間,而且可以定位動態對象。
此外,語義分割的BEV圖像包含了未知區域的顏色編碼,這些未知區域被遮擋在原始攝像機圖像中。IPM得到的圖像和所需的真實BEV圖像如下圖所示。
這項工作的貢獻如下所示:
1:提出了一種在BEV中能夠將多個車載攝像機圖像轉換為語義分割圖像的方法;
2:使用不同的神經網絡架構,設計并比較了兩種不同的方法,其中一種是專門為這項任務設計的;
3:在設計過程中,不需要對BEV圖像進行人工標記來訓練基于神經網絡的模型;
4:最后展示了一個成功的實際應用的模型。
相關工作
許多文獻都說到了視角到BEV的轉變,大多數作品都是基于幾何的,重點是對地面的精確描繪。只有少數作品將攝像機圖像轉換成BEV與場景理解的任務結合起來。然而,他們卻忽略了物體檢測可以提供物體幾何形狀的線索,從而使變換受益。最近,一些深度學習方法展示了復雜的神經網絡幫助改進經典的IPM技術,使其有助于環境感知。
比如說移除動態和三維物體來提高對道路場景的理解【1】,或者通過一個前置攝像頭,合成整個道路場景的精確BEV表示【2】,這些方法都用到了GAN網絡。還有很多方法,但是在作者看來,追求將多個語義分割的圖像直接轉換為BEV的想法的唯一來源是一篇博客文章【3】。該文章設計的神經網絡是一個全卷積的自編碼器,伴隨著很多缺點,比如準確的目標檢測范圍相對較低。
方法
該作品基于卷積神經網絡(CNN)的使用,但是大多數的CNNs只處理一個輸入圖像。為了融合安裝在車輛上的多個攝像頭的圖像,單輸入網絡可以將多個圖像按其通道級聯作為輸入。然而,這將導致輸入和輸出圖像之間的空間不一致,卷積層在局部操作。針對這個問題的學習方法需要能夠處理多視點圖像,這表明需要一種額外的機制。
就像前面說到的,IPM會引入誤差,但該技術至少能夠產生與地面真實BEV圖像相似的圖像。由于這種相似性,將IPM作為一種機制來提供輸入和輸出圖像之間更好的空間一致性似乎是合理的。
下面將介紹基于神經網絡的方法的兩種變體,它們都包含IPM的應用。在介紹這兩種神經網絡結構之前,作者詳細介紹了應用的數據預處理技術。
1、處理遮擋:當只考慮輸入域和期望的輸出時,會出現一個明顯的難題:交通參與者和靜態障礙可能會遮擋部分環境,使得在BEV圖像中預測這些區域幾乎不可能。舉個例子,當你在卡車后面行駛時,就會出現這樣的遮擋:卡車前面發生的情況不能僅從車載攝像機的圖像可靠地判斷出來。
如何解決這位問題?作者對于每個車輛攝像機,虛擬光線從其安裝位置投射到語義分割的地面真值BEV圖像的邊緣。對沿著這些射線的所有像素進行處理,根據以下規則確定它們的遮擋狀態:
1.1:一些語義類如建筑、卡車總是阻塞視線;
1.2:一些語義類如道路從不遮擋視線;
1.3:汽車會擋住視線,但后面較高的物體如卡車、公共汽車除外;
1.4:部分被遮擋的物體仍然完全可見;
1.5:物體只有在所有的相機透視圖中都被遮擋的情況下才被標記為被遮擋。
根據這些規則修改的真實BEV圖像如下圖所示。
2、投影預處理:IPM技術作為方法中的一部分,作者推導了汽車攝像機框架與BEV之間的投影變換,確定了單應矩陣涉及的相機內部和外部參數,并應在下面簡要說明。
世界坐標xw和圖像坐標xi之間的關系由以下投影矩陣P給出:
投影矩陣將相機的內在參數如焦距編碼為一個矩陣K和外參(世界坐標系中的旋轉R和平移t):
假設存在從道路平面xr到世界坐標系的變換M:
就可以獲得從圖像坐標xi到道路平面xr的轉換:
設置該變換作為捕捉與真實BEV圖像相同的視野。由于這一區域被所有攝像機圖像的并集覆蓋,因此它們首先通過IPM分別變換,然后合并成一個單獨的圖像,以下稱為單應圖像。重疊區域中的像素,即從兩個攝像機可見的區域,從變換后的圖像中任意選擇一個。
3、變體1-單輸入模型:作者預先計算如上節所示的單應性圖像,以彌補相機視圖和BEV之間的很大一部分差距。作者在此提供了神經網絡輸入與輸出在一定程度上的空間一致性,網絡的任務就是糾正IPM帶來的錯誤。
由于單應性圖像和期望的目標輸出圖像覆蓋相同的空間區域,作者使用已有的CNNS進行圖像處理,這在語義分割等其他任務上已經被證明是成功的。最后作者選擇了DeepLabv3+作為單網絡輸入的架構。
4、變體2-多輸入模型:該模型處理來自車輛攝像頭的所有非轉換圖像作為輸入,在未轉換的相機視圖中提取特征,因此不完全受IPM引入的誤差的影響。作為一種解決空間不一致性問題的方法,作者將射影變換集成到網絡中。
為了構建一個多輸入單輸出圖像的架構,作者將現有的CNN擴展為多個輸入流,并在內部融合這些流。由于其簡單性和易于擴展性,作者選擇了流行的語義分割架構U-Net作為擴展的基礎。最后簡單的網絡結構如下所示:
結果展示
在模擬數據集上面的測試效果
在真實世界的測試效果
總結和思考
作者提出了一種能夠通過多個車載攝像頭采集到的數據,獲得道路狀況鳥瞰圖的方法。其中解決了一些不利因素的影響,如前面提到不正確的平面假設所產生的誤差,并且無需人工標記BEV數據集,最后產生的效果如上圖所示。
在我看來,這是一項非常棒的工作,對于自動駕駛環境感知的研究有很大幫助。但是仍然有一些不足,在模擬數據集上面的效果和標簽相差無幾,在真實世界的效果卻不是很好。同時道路交通也是一個非常復雜的情況,需要更深層次的研究。
【1】T. Bruls, H. Porav, L. Kunze, and P. Newman, “The Right (Angled) Perspective: Improving the Understanding of Road Scenes Using Boosted Inverse Perspective Mapping,” in 2019 IEEE Intelligent Vehicles Symposium (IV), 2019, pp. 302–309.
【2】X. Zhu, Z. Yin, J. Shi, H. Li, and D. Lin, “Generative Adversarial Frontal View to Bird View Synthesis,” arXiv:1808.00327 [cs], 2019.
【3】M. Dziubinski. (2019, 05) From semantic segmentation to semantic ′ bird’s-eye view in the CARLA simulator. [Online]. Available: https://medium.com/asap-report/from-semantic-segmentationto-semantic-birds-eye-view-in-the-carla-simulator-1e636741af3f
本文僅做學術分享,如有侵權,請聯系刪文。
總結
以上是生活随笔為你收集整理的图像语义分割_uNetXST:将多个车载摄像头转换为鸟瞰图语义分割图像的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有百度那味了 微软称正探索在必应聊天中投
- 下一篇: flutter 获取定位_从头开发一个F