综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍
文章:Surround-view Fisheye Camera Perception for Automated Driving: Overview, Survey & Challenges
作者:Varun Ravi Kumar, Ciaran Eising, Christian Witt, and Senthil Yogamani
編譯:點云PCL
來源:arXiv 2022
歡迎各位加入免費知識星球,獲取PDF論文,歡迎轉發朋友圈。文章僅做學術分享,如有侵權聯系刪文。未經博主同意請勿擅自轉載。
公眾號致力于分享點云處理,SLAM,三維視覺,高精地圖相關的文章與技術,歡迎各位加入我們,一起交流一起進步,有興趣的可聯系微信:920177957。本文來自點云PCL博主的分享,未經作者允許請勿轉載,歡迎各位同學積極分享和交流。
簡介
環視魚眼相機通常用于自動駕駛中的近距離感知,車輛四個側面的魚眼相機足以覆蓋車輛周圍360°的區域,捕捉整個近鄰區域,其主要用途是自動泊車、交通堵塞輔助和城市駕駛。由于汽車感知的主要焦點是遠場景感知,因此近場景感知任務的數據集有限,與遠場相比,由于10cm的高精度目標檢測要求和目標的部分可見性,環視感知帶來了額外的挑戰。由于魚眼相機的具有較大的徑向畸變,標準算法不能容易地擴展到環視魚眼圖上。因此,本文致力于為研究人員和實踐者提供汽車魚眼相機感知的一些總結,首先對常用的魚眼相機模型進行了統一的分類處理,其次,我們討論了各種感知任務和現有文獻,最后,我們討論了挑戰和未來方向。
基本介紹
環視系統使用四個傳感器形成具有重疊區域的網格,足以覆蓋汽車周圍的近場區域,圖1顯示了典型環視圖系統的四個視圖,以及典型泊車用例的表示。
圖1:由四個魚眼攝像機組成的典型汽車環視系統示意圖,分別位于前、后和每個機翼后視鏡(頂部)。下圖顯示了覆蓋整個360°的車輛周圍環境。通過融合四個攝像頭為駕駛員提供的環視效果也在較小的方框中顯示。
超過180度的廣角視圖通常用于這種近場景感知,任何感知算法都必須考慮這種攝像機系統固有的圖像畸變。這是一個重大挑戰,因為計算機視覺中的大多數工作都集中在具有輕微徑向畸變的窄視場相機上。然而,隨著此類攝像機系統的廣泛部署,這方面的工作已經完成,本文的目的是向讀者概述全景攝像機,調查現有技術現狀,并深入了解該領域當前面臨的挑戰。
圖2:魚眼透視圖,(上圖)在超過60度時,以廣角入射到針孔相機上的光線無法有效成像. 添加魚眼透鏡后,由于折射,視野大大增加到190? 。(底部)光線在水面上的折射會將地平線壓縮到較小的視野中。
理論上,針孔相機的視場角可以達到180?. 然而,事實上由于孔徑和成像尺寸的限制要超過80?都很難, 如圖2(頂部)所示。然而魚眼透鏡通常可以有效地將視野增加到180度? 或更多。
魚眼相機的應用
魚眼相機提供比標準攝像機更寬的視野,通常具有180? 視野甚至更大,這可以提供幾個優點,尤其是可以使用更少的攝像機來實現更大場景的覆蓋,魚眼相機的首次成功商業應用是在攝影領域,特別是在娛樂行業,魚眼鏡頭效果成為一種風格元素。第二個成功的應用領域是視頻監控,其中半球形透鏡表面在現代監控系統中常見。最近,廣角鏡頭通常用于虛擬現實耳機,它們也常用于水下機器人和空中機器人。
魚眼相機使用的挑戰
然而,魚眼相機有幾個挑戰,最明顯的是,具有較大的徑向畸變,由于空間變化的畸變,實際對象的外觀變化更大,特別是對于近距離對象,這增加了卷積神經網絡(CNN)的學習復雜度,此外,如圖3所示,使用邊界框進行對象檢測的常用應用變得更加復雜,因為邊界框無法為魚眼畸變對象提供最佳擬合。
圖3:標準邊界框不是魚眼圖像的良好對象表示,(a) 邊界框內的紅色像素顯示不包含對象的大區域,定向框(b)和曲線邊界框(c)是更好的表示
在一些論文中探索了更復雜的表示,不再使用簡單的矩形框,而是利用已知魚眼攝像機徑向畸變的曲線邊界框。魚眼感知是一項具有挑戰性的任務,盡管它很流行,但與針孔相機相比,它的探索相對較少,對于沒有明顯畸變的相機即針孔模型。可以首先考慮光線與距投影中心一定固定距離處的單個平面的交點。由于這種相機的透鏡而產生的所有失真模型都被簡單地設計成從平面上的投影中心徑向移動交點位置,在某種程度上,魚眼算法的開發由于缺乏統一的幾何結構而變得復雜,許多模型使用不同的屬性來描述魚眼投影。
魚眼相機模型
展示了圖像點和單位球體之間的關系
針孔攝像機模型
當研究僅限于考慮標準視場相機時,針孔相機模型是計算機視覺和機器人學許多領域中使用的標準投影函數,針孔模型由下式給出:
或者,如果我們將其視為關于入射角的函數
其中θ是投影光線的入射角,注意,參數f被稱為焦距,然而,它與物理透鏡系統(通常可以由許多透鏡元件組成)的光學焦距幾乎沒有關系。反投影函數為:
經典幾何模型
本節討論的模型稱為經典模型,因為它們已經研究了至少60年。
? 圖5?經典的相機模型
等距投影( Equidistant Projection):在等距魚眼模型中,投影半徑Qe(θ)通過等距參數f的簡單縮放與場角θ相關(見圖5a)。其投影公式:
其中得d和theta表示為
逆投影變換公式為
立體投影( Stereographic Projection):與等距模型一樣,在立體投影中,X到投影球的投影中心為C(圖5b),假設圖像平面具有沿Z軸(光軸)的切點,在立體攝影中,存在到像平面的第二個中心投影,切點的反極點形成投影中心。這本質上是一個焦距為2F的針孔投影,因此,立體投影由以下公式描述:
其逆投影變換為
正交投影(Orthographic Projection):與之前的投影模型類似,正交投影從到球體的投影開始(圖5c)。然后是到平面的正交投影,因此,正交投影的描述如下:
反投影變換表示為
擴展正交模型(Extended Orthographic Model):擴展正交模型,如圖5d所示,通過使投影平面不與投影球相切,允許偏移λ,擴展了經典正交模型,在將圖像從魚眼圖像轉換為平面圖像的情況下,該擴展用于控制畸變圖像和去畸變圖像之間的尺寸比,畸變投影與等式(10)保持相同。然而,畸變和未畸變徑向距離及其逆之間的關系由下式給出:
擴展等距模型(Extended Equidistant Model):事實上,擴展正交模型只是從投影到圖像映射的轉換,許多模型可以以與擴展正交模型相同的方式轉換為圖像上的映射。根據公式(4),使θ=||k||/f,代入(2),并使(2)的焦距為f+λ,得到等距模型的圖像映射, 按照類似的步驟,也可以得到逆變換。
B、 代數模型
這里簡要討論了魚眼相機的代數模型,特別是多項式模型和分割模型,我們提供的多項式模型討論具有完整性,盡管我們在本文的其余部分集中于幾何模型。
多項式模型:非魚眼相機的經典Brown–Conrady畸變模型使用一個奇數多項式來描述圖像上的徑向畸變,盡管已經過時,Brown-Conrady模型仍然是非魚眼相機軟件實現中的標準畸變模型。例如,Kannala Brandt(以及在流行的OpenCV軟件中實現的)提出了一個n=5或更高階的多項式模型,僅具有奇數指數。
分割模型:徑向畸變的分割模型獲得了一定的普及,因為至少對于單參數變量,直線投影到圖像中的圓,并且對于許多透鏡,單參數變量表現非常好,模型及其逆解由下式給出
通過添加額外的縮放參數,這一點得到了擴展,從而改善了某些類型魚眼透鏡的建模性能,雖然分割模型最初被表示為圖像上的映射,但它可以表示為投影函數
通過將針孔模型(2)代入(16),可以簡單地獲得徑向投影函數,在這種情況下,一旦通過分割模型解決了畸變問題,可以將其視為針孔模型的參數。分割模型的逆投影為:
C、 球形模型( Spherical models)
基于點到單位球體的投影,至少是最近幾十年的魚眼模型。
視場模型( Field-of-View Model):視場模型及其逆定義如下
參數w近似相機視場,但不精確,這是一個像分割模型一樣的圖像模型,其中定義圖像平面上的未畸變和扭曲半徑。或者,它可以表示為投影函數。
其逆投影變換為
統一相機模型( Unified Camera Model):UCM最初用于模擬折反射相機,后來被證明在建模魚眼相機時很有用。
圖6:球形模型,UCM(a)首先包括到單位球體的投影,然后是透視投影,E-UCM將球體替換為具有系數β的橢球體,DS模型在UCM中添加了第二個單位球體投影,球體之間的距離為ξ。
已經證明,它在一系列透鏡中表現良好,首先將點X投影到單位球體,然后投影到模型針孔攝像機(圖6a)
UCM的逆投影變換
增強型統一相機模型(Enhanced Unified Camera Model):UCM由增強型UCM擴展(圖6b),該模型將球面投影推廣為橢球體(或實際上是一般的二次曲面),并能夠證明一定的精度增益。E-UCM由下式給出:
雙球體模型(Double-Sphere Model):雙球體(DS)模型在UCM模型上擴展,該模型增加了第二個單位球體投影,以實現更復雜的建模(圖6c)。
圖8:各種魚眼模型與一般透視投影之間的關系,雙線表示兩個模型等效,單線表示通用化/專業化
討論
魚眼相機有大量潛在的應用模型,在本文中,我們提到了20個模型,但可以肯定,這并不是詳盡無遺的,然而已經表明,許多幾何模型之間存在著強烈的關系,至少七個模型與一般透視投影相關或直接等效,此外,我們還表明,最近開發的一些魚眼模型在數學上等同于經典的魚眼投影函數,即幾十年前提出的立體投影模型和等距模型。在圖8中,我們提供了與一般透視投影相關的幾何魚眼模型圖。
全景攝像系統
本章節將討論環視圖攝像機(SVC)的配置及其感知所需的基本術語,從SVC用于可視化的歷史使用開始,它提供了對汽車配置的理解。然后,我們討論了支持模塊,如校準、校正和幾何圖元。
環視可視化:SVC歷來用于顯示在駕駛員儀表板上,用于停車可視化。第一個可視化應用程序顯示了用于倒車輔助的后視魚眼攝像頭。
圖9?環視可視化實例
初始系統基于2D俯視圖,如圖9(a)所示。這主要用于停車應用,但也可用于其他低速機動用例,如交通堵塞輔助。2D俯視圖假設地面是平坦的,因此當地面具有非平坦輪廓時,它具有重影,其他附近物體,如車輛,在該視圖中嚴重扭曲。通過3D環繞視圖解決了這些問題,該視圖使用了一個碗狀表面,該表面附近是平坦的,并朝著外圍具有向上的曲率,如圖9(b)所示。此外,車輛周圍的深度估計可用于調整碗狀形狀,以便在附近物體的重影較少的情況下進行最佳觀察。例如,如果車輛在一側附近,則該區域中的碗狀表面將位于車輛前方,以避免重影。通常,應用程序提供用戶界面以動態選擇駕駛員所需的視點。環視圖可視化應用程序通常使用GPU實現為OpenGL渲染應用程序。
環視圖的配置:在SVC系統中使用魚眼相機的主要目的是覆蓋整個360? 車輛周圍的近鄰場景區域,這是通過四個魚眼攝像機實現的,其大水平視場(hFOV)約為190? 垂直視場(vFOV)約為150?。魚眼相機具有非常大的角體積覆蓋率,但其角分辨率相對較小,無法在長距離內感知較小的物體。因此,它主要用作近場傳感器。作為比較典型的遠場前置相機的hFOV為120? vFOV為60?. 角體積明顯較小,但具有高得多的角分辨率,使其能夠感知遠處的物體。魚眼攝像機的大hFOV支持360? 只有四個魚眼相機的覆蓋范圍。大的垂直視場使得能夠捕獲靠近車輛的區域,例如,當在路口停車時,檢測到更高海拔的物體,如交通燈。
相機的放置方式使非常靠近車輛的區域可見,這對于停車場景至關重要,因此,攝像機的很大一部分包括自車車身,還可以注意到在相交區域中看到的視場的顯著重疊,這可以用來解決運動問題中的結構比例問題。然而,該重疊位于具有最高失真的邊緣,并且很難獲得在該區域中精確工作的算法。圖10說明了在巴黎繁忙的城市街道上測試的商業部署的近場感知系統上的目標檢測和分割。
圖10:商業部署系統的圓柱形校正環繞視圖圖像上的對象檢測和分割示意圖
魚眼相機的標定:之前討論了魚眼相機的各種模型,每個模型都有一組參數(稱為內參,必須通過標定程序進行估計)。此外還應估計攝像機的外參,即攝像機系統在車輛坐標系中的位置和方向。典型的校準過程是,首先檢測圖像特征(比如棋盤格),其次,算法將通過最小化點的重投影誤差,嘗試估計內參和外參,以使用校準設置的模型投影檢測到的特征。重投影誤差在此指示具有一組參數的模型能夠多好地表示透鏡的投影函數。其他攝影測量方法使用消失點提取并設置線來估計校準參數。OpenCV庫中實現了一個廣為人知的校準工具箱。OpenCV還提供了魚眼相機型號的版本。基于棋盤特征和攝像機間對應關系的提取,提出了車輛上多個魚眼攝像機的校準過程。這適用于環視攝像頭系統,因為它提供了與車輛相關的精確外部校準,是提供融合環視圖像的先決條件。當校準模式具有相對于車輛坐標系的已知位置時,可以在離線環境中如上所述估計攝像機的姿態。
幾何投影:在針孔相機中,平面上的任何一組平行線都會聚在一個消失點,這些可用于估計內參和外參,對于針孔相機模型,幾何問題通常可以用線性代數表示,在這種情況下,可以使用霍夫變換檢測平行線,所有消失點的集合是該平面的水平線,在真實世界的攝像機系統中,針孔攝像機是攝像機的數學模型,其具有例如光學畸變形式的誤差,這通常適用于畸變輕微的窄視場攝像機。對于寬視場攝像機,如果攝像機的視場大于180?, 則原始圖像中的點與校正圖像平面之間不存在一一關系。對于魚眼相機,更好的模型是球面投影面,在魚眼圖像中,Hughes等人描述了如何將這些平行線近似并擬合為圓或二次曲線,以便魚眼攝像機確定消失點或水平線。這些平行線對應于球面的大圓。相應地,魚眼相機成像的直線近似為圓錐,而魚眼相機所成像的平行線在兩個消失點處相交(如圖11)。
圖11:地平線、消失點和對極線的圖示。魚眼圖像中的線可以近似為二次曲線,等效于透視圖像中的平行線如何收斂于單個消失點,魚眼圖像中的并行直線在兩個消失點處收斂,這兩個消失點,當上升到單位球體時,是球體上的對極點,紅色和綠色分別表示水平平行線(藍色為相關地平線)和垂直平行線的透視圖,紅點和綠點表示消失點,其中一個消失點位于圖像外部。
球面極線幾何 :立體視覺的幾何關系由極線幾何描述,可用于深度估計和結構從運動方法結合特征提取器,在針孔相機模型中,穿過兩個相機光學中心的線與圖像平面的交點定義了稱為對極點,這條線稱為基線,穿過基線的每個平面在兩個圖像平面中定義匹配的極線,一個攝像機中的一個點位于另一個攝像機上的極線上,反之亦然。這將雙視圖攝像機設置中對應點(立體匹配)的搜索減少為1D問題,對于全向相機,如魚眼相機,使用球面投影面代替平面投影面,更直觀的是討論對極平面而不是對極線,
圖12:球形對極幾何結構。對極平面是圍繞對極e的平面束之一,由攝像機中心C和C0定義。理想觀測u和u0將位于對極平面上,然而,在存在噪聲的情況下,實際觀測點u和u0與極平面的距離將為非零。
如圖12所示,兩臺相機的單個3D點的理想觀測將位于同一對極平面上,與針孔情況下它們位于對極線上的方式相同,然而,重要的是要注意,必須校準攝像機,以便將圖像特征提升到投影球,相反,對于窄視場攝像機,通過基本矩陣為未校準相機定義了極線幾何。
魚眼相機校正 :可以消除魚眼攝像機中的徑向畸變,并重新使用標準感知算法,雖然這是一種快速啟動魚眼相機感知發展的方法,但仍存在與校正相關的幾個問題。首先,理論上不可能將魚眼圖像校正為直線視角,因為水平視場大于180?, 因此,有光線入射到相機后面的鏡頭上,這對于針孔設置不起作用,使用具有大視場的魚眼透鏡,然后由于矯正而失去一些,這是適得其反的,第二個重要問題是重采樣失真,這在本質上更實際,這是插值重影的一種特殊表現形式,其中對于魚眼圖像,小補丁(特別是在失真高的外圍)被擴展到校正圖像中的非常大的區域,導致高噪聲。此外,在推理時會消耗大量的計算能力和內存帶寬,它創建具有無效像素的非矩形圖像,這進一步降低了計算效率。
圖13:不失真語言圖像:(a)直線校正;(b) 分段線性校正;(c) 圓柱形校正。左:原始圖像;右:原始圖像。
魚眼的常用校正方法如圖13所示。圖13(a)顯示了標準直線校正,從缺失的水平白線可以觀察到近處的顯著損失,左邊緣和右邊緣的區域也有丟失,雖然存在顯著的損失,但這允許使用標準攝像機算法。圖13(b)顯示了一個三次近似,其中魚眼透鏡表面由一個開放立方體近似,它可以解釋為魚眼投影表面的分段線性近似,每個平面是直線校正,因此可以在每個塊內使用標準算法。然而,立方體的兩個表面上的畸變具有較大的失真,并且很難檢測在兩個區域上分裂的對象,可以注意到由于邊緣處的重新采樣重影而導致的強烈透視畸變和模糊。實際上,常見的矯正過程是使用圖13(c)所示的圓柱形表面,它可以被解釋為準線性近似,因為它在垂直方向上是線性的,并且表面在水平方向上具有二次曲率,相對于直線視口,它覆蓋的視野要大得多。主要優點是,垂直物體保持垂直,如建筑物上的垂直線所觀察到的,因此,保留了掃描線,用于在兩個連續魚眼圖像(運動立體)之間或魚眼和窄視場相機(非對稱立體)之間水平搜索立體算法,主要缺點是其固有的無法捕獲靠近車輛的近場區域,這可以通過使用覆蓋近場區域的附加平滑表面來固定,附近物體的畸變也會增加。
魚眼相機的感知任務
由于數據集有限,關于魚眼圖像感知任務的文獻相對較少。我們將感知任務分為語義、幾何和時間任務。最后,我們討論了聯合多任務模型
A、 語義任務
語義分割:這是為圖像中的每個像素(如行人、道路或路緣)分配類別標簽的過程,如圖14(第2列)所示。與針孔前攝像頭上使用的基于語義分割的經典計算機視覺方法相比,基于CNN的方法最近非常成功,盡管在城市交通場景中,自動駕駛汽車需要更寬的視野來感知周圍的事物,尤其是在十字路口。
圖14:WoodScape數據集上OmniDet框架的原始魚眼圖像的定性結果[2]。第一列表示輸入圖像從前、左、右和后攝像機,第2列表示距離估計,第3列表示語義分割圖,第4列表示廣義對象檢測表示和第5表示運動分割。以更高的分辨率獲得更多定性結果
目標檢測:目標檢測在魚眼圖像中受徑向畸變影響最大,由于魚眼圖像形成中的固有畸變,與光軸成不同角度的物體看起來非常不同,使得物體檢測困難,矩形邊界框往往不是對象大小的最佳表示,有時是標準BB框的一半,而框本身是感興趣對象的兩倍,實例分割提供了對象的精確輪廓,但它們的注釋成本要高得多,還需要BB估計步驟。
臟污問題 :全景攝像頭直接暴露在外部環境中,易受臟污影響,相比之下,前攝像頭放在擋風玻璃后面,不太容易受到影響。有兩種類型的污染區域:不透明(泥、灰塵、雪)和透明(水、油和油脂)(水),尤其是,由于背景能見度有限,可能難以識別透明污垢,臟污會導致感知精度的顯著降低,因此使用噴水或更先進的基于超聲波的清潔系統用于更高水平的自動駕駛。即使未清潔攝像機,也需要進行臟污檢測,以增強退化區域視覺算法的不確定性。
B、 幾何任務
深度估計:它涉及到在像素級估計到物體(或任何平面)的距離,計算相對于相機平面的距離仍然非常困難,目前,大多數工作都是在消除桶形失真的糾正kitti序列上進行的,在針孔相機的情況下,深度定義為與相機平面的垂直距離,即z。先前的運動結構(SfM)接近[106],[107],通過將網絡的視差預測參數化為深度,以在視圖合成步驟期間進行非投影操作,估計逆深度。這種參數化對于魚眼相機不起作用,因為它們經歷了大的畸變,這導致與針孔相機中的極線相比,在極線曲線上獲得角度差異。為了應用與針孔相同的方法,我們需要校正魚眼圖像,這將導致第三節所述的視野損失。然而,適用于針孔投影模型攝像機的相同多視圖幾何[108]原理也適用于魚眼圖像。通過從不同的視點觀察場景并建立它們之間的對應關系,可以估計潛在的幾何結構。
視覺里程計:該技術同時進行攝像機運動估計和半密度重建,,方案中有兩個線程:一個用于跟蹤,一個用于建圖。他們使用跟蹤線程中的半密集直接圖像對準來估計攝像機姿態。為了避免極線問題,使用平面掃描立體算法進行立體匹配并初始化深度。Cui等人展示了使用魚眼攝像機的大規模實時密集幾何建圖技術,攝像機姿態是從GNSS/INS系統獲得的,但他們也提出也可以從視覺慣性里程儀(VIO)框架中檢索。深度圖融合使用通過這些方法檢索的攝像機姿態。Heng等人描述了魚眼立體相機的半直接視覺里程計算法。在跟蹤線程中,它們在估計攝像機姿態的同時跟蹤魯棒的特征點;在建圖線程中,它們估計要跟蹤的每個新特征點的坐標和曲面法線,曲面法線估計允許我們從不同的視點跟蹤特征點,它們在檢測特征對應性的技術中不使用描述符子強描述子匹配。相反,他們采用基于光一致性的方法來尋找斑塊對應關系。
運動分割:它被定義為識別一對序列中的獨立運動對象(像素),如車輛和人,并將其與靜態背景分離,它被用作一種外觀不可知的方法,使用不像稀有動物(如袋鼠或駝鹿)那樣常見的運動線索來檢測任意運動對象。MODNet首次探索了自動駕駛。最近,InstanceMotSeg定義并探討了實例級運動分割。FisheeyeModnet將其擴展到魚眼攝像機,而無需校正。沒有明確的運動補償,但提到了未來的工作。Mariotti等人使用基于車輛里程計的經典方法來完成這項任務。進行光流的球面坐標變換,并調整正高度、深度和極線約束以在該設置中工作。他們還提出了反平行約束,以消除汽車平行于自我車輛移動時通常出現的運動視差模糊。
C、?實時任務
雖然深度和運動等幾何任務可以使用多幀進行訓練和推理,但輸出僅在一幀上定義,我們將時間任務定義為其輸出在多個幀上定義的任務。它通常需要多幀順序注釋。
跟蹤:對象跟蹤是一項常見的時間任務,其中對象必須跨多個幀關聯。文章[124]中探討了環繞視圖攝像機的運動對象檢測和跟蹤,使用經典的基于光流的方法進行跟蹤。WEPDTOF是最近發布的一個數據集,用于在頭頂監控設置中使用魚眼攝像機進行行人檢測和跟蹤,雖然它不是一個汽車數據集,但它捕獲了在魚眼攝像機上開發跟蹤系統所需的挑,軌跡預測與跟蹤密切相關,其中必須為下一組幀預測感興趣對象的位置。在自動駕駛的情況下,特別是在3D鳥瞰空間中進行。PLOP算法探索了在應用圓柱校正后,在魚眼前攝像頭上進行車輛軌跡預測。
重識別:重新識別(Re ID)是跨攝像機檢測到的對象的關聯,它還可以包括跨攝像機隨時間的關聯,Wu等人建議在全方位攝像機上執行車輛重新識別,并強調兩個重大挑戰:首先,由于魚眼失真、遮擋、截斷和其他因素,很難在單個攝像機視圖中從以前的圖像幀中檢測到同一輛車,其次,在多攝像機視角下,同一輛車的外觀會因使用的攝像機而發生顯著變化。它們提供了一種新的質量評估機制,以抵消跟蹤盒漂移和目標一致性的影響。他們采用基于注意力機制的Re ID網絡,然后將其與空間約束方法配對,以提高不同攝像機的性能
SLAM:特征對應包括關鍵點檢測、描述和匹配,是SLAM系統的首要步驟。FisheeySuperPoint為魚眼圖像引入了一種獨特的訓練和評估方法,該論文采用了SuperPoint,一種自監督關鍵點檢測器和描述符,該檢測器和描述符已生成最先進的單應性預測結果,提出了一個魚眼自適應框架,用于對未失真魚眼圖像進行訓練;魚眼扭曲用于魚眼圖像的自監督訓練,通過對單位球體的中間投影相位,魚眼圖像被轉換為新的扭曲圖像。攝像機的虛擬姿態可以在6-Dof中改變。Tripathi等人探索了使用ORB SLAM方案的環視圖魚眼相機的重新定位問題,目標是對私人區域進行地圖繪制,并根據該地圖重新定位,以幫助自動泊車。對原始魚眼圖像進行特征檢測,并分析了原始魚眼相機上不同特征對應算法的比較。
D、 多任務模型
自引入深度學習以來,許多密集預測任務(即生成像素級預測的任務)的性能顯著提高,這些任務通常一次學習一個,每個任務都需要訓練自己的神經網絡,另一方面,最近的MTL方法[145]通過通過學習共享表示聯合處理多個任務,在性能、計算復雜度和內存占用方面顯示了良好的結果。對于魚眼攝像機,Sistu等人提出了一種用于學習對象檢測和語義分割的聯合MTL模型,主要目標是在一個芯片上的低功耗嵌入式系統上實現實時性能,這兩個任務使用相同的編碼器。他們使用兩個解碼器共享的一個簡單的類似ResNet10的編碼器來構建一個高效的體系結構,對象檢測采用YOLO v2解碼器,而語義分割采用FCN8解碼器。FisheyeMultiNet從基于攝像機的深度學習算法的角度討論了自動停車系統的設計和實現,在低功耗嵌入式系統上,FisheyeMultiNet是一種實時多任務深度學習網絡,可識別停車所需的所有對象,該設置是一個四攝像機系統,以15fps的速度運行,執行三項任務:物體檢測、語義分割和污垢檢測。最后,OmniDet中介紹了僅使用攝像機對環境進行近場感知的整體實時場景理解。他們構建了一個近場感知系統,該系統構成了圖14所示的三級自主堆棧,在該框架的幫助下,可以從一個深度學習模型中共同理解和推理幾何、語義、運動、定位和臟污,該模型包括嵌入式系統上以60fps的六個任務。Rashed等人[150]證明了深度和運動等幾何任務有助于語義分割,因此實現了跨任務的協同交叉鏈接,攝像機校準被轉換為逐像素張量,并被饋送到模型中,以適應各種攝像機內在特性。Sobh等人[151]研究了使用OmniDet的多任務設置中對抗性攻擊的影響,這對于安全關鍵應用非常重要。
公開數據集和研究方向
A 數據集
構建汽車數據集既昂貴又耗時,目前是魚眼感知研究進展的主要瓶頸,在表2中,總結了已發布的魚眼攝像機數據集
B、 研究方向
畸變感知CNN:CNN自然地利用了圖像網格中的平移不變性,并且在魚眼圖像中由于空間變化的畸變而被破壞,已經提出了球形CNN[89],可直接用于球形徑向畸變模型,然而,汽車透鏡更復雜,球形模型不適用。將球形CNN推廣到更復雜的魚眼流形表面將是一個有趣的方向,特別是, Kernel transformer networks[91]有效地將卷積算子從透視轉換為全向圖像的等矩形投影,更適合推廣到魚眼圖像。
處理實時變化任務:如前所述,由于徑向畸變導致外觀變化較大,魚眼相機的目標檢測器樣本復雜度增加,對于需要跨兩個幀匹配特征的時間任務,這種情況會進一步惡化,這兩個幀可能具有兩種不同的畸變,例如,在魚眼相機的情況下,目標跟蹤和再識別要具有更大的挑戰性,跟蹤靜態攝像機從左向右移動的行人需要處理較大的徑向扭曲外觀變化,同樣,對于靜態行人,相機的水平和垂直運動會導致較大的變化,這也是點特征對應問題的一個挑戰,類似于跟蹤。一種解決方案是在特征向量中顯式嵌入徑向畸變用于匹配。
鳥瞰圖感知:在自動駕駛中,必須將圖像上的檢測提升到3D,通常通過反向透視映射(IPM)實現,假設地面平坦,它也可以通過使用深度估計或與3D傳感器融合來增強,最近有一種趨勢,即在網絡中隱式使用IPM直接以3D點云輸出,它通常通過使用可學習的校正層來轉換抽象編碼器特征,作為在輸入級執行IPM的替代。由于CNN具有更多的上下文信息,并且可學習的轉換可以更靈活,因此它比逐像素IPM工作得更好。在針孔相機的情況下,IPM是一種線性變換,并且相對容易設計編碼器特征的空間變換器,然而,對于魚眼相機,IPM是一個復雜的非線性算子,直接在鳥瞰空間中輸出仍然是一個開放的問題。
多相機建模:目前在環視圖攝像機中的大多數工作都獨立處理四個攝像機中的每一個,并執行感知算法,聯合建模所有四個環視圖攝像機可能更為理想,首先,它將有助于通過兩個或三個攝像頭檢測大型車輛(如運輸卡車),其次,它消除了在多個攝像機中看到的物體的重新識別和單個檢測的后處理,以形成統一的輸出,如車道模型,多攝像機模型將更有效地聚集信息并產生更優化的輸出。[160]開發了將多個相機視為單個攝像機的經典幾何方法,然而,最近有一些工作利用多個攝像機作為單個感知模型的輸入,他們使用針孔攝像機,重疊視場最小,對于環視圖攝像機來說,對其進行建模更具挑戰性。
遠近場景相機的統一建模:下一代自動駕駛系統的典型配置包括使用四個環視攝像機和六個遠距離攝像機對近距離進行360°全覆蓋,執行所有攝像機的統一建模是挑戰性的,擴展了上述多攝像機建模。圖15顯示了前部區域的近場和遠場圖像,它們形成了一個不對稱的立體對,可以很容易地計算深度,而不是更具挑戰性的單目深度,因為單目深度具有基本的模糊性,目前,還沒有包含近場和遠場攝像機的公共數據集來支持這項研究。
? ? ? ? ?圖15:形成不對稱立體對的近場和遠場前攝像機圖像的圖示
寫在前面
魚眼相機是自動駕駛系統中最常見的傳感器之一,盡管它很流行,但汽車界對它的理解有限,因為它是一種專門的相機傳感器,標準算法并不適用于它,這項工作詳細介紹了如何開始開發環視圖魚眼相機,本文是詳細描述魚眼幾何結構和模型的部分教程,以及討論在魚眼上開發的感知算法的部分綜述。最后,文章提供了有待探索的未來方向。
更多詳細內容請查看論文原文。
資源
三維點云論文及相關應用分享
【點云論文速讀】基于激光雷達的里程計及3D點云地圖中的定位方法
3D目標檢測:MV3D-Net
三維點云分割綜述(上)
3D-MiniNet: 從點云中學習2D表示以實現快速有效的3D LIDAR語義分割(2020)
win下使用QT添加VTK插件實現點云可視化GUI
JSNet:3D點云的聯合實例和語義分割
大場景三維點云的語義分割綜述
PCL中outofcore模塊---基于核外八叉樹的大規模點云的顯示
基于局部凹凸性進行目標分割
基于三維卷積神經網絡的點云標記
點云的超體素(SuperVoxel)
基于超點圖的大規模點云分割
更多文章可查看:點云學習歷史文章大匯總
SLAM及AR相關分享
【開源方案共享】ORB-SLAM3開源啦!
【論文速讀】AVP-SLAM:自動泊車系統中的語義SLAM
【點云論文速讀】StructSLAM:結構化線特征SLAM
SLAM和AR綜述
常用的3D深度相機
AR設備單目視覺慣導SLAM算法綜述與評價
SLAM綜述(4)激光與視覺融合SLAM
Kimera實時重建的語義SLAM系統
SLAM綜述(3)-視覺與慣導,視覺與深度學習SLAM
易擴展的SLAM框架-OpenVSLAM
高翔:非結構化道路激光SLAM中的挑戰
SLAM綜述之Lidar SLAM
基于魚眼相機的SLAM方法介紹
如果你對本文感興趣,請后臺發送“知識星球”獲取二維碼,務必按照“姓名+學校/公司+研究方向”備注加入免費知識星球,免費下載pdf文檔,和更多熱愛分享的小伙伴一起交流吧!
以上內容如有錯誤請留言評論,歡迎指正交流。如有侵權,請聯系刪除
掃描二維碼
? ? ? ? ? ? ? ? ? ?關注我們
讓我們一起分享一起學習吧!期待有想法,樂于分享的小伙伴加入免費星球注入愛分享的新鮮活力。分享的主題包含但不限于三維視覺,點云,高精地圖,自動駕駛,以及機器人等相關的領域。
分享及合作方式:微信“920177957”(需要按要求備注) 聯系郵箱:dianyunpcl@163.com,歡迎企業來聯系公眾號展開合作。
點一下“在看”你會更好看耶
總結
以上是生活随笔為你收集整理的综述:用于自动驾驶的全景鱼眼相机的理论模型和感知介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何使用kali的Searchsploi
- 下一篇: 费尔个人防火墙采用两种封包过滤技术