详解车道线检测数据集和模型 VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection
本文介紹一個新的車道線數據集 VIL-100 和檢測模型 MMA-Net,論文已收錄于 ICCV2021,重點是理解本文提出的 LGMA 模塊,用于聚合局部和全局記憶特征。
論文鏈接:https://arxiv.org/abs/2108.08482
項目鏈接:https://github.com/yujun0-0/MMA-Net
1. Introduction
在自動駕駛中,最基本和最有挑戰性的一個任務是車道線檢測。然而在真實的場景中,會受到遮擋、惡劣天氣、昏暗燈光或強光反射等影響,準確地進行車道線檢測是很困難的。現有的車道線檢測方法主要集中在圖像上進行車道線檢測,而在自動駕駛中汽車攝像頭采集到的是視頻。因此現在迫切需要將基于圖像的車道線檢測擴展到視頻數據上進行車道線檢測,因為基于視頻的車道線檢測可以利用時域一致性來解決圖像檢測存在的問題。針對以上問題,本文主要工作如下:
- 收集了一個新的視頻實體車道線檢測數據集(VIL-100)。共包含100個視頻,10000幀圖像,涵蓋10種車道線類型、各種駕駛場景、光照條件和多條車道線實體,同時對視頻中的所有車道線提供了高質量的實體級標注。
- 開發了一個新的 baseline模型,即多層記憶聚合網絡(MMA-Net)。具體來說,原始視頻中歷史幀為局部記憶,打亂順序后的歷史幀為全局記憶。局部和全局記憶(LGMA)模塊以注意力機制分別對多層的局部和全局記憶特征進行聚合,并與當前幀的特征進行結合來得到當前幀的車道線實體分割結果。
- 最后,在VIL-100數據集上將本文提出的方法和10個最先進的模型進行了比較。結果顯示,本文設計的模型明顯優于現有方法(單張圖像車道線檢測方法、視頻實體分割方法)。
2. VIL-100 Dataset
2.1 Data Collection and Split
VIL-100 數據集的采樣頻率為10fps,是從30fps下采樣而來。其中97個視頻是通過單目前置攝像頭采集的,3個視頻是從互聯網上獲取而來。
整個數據集上包含10個場景:正常路況、擁擠路況、彎道路況、受損路況、陰影路況、含道路標志路況、強光路況、陰霾路況、夜晚路況、十字交叉路口。
數據集上按照8:2的比例將劃分為訓練集和測試集,在訓練集和測試集上均包含10個場景。VIL-100 數據集與其它車道線數據集比較如下表所示。可以看到只有VIL-100數據集提供了視頻實體車道線標注。
2.2 Annotation
標注時,將每個視頻中每一幀的所有車道線中心位置坐標存儲在json文件中。每一條車道線對應的中心位置存儲為一組,從而提供了實體級車道線注釋。然后用三階多項式擬合成一條曲線,然后擴展為具有一定寬度的車道線區域。例如 1920×10801920 × 10801920×1080 的圖片,寬度為30 pixels大小。對于低分辨率的圖像,寬度等比例減小。
同時對每條車道線標注了車道線類型,總共由10種車道線類型,即:單條白色實線、單條白色虛線、單條黃色實線、單條黃色虛線、雙條白色實線、雙條黃色實線、雙條黃色虛線、雙條白色實虛線、雙條白色虛實線、雙條白色黃色實線。
最后對每一幀還標注了車道線與自身車輛的相對位置,即 2i2i2i 表示車輛右側的第 iii 條車道線,2i?12i-12i?1 表示車輛左側的第 iii 條車道線,在本數據集中 i=1,2,3,4i=1,2,3,4i=1,2,3,4,因此每一幀最多可以標注8條車道線位置。
2.3 Dataset Features and Statistics
下面是對數據集的統計分析,有17%的視頻中包含多個場景,圖2(a)是不同場景同時出現的情況,圖2(b)所示為每一個場景出現的數量。
圖3(a)所示為標注的不同類型車道線數量,圖3(b)所示為每幀中標注的車道線數量,可以看到3371幀中標注了5條車道線,13幀中標注了6條車道線。
3. Proposed Method
本文提出的檢測模型MMA-Net如下圖所示。為了檢測目標幀 ItI_tIt? 的車道線區域,輸入為原始視頻有序歷史幀 {It?5,It?4,…,It?1}\left\{I_{t-5}, I_{t-4}, \ldots, I_{t-1}\right\}{It?5?,It?4?,…,It?1?} 和 打亂順序的歷史幀 {I^t?5,I^t?4,…,I^t?1}\left\{\hat{I}_{t-5}, \hat{I}_{t-4}, \ldots, \hat{I}_{t-1}\right\}{I^t?5?,I^t?4?,…,I^t?1?}。然后經過一個4層卷積網絡的編碼器得到高級特征圖(HHH)和低級特征圖 (LLL)。這樣就能得到局部記憶特征Ml\mathcal{M}_{l}Ml? 和全局記憶特征 Ml\mathcal{M}_{l}Ml?。
然后使用局部全局記憶聚合模塊(LGMA) 分別對低級特征圖和高級特征圖進行聚合。聚合后的低級特征 LmaL_{ma}Lma? 和目標幀的底級特征 LtL_tLt? 一起輸入到記憶讀取模塊(MR)增強目標幀的低級特征,同樣也增強目標幀的高級特征。
最后,使用一個U-Net解碼器來融合不同卷積層的特征,并預測目標幀 ItI_tIt? 的車道線檢測圖。
3.1 Local and Global Memory Aggregation Module
LGMA模塊如下圖(a)所示,輸入為5個有序歷史幀特征與亂序歷史幀特征,首先使用兩個 3×33\times33×3 卷積層在每一個輸入特征圖上提取 key maps 和 value maps。
然后使用注意力塊(圖(b)所示)對局部和全局key maps 和value maps集成記憶特征,得到新的map,最后局部與全局map相加得到kep map Zattk\mathbf{Z}_{att}^{\mathbf{k}}Zattk? 和value map Zattv\mathbf{Z}_{att}^{\mathbf{v}}Zattv?。數學表示為:
Zattk=fatt(k1L,k2L,…,k5L)+fatt?(k1G,k2G,…,k5G)Zattv=fatt(v1L,v2L,…,v5L)+fatt(v1G,v2G,…,v5G)\begin{array}{l} \mathbf{Z}_{\mathbf{a t t}}^{\mathrm{k}}=f_{a t t}\left(\mathbf{k}_{\mathbf{1}}^{\mathbf{L}}, \mathbf{k}_{\mathbf{2}}^{\mathbf{L}}, \ldots, \mathbf{k}_{\mathbf{5}}^{\mathbf{L}}\right)+f_{\text {att }}\left(\mathbf{k}_{1}^{\mathbf{G}}, \mathbf{k}_{\mathbf{2}}^{\mathbf{G}}, \ldots, \mathbf{k}_{\mathbf{5}}^{\mathbf{G}}\right) \\ \mathbf{Z}_{\mathbf{a t t}}^{\mathrm{v}}=f_{a t t}\left(\mathbf{v}_{\mathbf{1}}^{\mathbf{L}}, \mathbf{v}_{\mathbf{2}}^{\mathbf{L}}, \ldots, \mathbf{v}_{\mathbf{5}}^{\mathbf{L}}\right)+f_{a t t}\left(\mathbf{v}_{\mathbf{1}}^{\mathbf{G}}, \mathbf{v}_{\mathbf{2}}^{\mathbf{G}}, \ldots, \mathbf{v}_{\mathbf{5}}^{\mathbf{G}}\right) \end{array} Zattk?=fatt?(k1L?,k2L?,…,k5L?)+fatt??(k1G?,k2G?,…,k5G?)Zattv?=fatt?(v1L?,v2L?,…,v5L?)+fatt?(v1G?,v2G?,…,v5G?)?
其中,fattf_{att}fatt? 為注意力塊運算, (k1L,k2L,…,k5L)\left(\mathbf{k}_{\mathbf{1}}^{\mathbf{L}}, \mathbf{k}_{\mathbf{2}}^{\mathbf{L}}, \ldots, \mathbf{k}_{\mathbf{5}}^{\mathbf{L}}\right)(k1L?,k2L?,…,k5L?) 為局部記憶key map,(v1L,v2L,…,v5L)\left(\mathbf{v}_{\mathbf{1}}^{\mathbf{L}}, \mathbf{v}_{\mathbf{2}}^{\mathbf{L}}, \ldots, \mathbf{v}_{\mathbf{5}}^{\mathbf{L}}\right)(v1L?,v2L?,…,v5L?) 為局部記憶value map;(k1G,k2G,…,k5G)\left(\mathbf{k}_{\mathbf{1}}^{\mathbf{G}}, \mathbf{k}_{\mathbf{2}}^{\mathbf{G}}, \ldots, \mathbf{k}_{\mathbf{5}}^{\mathbf{G}}\right)(k1G?,k2G?,…,k5G?) 為全局記憶key map,(v1G,v2G,…,v5G)\left(\mathbf{v}_{\mathbf{1}}^{\mathbf{G}}, \mathbf{v}_{\mathbf{2}}^{\mathbf{G}}, \ldots, \mathbf{v}_{\mathbf{5}}^{\mathbf{G}}\right)(v1G?,v2G?,…,v5G?) 為全局記憶value map。
關于記憶讀取模塊(MR)、解碼器、訓練程序、訓練參數這里就不一一介紹了,具體細節可以閱讀代碼。
4. Experiments
實驗評價指標作者采用了image-leveli評價指標:mIoU、F10.5,F10.8\mathbf{F1}^{0.5},\mathbf{F1}^{0.8}F10.5,F10.8,line-based評價指標:Accuracy、FP\mathbf{FP}FP、FN\mathbf{FN}FN,除此之外,作者還引入了video-level評價指標:MJ,OJ,MF,OF,MT\mathcal{M}_{\mathcal{J}}, \mathcal{O}_{\mathcal{J}}, \mathcal{M}_{\mathcal{F}}, \mathcal{O}_{\mathcal{F}} , \mathcal{M}_{\mathcal{T}}MJ?,OJ?,MF?,OF?,MT?。
作者這里其它10中方法進行了比較,image-level檢測方法:LaneNet、SCNN、ENet-SAD、UFSA、LSTR,instance-level video 檢測方法:GAM、RVOS、STM、AFB-URR、TVOS。作者在VIL-100數據集上重新訓練了上述方法。
下表是不同評價指標的對比。
下面是可視化比較:
最后是不同采樣幀數和對比實驗,Basic為移除局部記憶注意力機制(LM)、全局記憶注意力機制(GM)、局部全局記憶注意力機制(LGM),多層融合機制,相當于檢測方法STM。
總結
以上是生活随笔為你收集整理的详解车道线检测数据集和模型 VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信用卡最低还款额及利息怎么计算 高额利息
- 下一篇: NYOJ-14 会场安排问题(经典贪心,