语义分割模型优化
語義分割模型優化
Improving Semantic Segmentation via Video
Propagation and Label Relaxation
鏈接地址:https://arxiv.org/abs/1812.01593v1
代碼鏈接:https://nv-adlr.github.io/publication/2018-Segmentation
面前在kitti數據集像素級語義分割中排名第一
摘要
語義分割需要大量的像素注釋來學習精確的模型。本文提出了一種基于視頻預測的方法,通過合成新的訓練樣本來擴展訓練集,以提高語義分割網絡的準確性。利用視頻預測模型預測未來幀的能力來預測未來標簽。同時提出了一種聯合傳播策略來減少合成樣本中的誤碼。在由合成樣本增強的數據集上訓練分割模型可以顯著提高準確性。此外,還引入了一種新的邊界標簽松弛技術,使得訓練對目標邊界上的噪聲和傳播偽影具有魯棒性。提出的方法在城市景觀上達到了83.5%和在CamVid上達到了82.9%的最高水平。的單一模型,沒有模型集合,在KITTI語義分割測試集上達到72.8%的mIoU,超過了ROB challenge 2018的獲獎項目。
- KITTI上測試
這是KITTI提供所選方法的詳細結果。
對于前20個測試圖像,顯示原始圖像、彩色編碼結果和錯誤圖像。
錯誤圖像包含4種顏色:
紅色:像素有錯誤的標簽和錯誤的類別
黃色:像素的標簽不正確,但類別正確
綠色:像素有正確的標簽
黑色:groundtruth標簽不用于評估
Test Image 0
Input Image
Prediction
- Introduction
本文貢獻總結如下:
?建議利用視頻預測模型將標簽傳播到相鄰幀。
?引入了聯合圖像標簽傳播來緩解錯誤對齊問題。
?建議通過最大化沿邊界的類概率聯合的可能性來松弛一個熱標簽訓練。這將產生更精確的模型,并允許執行更長的距離傳播。
?在分割性能方面,將基于視頻預測的方法與基于標準光流的方法進行了比較。
- Methods
3.1. Video Prediction
視頻預測是從前一幀序列中生成下一幀的任務。它可以被建模為直接像素合成或學習轉換前一幀像素的過程。在這項工作中,使用一種簡單而有效的基于向量的方法來預測運動向量(u,v)將每個像素(x,y)轉換為其未來的坐標。
3.2. Joint Image-Label Propagation
聯合傳播方法可以看作是一種特殊類型的數據增強,因為幀和標簽都是通過使用相同的學習轉換參數(u,v)來轉換過去的幀和相應的標簽來合成的。這是一種類似于標準數據增強技術的方法,如隨機旋轉、隨機尺度或隨機flip。聯合傳播使用了一個更基本的轉換,該轉換被訓練用于精確的下一幀預測任務。
3.3. Video Reconstruction
知道實際的下一幀,不僅可以執行視頻預測,還可以執行視頻重建來合成新的訓練示例。更具體地說,可以在前一幀和下一幀上調整預測模型,以便更準確地重建下一幀。這種重新編碼的動機是,由于下一幀是由視頻重建模型觀測的,一般來說,與只觀測前一幀的視頻預測模型相比,有望產生更好的變換參數。
3.4. Boundary Label Relaxation
提出了一種僅在訓練期間應用的類標簽空間的修改,它允許在一個邊界像素處預測多個類。將邊界像素定義為具有不同標記鄰居的任何像素。為了簡單起見,沿著類A和類B的邊界對像素進行分類。建議最大化P(A∪B)的可能性,而不是最大化注釋提供的目標標簽的可能性。由于A類和B類是互斥的,目標是使A和B的并集最大化:
- Experiments
總結
- 上一篇: 2020年Yann Lecun深度学习笔
- 下一篇: 深度学习模型训练过程