【转载】语义分割综述2020.01
轉載:
作者: http://blog.csdn.net/john_bh/
出處:https://blog.csdn.net/john_bh/article/details/107044528
論文鏈接:Image Segmentation Using Deep Learning:A Survey
會議及時間: Arxiv 2020.01
圖像分割是圖像處理和計算機視覺中的關鍵主題,其應用包括場景理解,醫學圖像分析,機器人感知,視頻監視,增強現實和圖像壓縮等。最近,由于深度學習模型在各種視覺應用中的成功,已經有大量的工作旨在使用深度學習模型開發圖像分割方法。作者在本次調查中,涵蓋了語義和實例級分割的廣泛開創性工作,包括全卷積像素標記網絡,編碼器-解碼器體系結構,多尺度以及基于金字塔的方法,遞歸網絡,視覺注意模型和對抗環境中的生成模型。研究了這些深度學習模型的相似性,優勢和挑戰,研究了使用最廣泛的數據集,報告了性能,并討論了該領域有希望的未來研究方向。
文章目錄
文章目錄
- 文章目錄
- 1. Introduction
- 2. Overiew of deep neural networks
- 2.1 CNNs
- 2.2 RNNs & LSTM
- 2.3 Encoder-Decoder and Auto-Encoder Models
- 2.4 GANs
- 2.5 Transfer Learning
- 3. DL-based Image Segmentation Models
- 3.1 Fully Convolutional Networks
- 3.2 Convolutional Models With Graphical Models
- 3.3 Encoder-Decoder Based Models
- 3.4 Multi-Scale and Pyramid Network Based Models
- 3.5 R-CNN Based Models (for Instance Segmentation)
- 3.6 Dilated Convolutional Models and DeepLab Family
- 3.7 Recurrent Neural Network Based Models
- 3.8 Attention-Based Models
- 3.9 Generative Models and Adversarial Training
- 3.10 CNN Models With Active Contour Models
- 3.11 Other Models
- 4. Image Segmentation Datasets
- 4.1 2D Datasets
- 4.2 2.5D Datasets
- 4.3 3D Datasets
- 5. Performance Review
- 5.1 Metrics For Segmentation Models
- 5.2 Quantitative Performance of DL-Based Models
- 6. Challenges & Opportunities
- 6.1 More Challenging Datasets
- 6.2 Interpretable Deep Models
- 6.3 Weakly-Supervised and Unsupervised Learning
- 6.4 Real-time Models for Various Applications
- 6.5 Memory Efficient Models
- 6.6 3D Point-Cloud Segmentation
1. Introduction
圖像分割是許多視覺理解系統中必不可少的組成部分。它涉及將圖像(或視頻幀)劃分為多個片段或對象。分割在廣泛的應用中起著核心作用,包括醫學圖像分析(例如,腫瘤邊界提取和組織體積測量),自動駕駛車輛(例如,可導航的地面和行人檢測),視頻監控以及增強現實技術來計算很少。文獻中已經開發了許多圖像分割算法,從最早的方法(例如閾值化,基于直方圖的捆綁,區域增長,k均值聚類,watersheds)到更高級的算法(例如活動輪廓,圖割,有條件和馬爾可夫隨機場和基于稀疏性的方法)。然而,在過去的幾年中,深度學習(DL)網絡產生了新一代的圖像分割模型,其性能得到了顯著提高-通常在流行的基準上達到最高的準確率,導致許多人將其視為該領域的范式轉變。例如,圖1展示了杰出的深度學習模型DeepLabv3的樣本圖像分割輸出。
可以將圖像分割表述為具有語義標簽的像素分類問題(語義分割)或單個對象的劃分(實例分割)。語義分割對所有圖像像素使用一組對象類別(例如,人,汽車,樹木,天空)執行像素級標記,因此通常比圖像分類要困難得多,后者要為整個圖像預測一個標簽。實例分割通過檢測和描繪圖像中的每個感興趣的對象(例如,分割個人)進一步擴展了語義分割的范圍。
這篇綜述調查涵蓋了圖像分割方面的最新文獻,并討論了直到2019年提出的一百多種基于深度學習的分割方法,對這些方法的不同方面提供了全面的回顧和見解,包括訓練數據,網絡架構的選擇,損失功能,訓練策略及其主要作用。
根據深度學習的主要技術貢獻將其分為以下幾類:
這篇綜述的一些關鍵貢獻可以總結如下:
- 這項調查涵蓋了有關分割問題的當代文獻,并概述了截至2019年提出的100多種分割算法,分為10類。
- 使用深度學習對分割算法的不同方面進行全面的回顧和深入的分析,包括訓練數據,網絡架構的選擇,損失函數,訓練策略及其主要貢獻。
- 概述了約20種流行的圖像分割數據集,分為2D,2.5D(RGBD)和3D圖像。
- 提供了針對大眾化基準進行細分的方法的性能和性能的比較摘要。
- 為基于深度學習的圖像分割提供了一些挑戰和潛在的未來方向。
2. Overiew of deep neural networks
2.1 CNNs
CNN是深度學習社區中最成功且使用最廣泛的架構之一,尤其是對于計算機視覺任務而言。 CNN最初是由福島(Fukushima)在他的關于“ Neocognitron”的開創性論文中提出的,其基礎是Hubel和Wiesel提出的視覺皮層的分層感受野模型。 隨后,Waibel等人介紹了在時間感受野和反向傳播訓練之間共享權重的CNN,用于音素識別,LeCun等人開發了CNN架構用于文件識別(圖2)。
CNN主要由三種類型的層組成:i)卷積層,其中卷積權重的核(或濾波器)以提取特征; ii)非線性層,它們在特征圖上(通常是逐元素地)應用激活函數,以便能夠通過網絡對非線性函數進行建模; iii)合并層,這些合并層用一些統計數據替換了特征圖的一小部分鄰域
有關鄰域的信息(平均值,最大值等),并降低空間分辨率。層中的單元是本地連接的;也就是說,每個單元都從前一層中較小的鄰域(稱為接收場)接收加權輸入。通過堆疊圖層以形成多分辨率金字塔,高層可以從越來越寬的接收場中學習特征。 CNN的主要計算優勢在于,一層中的所有接收場均具有權重,因此與完全連接的神經網絡相比,參數數量明顯減少。一些最著名的CNN架構包括:AlexNet,VGGNet,ResNet,GoogLeNet,MobileNet和DenseNet。
2.2 RNNs & LSTM
RNN被廣泛用于處理順序數據,例如語音,文本,視頻和時間序列,其中任何給定時間/位置的數據都取決于先前遇到的數據。 在每個時間戳上,模型都會收集當前時間 X i X_iXi的輸入和上一步h i ? 1 h_{i-1}hi?1的隱藏狀態,并輸出目標值和新的隱藏狀態(圖3)。
RNN通常在長序列方面存在問題,因為它們無法捕獲許多實際應用中的長期依賴關系(盡管它們在這方面沒有任何理論上的限制),并且經常遭受梯度消失或爆炸問題的困擾。 然而,一種稱為長短期記憶(LSTM的RNN旨在避免這些問題。 LSTM體系結構(圖4)包括三個門(輸入門,輸出門,遺忘門),它們調節信息進出存儲單元的信息流,該存儲單元在任意時間間隔內存儲值。
輸入、隱藏狀態和不同門之間的關系:
2.3 Encoder-Decoder and Auto-Encoder Models
編碼器-解碼器模型是一組模型,可以學習通過兩級網絡將數據點從輸入域映射到輸出域:由編碼函數 z = f ( x ) z = f(x)z=f(x) 表示的編碼器將輸入壓縮為潛在空間表示;解碼器 y = g ( z ) y = g(z)y=g(z) 旨在預測潛在空間表示的輸出。這里的潛在表示本質上是指特征(矢量)表示,它能夠捕獲底層的
輸入的語義信息,可用于預測輸出。這些模型在圖像到圖像的翻譯問題以及NLP中的序列模型中非常流行。圖5示出了簡單的編碼器-解碼器模型的框圖。通常通過最小化重建損失 L ( y , y ^ ) L(y, \hat y)L(y,y^?)來訓練這些模型,重建損失 L ( y , y ^ ) L(y,\hat y)L(y,y^?) 測量ground-truth y yy 和后續重建 y ^ \hat yy^? 之間的差異。此處的輸出可以是圖像的增強版本(例如,在圖像去模糊或超分辨率中)或分段圖。
自動編碼器是編碼器-解碼器模型的特例,其中輸入和輸出相同。 最受歡迎的一種是堆疊式降噪自動編碼器(SDAE),它可以堆疊多個自動編碼器并將其用于圖像降噪。 另一個流行的變體是變體自動編碼器(VAE),它在潛在表示上施加了先驗分布。 VAE能夠根據給定的數據分布生成實際樣本。 對抗性自動編碼器是另一種變體,它在潛在表示上引入對抗性損失,以鼓勵它們近似先驗分布。
2.4 GANs
GAN是較新的深度學習模型系列。 它們由兩個網絡組成:一個生成器和一個鑒別器(圖6)。
自從GANs發明以來,研究人員已努力通過多種方式來改進/修改GANs。 例如,Radford等人提出了卷積GAN模型,當用于圖像生成時,該模型比完全連接的網絡工作得更好。 Mirza提出了一種條件GAN模型,該模型可以生成以類標簽為條件的圖像,從而可以生成具有指定標簽的樣本。 Arjovsky等人提出了一種基于Wasserstein的新損失函數(又稱推土機距離),以更好地估計真實樣本和生成樣本的分布不重疊的情況下的距離(因此,KullbackLeiber散度并不是衡量該樣本的好方法 距離)。
2.5 Transfer Learning
在某些情況下,可以在新的應用程序/數據集上從頭開始訓練DL模型(假設有足夠數量的標記訓練數據),但是在許多情況下,沒有足夠的標記數據來從頭開始訓練模型,并且可以使用遷移學習解決這個問題。在遷移學習中,通常通過對新任務的適應過程,將在一個任務上訓練的模型重新用于另一(相關)任務。例如,可以想象使在ImageNet上訓練的圖像分類模型適應不同的任務,例如紋理分類或面部識別。在圖像分割的情況下,許多人使用在ImageNet上訓練的模型(比大多數圖像分割數據集更大的數據集)作為網絡的編碼器部分,并從這些初始權重中重新訓練他們的模型。預訓練的模型應該能夠捕獲分割所需圖像的語義信息,并因此使他們能夠用較少標簽的樣本來訓練模型。
3. DL-based Image Segmentation Models
3.1 Fully Convolutional Networks
Long等人提出了使用全卷積網絡(FCN)進行語義圖像分割的首批深度學習作品之一。 FCN(圖7)僅包含卷積層,這使它能夠拍攝任意大小的圖像并生成相同大小的分段圖。作者修改了現有的CNN架構,例如VGG16和GoogLeNet,以通過將所有完全連接的層替換為完全卷積的層來管理大小不固定的輸入和輸出。結果,模型輸出空間分割圖而不是分類得分。
通過使用跳過連接,其中對模型最后層的特征圖進行了上采樣并與早期層的特征圖(圖8)融合,該模型將語義信息(來自較深,較粗糙的層)和外觀信息(從淺層,細層開始)以生成準確且詳細的細分。該模型在PASCAL VOC,NYUDv2和SIFT Flow上進行了測試,并實現了最新的分割性能。
這項工作被認為是圖像分割的一個里程碑,表明可以對端到端的可變圖像進行語義分割的深度網絡訓練。但是,盡管傳統的FCN模型廣受歡迎和有效,但它還是有一些局限性-它不夠快,無法進行實時推斷,它沒有以有效的方式考慮全局上下文信息,并且不容易轉換為3D 圖像。
例如,Liu等人提出了一個名為ParseNet的模型,以解決FCN的一個問題-忽略全局上下文信息。 ParseNet通過使用一層的平均要素來擴展每個位置的要素,從而為FCN添加全局上下文。圖層的特征圖將在整個圖像上合并,從而產生上下文向量。對該上下文向量進行規范化和解池化,以生成與初始大小相同的新特征圖。然后將這些特征圖連接起來。簡而言之,ParseNet是一個FCN,其中所描述的模塊代替了卷積層(圖9)。
FCNs已經應用于多種分割問題,如腦瘤的分割,instance-aware語義分割,皮膚病變的分割,虹膜分割。
3.2 Convolutional Models With Graphical Models
如所討論的,FCN忽略了可能有用的場景級語義上下文。 為了集成更多上下文,幾種方法將概率圖形模型(例如條件隨機場(CRF)和馬爾可夫隨機場(MRF))納入DL體系結構。
Chen等人提出了一種基于CNN和完全連接的CRF的語義分割算法(圖10)。他們表明,來自深層CNN的最后一層的響應未充分定位以進行精確的對象分割(由于不變性使CNN能夠很好地完成高級任務,例如分類)。為了克服深層CNN的局限性,他們將最終CNN層的響應與完全連接的CRF相結合。 他們表明,與以前的方法相比,他們的模型能夠以更高的準確率定位路段邊界。
Schwing和Urtasun 提出了一種完全連接的深度結構化網絡,用于圖像分割。他們提出了一種聯合訓練CNN和完全連接的CRF進行語義圖像分割的方法,并在具有挑戰性的PASCAL VOC 2012數據集上取得了令人鼓舞的結果。Zheng等提出了類似的建議,CRF與CNN集成的語義分割方法。
在另一項相關工作中,Lin等人提出了一種基于上下文深度CRF的高效語義分割算法。他們探索了“patch-patch”上下文(在圖像區域之間)和“patch-background”上下文,以通過使用上下文信息來改善語義分割。
Liu等人提出了一種語義分割算法,該算法將豐富的信息合并到MRF中,包括高階關系和標簽上下文的混合。與以前使用迭代算法優化MRF的工作不同,他們提出了CNN模型,即解析網絡,該模型可以在單個前向通過中進行確定性的端到端計算。
3.3 Encoder-Decoder Based Models
另一個流行的用于圖像分割的深度模型系列基于卷積編碼器-解碼器體系結構。 大多數基于DL的分割工作都使用某種編碼器/解碼器模型,我們將這些工作分為兩類:用于一般分割的編碼器-解碼器模型和用于醫學圖像分割的編碼器/解碼器模型(以更好地區分應用)。
Encoder-Decoder Models for General Segmentation
Noh等人發表了有關基于反卷積(也稱為轉置卷積)的語義分割的早期論文。 他們的模型(圖11)由兩部分組成,一個是使用從VGG 16層網絡采用的卷積層的編碼器,另一個是將特征向量作為輸入并生成像素級類概率圖的反卷積網絡。 解卷積網絡由解卷積層和解池層組成,這些層識別逐個像素的類標簽并預測分段掩碼。 該網絡在PASCAL VOC 2012數據集上取得了可喜的性能,并且在當時沒有外部數據訓練的方法中獲得了最高的準確性(72.5%)。
在另一個被稱為SegNet的有前途的工作中,Badrinarayanan等人提出了一種用于圖像分割的卷積編碼器-解碼器架構(圖12)。與反卷積網絡類似,SegNet的核心可訓練分割引擎由一個編碼器網絡組成,其拓撲結構與13層 VGG16網絡中的卷積層,以及相應的解碼器網絡,然后是逐像素分類層。 SegNet的主要新穎之處在于解碼器對其較低分辨率的輸入特征圖進行升采樣。具體來說,它使用在相應編碼器的最大池化步驟中計算出的合并索引來執行非線性上采樣,從而消除了學習上采樣的需求,然后將(稀疏)上采樣圖與可訓練的濾波器卷積為生成密集的特征圖。與其他競爭性體系結構相比,SegNet的可訓練參數數量也明顯更少。同一作者還提出了貝葉斯SegNet版本,以對卷積編碼器-解碼器網絡用于場景分割的固有不確定性建模。
其他一些工作采用轉置卷積或編碼器/解碼器進行圖像分割,例如堆疊反卷積網絡(SDN),Linknet ,W-Net 和用于RGBD分割的局部敏感反卷積網絡。
Encoder-Decoder Models for Medical and Biomedical Image Segmentation
最初開發了幾種用于醫學/生物醫學圖像分割的模型,這些模型受FCN和編碼器-解碼器模型的啟發。 U-Net和V-Net是兩個眾所周知的此類體系結構,現在也已在醫療領域之外使用。
Ronneberger等人建議使用U-Net分割生物顯微鏡圖像。他們的網絡和培訓策略依靠數據增強來更有效地從可用的帶注釋的圖像中學習。 U-Net體系結構(圖13)包括兩個部分,一個用于捕獲上下文的收縮路徑,一個用于精確定位的對稱擴展路徑。下采樣或壓縮部分具有類似于FCN的體系結構,可提取 3 ? 3 3 * 33?3卷積的特征。上采樣或擴展部分使用上卷積(或去卷積),在減少特征圖數量的同時增加其尺寸。將網絡下采樣部分的特征圖復制到上采樣部分,以避免丟失模式信息。最終,1 ? 1 1 * 11?1 卷積處理特征圖以生成對輸入圖像的每個像素進行分類的分割圖。 U-Net接受了30幅透射光顯微鏡圖像的訓練,并且在2015年ISBI細胞追蹤挑戰賽中大獲全勝。
已針對不同種類的圖像開發了U-Net的各種擴展。例如,Cicek提出了用于3D圖像的U-Net體系結構。 Zhou等人開發了一個嵌套的U-Net架構。 U-Net也已應用于其他各種問題。例如,Zhang等人開發了基于U-Net的道路分割/提取算法。
V-Net(圖14)是另一個著名的基于FCN的模型,由Milletari等人提出用于3D醫學圖像分割。對于模型訓練,他們引入了基于Dice系數的新目標函數,使模型能夠處理前景和背景中的體素數量之間存在強烈不平衡的情況。該網絡經過端到端的MRI描繪前列腺體積的培訓,并學會了一次預測整個體積的分割。
其他有關醫學圖像分割的相關工作包括漸進密集V-net(PDV-Net)等人,用于從胸部CT圖像快速自動分割肺葉,以及用于病變分割的3D-CNN編碼器。
3.4 Multi-Scale and Pyramid Network Based Models
多尺度分析是圖像處理中一個比較古老的想法,已被部署在各種神經網絡體系結構中。Lin等人提出的特征金字塔網絡(FPN)是此類中最著名的模型之一,該模型主要是為 目標檢測,但隨后也應用于分割。 深度CNN固有的多尺度金字塔層次結構被用來構建具有少量額外成本的特征金字塔。 為了合并低分辨率和高分辨率功能,FPN由自下而上的路徑,自上而下的路徑和橫向連接組成。 然后通過 3 ? 3 3 * 33?3 卷積處理級聯的特征圖,以生成每個階段的輸出。 最后,自頂向下路徑的每個階段都會生成預測以檢測物體。 對于圖像分割,作者使用兩個多層感知器(MLP)生成masks.。圖15顯示了如何通過添加來合并橫向連接和自上而下的路徑。
Zhao等人開發了金字塔場景解析網絡(PSPN),這是一個多尺度網絡,可以更好地學習場景的全局上下文表示(圖16),并使用殘差網絡(ResNet)作為輸入從圖像中提取不同的模式。 特征提取器,具有擴展的網絡。 然后將這些特征圖輸入金字塔池模塊中,以區分不同比例的圖案。 它們以四個不同的比例合并,每個比例對應于一個金字塔等級,并由 1 ? 1 1 * 11?1 卷積層處理以減小其尺寸。 金字塔等級的輸出被上采樣并與初始特征圖連接,以捕獲局部和全局上下文信息。 最后,使用卷積層生成逐像素預測。
Ghiasi和Fowlkes開發了一種基于拉普拉斯金字塔的多分辨率重建體系結構,該體系結構使用高分辨率特征圖的跳躍連接和乘性門控來依次細化從低分辨率圖重建的分段邊界,這表明卷積的明顯空間分辨率 特征圖較低,高維特征表示包含重要的子像素定位信息。
還有其他使用多尺度分析進行細分的模型,例如DM-Net(動態多尺度過濾器網絡),上下文對比網絡和門控多尺度聚合(CCN),自適應金字塔上下文網絡(APC-Net),多尺度 上下文纏繞(MSCI)和顯著對象分割。
3.5 R-CNN Based Models (for Instance Segmentation)
區域卷積網絡(R-CNN)及其擴展(Fast R-CNN,Faster R-CNN,Maksed-RCNN)在對象檢測應用中被證明是成功的。 R-CNN的某些擴展已被廣泛用于解決實例分割問題。 即同時執行對象檢測和語義分割的任務。 特別是,為對象檢測而開發的Faster R-CNN體系結構(圖17)使用區域提議網絡(RPN: region proposal network)提議邊界框候選。 RPN提取感興趣區域(RoI:Region of Interest),RoIPool層從這些建議中計算要素,以推斷出邊界框坐標和對象的類別。
在該模型的一個擴展中,He等人提出了一種用于對象實例分割的Mask R-CNN,在許多COCO挑戰中都擊敗了以前的所有基準。該模型有效地檢測了圖像中的對象,同時為每個實例生成了高質量的分割掩碼。 Mask R-CNN本質上是具有3個輸出分支的Faster RCNN(圖18)-第一個計算邊界框坐標,第二個計算關聯的類,第三個計算二進制Mask 以分割對象。 Mask R-CNN損失函數將邊界框坐標,預測類和分割蒙版的損失合并在一起,并共同訓練它們。 圖19顯示了一些樣本圖像上的Mask-RCNN結果。
Liu等人提出的路徑聚合網絡(PANet)基于Mask R-CNN和FPN模型(圖20)。網絡的特征提取器使用具有新的自底向上的增強路徑的FPN架構,可改善低層特征的傳播。第三條路徑的每個階段都將前一階段的特征圖作為輸入,并使用 3 ? 3 3 * 33?3 卷積層對其進行處理。使用橫向連接將輸出添加到自頂向下路徑的同一階段特征圖,這些特征圖將饋入下一個階段。與Mask RCNN中一樣,自適應特征池化層的輸出將饋入三個分支。前兩個使用完全連接的層來生成邊界框坐標和關聯對象類別的預測。第三部分使用FCN處理RoI以預測對象mask.。
Dai等人開發了一個用于實例感知語義分割的多任務網絡,該網絡由三個網絡組成,分別區分實例,估計掩碼和對對象進行分類。這些網絡形成一個級聯結構,旨在共享它們的卷積特征。Hu等人提出了一種新的部分監督的訓練范例,以及一個新穎的權重傳遞函數,該模型使訓練實例分割模型可以在大量類別上進行分類,所有類別都具有框注,但只有一小部分具有蒙版注解。Chen等人通過基于Faster R-CNN的語義和方向特征完善對象檢測,從而開發了實例分割模型MaskLab(圖21)。該模型產生三個輸出,即框檢測,語義分割和方向預測。在Faster-RCNN對象檢測器的基礎上,預測框提供了對象實例的精確定位。在每個感興趣的區域內,MaskLab通過組合語義和方向預測來執行前景/背景分割。
另一個有趣的模型是由Chen等人提出的 Tensormask。 這是基于密集的滑動窗口實例分割。他們將密集實例分割視為4D張量上的預測任務,并提出了一個通用框架,該框架使4D張量上的新穎運算符成為可能。他們證明張量視圖可以帶來比基線大的收益,并且產生的結果與Mask R-CNN相當。 TensorMask在密集對象分割方面取得了可喜的結果(圖22)。
已經基于R-CNN開發了許多其他實例分割模型,例如為 mask proposals開發的模型,包括R-FCN,DeepMask,SharpMask,PolarMask和邊界感知實例分割。 值得注意的是,還有另一個很有前途的研究方向,它試圖通過學習用于自下而上的分割的分組提示來解決實例分割問題,例如深度分水嶺變換和通過深度度量學習的語義實例分割。
3.6 Dilated Convolutional Models and DeepLab Family
擴張卷積(又稱“atrous””卷積)為卷積層引入了另一個參數,即擴張率。信號 x ( i ) x(i)x(i) 的擴張卷積(圖23)定義為y i = ∑ k = 1 K x [ i + r k ] w [ k ] y_i=\sum_{k=1}^K x[i+rk]w[k]yi=∑k=1Kx[i+rk]w[k],其中 r rr 是定義 的擴張率。 內核權重之間的間隔 w ww。 例如,膨脹率為 2 22 的 3 ? 3 3 * 33?3 內核將具有與 5 ? 5 5 * 55?5 內核相同的大小接收場,同時僅使用 9 99 個參數,從而在不增加計算成本的情況下擴大了接收場。 膨脹卷積在實時分割領域中很流行,并且許多最近的出版物報道了這種技術的使用。 最重要的一些特性包括DeepLab系列,多尺度上下文聚合,密集上采樣卷積和混合擴張卷積(DUC-HDC),密集連接的Atrous空間金字塔池(DenseASPP)以及高效神經網絡(ENet)。
DeepLabv1 和DeepLabv2 是Chen等人開發的一些最受歡迎的圖像分割方法。后者具有三個關鍵特征。首先是使用擴張卷積來解決網絡中分辨率下降的問題(這是由最大池和步幅引起的)。其次是Atrous空間金字塔池化(ASPP),它使用多個采樣率的過濾器探測傳入的卷積特征層,從而以多個比例捕獲對象和圖像上下文,從而以多個比例穩健地分割對象。第三是通過結合深層CNN和概率圖形模型的方法來改進對象邊界的定位。最好的DeepLab(使用ResNet-101作為骨干)在2012年PASCAL VOC挑戰賽中達到79.7%的mIoU分數,在PASCAL-Context挑戰賽中達到45.7%的mIoU分數,在Cityscapes挑戰賽中達到70.4%的mIoU分數。圖24說明了Deeplab模型,該模型類似于[38],主要區別在于使用了擴展卷積和ASPP??。
隨后,Chen等人提出了DeepLabv3,它結合了擴展卷積的級聯和并行模塊。并行卷積模塊在ASPP中分組。在ASPP中添加了 1 ? 1 1 * 11?1 卷積和批處理規范化。所有輸出通過另一個 1 ? 1 1 * 11?1 卷積進行級聯和處理,以創建最終輸出,每個像素的對數均對數。
Chen等人在2018年發布了Deeplabv3 +,它使用了編碼器-解碼器體系結構(圖25),其中包括粗糙的可分離卷積,包括深度卷積(輸入每個通道的空間卷積)和點向卷積(1 ? 1 1 * 11?1卷積,深度卷積作為輸入)。他們使用DeepLabv3框架作為編碼器。最相關的模型具有經過修改的Xception骨架,具有更多層,擴展的深度可分離卷積,而不是最大合并和批量歸一化。在COCO和JFT數據集上預訓練的最佳DeepLabv3+在2012年PASCAL VOC挑戰中獲得了89.0%的mIoU分數。
3.7 Recurrent Neural Network Based Models
盡管CNN很自然地適合解決計算機視覺問題,但它們并不是唯一的可能性。 RNN在建模像素之間的短期/長期依賴性方面很有用,以(可能)改善分割圖的估計。使用RNN,可以將像素鏈接在一起并進行順序處理以建模全局上下文并改善語義分割。但是,挑戰之一是圖像的自然2D結構。
Visin等人提出了一種基于RNN的語義分割模型ReSeg。該模型主要基于為圖像分類開發的另一項作品ReNet。每個ReNet層(圖26)由四個RNN組成,它們在兩個方向上水平和垂直掃描圖像,對補丁/激活進行編碼,并提供相關的全局信息。為了使用ReSeg模型進行圖像分割(圖27),ReNet層堆疊在提取通用局部特征的預訓練VGG-16卷積層之上。然后,在ReNet層之后是上采樣層,以在最終預測中恢復原始圖像分辨率。使用門控循環單元(GRU)是因為它們在內存使用和計算能力之間提供了良好的平衡。
在另一項工作中,Byeon等人使用長短期記憶(LSTM)網絡開發了場景圖像的像素級分割和分類。 他們研究了自然場景圖像的二維(2D)LSTM網絡,同時考慮了標簽的復雜空間依賴性。 在這項工作中,分類,分割和上下文集成都由2D LSTM網絡執行,從而允許在單個模型中學習紋理和空間模型參數。 所提出的用于圖像分割的2D LSTM網絡的框圖如圖28所示。
Liang等人提出了一種基于圖長短期記憶(Graph LSTM)網絡的語義分割模型,該模型將LSTM從順序數據或多維數據擴展為一般的圖結構化數據,而不是將圖像均勻劃分為像素或小塊在現有的多維LSTM結構(例如行,網格和對角線LSTM)中,它們將每個任意形狀的超像素作為語義上一致的節點,并自適應地為圖像構造無向圖,其中超像素的空間關系自然用作邊緣。
圖29展示了傳統的像素級RNN模型和圖形LSTM模型的視覺比較。為了使Graph LSTM模型適應語義分割(圖30),將在超像素圖上構建的LSTM層附加到卷積層上,以增強具有全局結構上下文的視覺特征。卷積特征通過 1 ? 1 1 * 11?1 卷積過濾器生成所有標簽的初始置信度圖。通過基于初始置信度圖的置信度驅動方案確定后續Graph LSTM層的節點更新順序,然后Graph LSTM層可以順序更新所有超像素節點的隱藏狀態。
Xiang和Fox建議將數據關聯的遞歸神經網絡(DA-RNN)用于聯合3D場景映射和語義標記。 DA-RNN使用新的遞歸神經網絡架構(圖31)對RGB-D視頻進行語義標記。網絡的輸出與諸如Kinect-Fusion之類的映射技術集成在一起,以便將語義信息注入到重建的3D場景中。
Hu等人開發了一種基于自然語言表達的語義分割算法,結合使用CNN編碼圖像和LSTM編碼其自然語言描述。這與在預定義的語義類集合上的傳統語義分段不同,例如,短語“兩個人坐在正確的長凳上”僅需要對在正確的長凳上的兩個人進行分段,而沒有人站立或坐在另一個長凳上。為了產生用于語言表達的按像素細分,他們提出了一種端到端可訓練的遞歸和卷積模型,該模型共同學習處理視覺和語言信息(圖32)。在考慮的模型中,使用遞歸LSTM網絡將參考表達式編碼為矢量表示,并使用FCN從圖像中提取空間特征圖并輸出目標對象的空間響應圖。此模型的分割結果示例(針對查詢“穿著藍色外套的人”)如圖33所示。
3.8 Attention-Based Models
Chen等人提出了一種注意力機制,該機制可以學習在每個像素位置輕柔地加權多尺度特征。他們采用了強大的語義分割模型,并結合多尺度圖像和注意力模型對其進行了訓練(圖34)。注意機制的性能優于平均池和最大池,它使模型能夠評估不同位置和比例下要素的重要性。
與其他訓練卷積分類器以學習標記對象的代表性語義特征的工作相反,Huang等人提出了一種使用反向注意機制的語義分割方法。他們的逆向注意力網絡(RAN)架構(圖35)也訓練模型以捕獲相反的概念(即與目標類別不相關的功能)。 RAN是一個三分支網絡,可同時執行直接和反向注意學習過程。
Li等人開發了用于語義分割的金字塔注意網絡。 該模型利用了全局上下文信息在語義分割中的影響,將注意力機制和空間金字塔相結合,以提取精確的密集特征進行像素標記,而不是使用復雜的卷積和人工設計的解碼器網絡。
最近,Fu等人提出了一種用于場景分割的雙關注網絡,該網絡可以基于自關注機制捕獲豐富的上下文依賴關系,具體而言,他們在擴張的FCN之上附加了兩種類型的關注模塊,該模塊對FDI中的語義相互依賴關系進行建模。 位置注意模塊通過所有位置的特征的加權總和選擇性地聚合每個位置的特征。 雙關注網絡的體系結構如圖36所示。
其他各種著作也探索了語義分割的注意力機制,例如OCNet,它提出了一種基于自我注意力機制的對象上下文池,期望最大化注意力(EMANet),交叉注意力網絡(CCNet),端到端實例分割 帶有經常性注意力,用于場景解析的逐點空間注意力網絡[98]和區分特征網絡(DFN),該特征網絡包括兩個子網絡:平滑網絡(包含通道注意力塊和全局平均池,以選擇更多 辨別特征)和邊界網絡(使邊界的雙邊特征可區分)。
3.9 Generative Models and Adversarial Training
Luc等人提出了一種針對語義分割的對抗訓練方法。 他們訓練了一個卷積語義分割網絡(圖37),以及一個對抗網絡,該網絡將地面真實分割圖與由分割網絡生成的地圖區分開來。 他們表明,對抗訓練方法可以提高Stanford Background和PASCAL VOC 2012數據集的準確性。
圖38顯示了對來自斯坦福背景數據集的一幅示例圖像進行對抗訓練所帶來的改進。
Souly等人提出了使用GAN的半弱監督語義分割。 它由一個生成器網絡組成,該生成器網絡為GAN框架中的區分器提供了針對多類分類器的額外訓練示例,該分類器從K個可能的類中為樣本分配標簽y或將其標記為假樣本(額外類)。
在另一項工作中,Hung等人開發了一個使用對抗網絡進行半監督語義分割的框架。 他們設計了FCN鑒別器,以考慮空間分辨率,將預測的概率圖與地面真實分割分布區分開。 該模型考慮的損失函數包含三個術語:基于分割地面事實的交叉熵損失,鑒別器網絡的對抗損失和基于置信度圖的半監督損失;以及 即鑒別器的輸出。 Hung及其同事的模型架構如圖39所示。
Xue等人提出了一種具有多尺度L1損失的對抗網絡,用于醫學圖像分割。 他們使用FCN作為分割器來生成分割標簽圖,并提出了一種具有多尺度L1損失函數的新型對抗性評論者網絡,以迫使評論者和細分者學習捕獲了兩者之間長距離和短距離空間關系的全局和局部特征 像素。 分割器和注釋器網絡的框圖如圖40所示。
其他各種出版物也報道了基于對抗訓練的分割模型,例如使用GAN進行細胞圖像分割,以及分割和生成對象的不可見部分。
3.10 CNN Models With Active Contour Models
FCN和活動輪廓模型(ACM:Active Contour Models)之間的協同作用探索最近引起了研究興趣。一種方法是根據ACM原理制定新的損失函數。例如,受[106]的全球能量公式的啟發,Chen等人提出了一種監督性損失層,該層在FCN訓練期間結合了預測面罩的面積和大小信息,并解決了心臟MRI中的心室分割問題。同樣,Gur等人提出了一種基于無邊緣形態活動輪廓的無監督損失函數,用于微血管圖像分割。
最初,一種不同的方法試圖將ACM僅僅用作FCN輸出的后處理器,并且通過預訓練FCN進行了一些努力,試圖進行適度的共同學習。 Le等人的工作(用于將自然圖像進行語義分割的任務)的ACM后處理器的一個示例是其中將水平集ACM實現為RNN。 Rupprecht等人的“深度活動輪廓”是另一個示例。對于醫學圖像分割,Hatamizadeh等人提出了一種集成的深度活動病變分割(DALS)模型,該模型訓練FCN主干來預測新穎的局部參數化水平集能量函數的參數函數。在另一項相關工作中,Marcos等人提出了“深層結構主動輪廓(DSAC)”,它在結構化預測框架中結合了ACM和預訓練的FCN,用于在航空影像中進行實例分割(盡管有手動初始化)。對于相同的應用,Cheng等人提出了深動態射線網絡(DarNet),它與DSAC相似,但是基于極坐標具有不同的顯式ACM公式,以防止輪廓自相交。Hatamizadeh等人最近提出了一種真正的端到端反向傳播可訓練的,完全集成的FCN-ACM組合,稱為“深度卷積主動輪廓(DCAC)”。
3.11 Other Models
除上述模型外,還有其他幾種用于分割的流行DL架構,例如:上下文編碼網絡(EncNet),它使用基本的特征提取器并將特征映射饋送到上下文編碼模塊中。 RefineNet是一個多路徑優化網絡,可明確利用降采樣過程中的所有可用信息,以使用遠程殘差連接實現高分辨率預測。 “對象上下文表示”(OCR),它在地面真理的監督下學習對象區域,并計算對象區域表示以及每個像素與每個對象區域之間的關系,并使用對象上下文表示來增強表示像素。 Seednet引入了具有深度增強學習功能的自動種子生成技術,該技術學會了解決交互式分割問題。Feedforward-Net將圖像超像素映射到從一系列嵌套區域中提取的豐富特征表示,這些嵌套區域的范圍不斷擴大,并利用統計結構圖像和標簽空間中,而無需設置明確的結構化預測機制。
其他模型包括BoxSup,圖卷積網絡,Wide ResNet,Exfuse(增強低級和高級特征融合),雙圖像分割(DIS),FoveaNet(可感知場景的場景解析),梯形DenseNet,雙邊分割網絡( BiSeNet),場景解析的語義預測指南(SPGNet),門控形狀的CNN,自適應上下文網絡(AC-Net),動態結構化語義傳播網絡(DSSPN),符號圖推理(SGR),CascadeNet,可縮放比例的卷積( SAC),統一感知解析(UperNet)。
全景分割也是另一個有趣(且較新)的分割問題,并且越來越受歡迎,并且在這一方向上已經有一些有趣的工作,包括全景特征金字塔網絡,用于全景分割的注意力指導網絡和無縫場景分割。
圖41說明了基于DL的流行作品進行語義分割的時間軸,以及自2014年以來的實例分割。鑒于過去幾年開發的大量作品,我們僅顯示一些最具代表性的作品。
4. Image Segmentation Datasets
4.1 2D Datasets
是計算機視覺中最受歡迎的數據集之一,帶注釋的圖像可用于5個任務-分類,細分,檢測,動作識別和人員布局。 文獻中報道的幾乎所有流行的分割算法都已在該數據集上進行了評估。 對于細分任務,有21類對象標簽-車輛,家庭,動物,飛機,自行車,船,公共汽車,汽車,摩托車,火車,瓶,椅子,餐桌,盆栽,沙發,電視/顯示器,鳥 ,貓,牛,狗,馬,綿羊和人(如果像素不屬于這些類別中的任何一個,則將其標記為背景)。此數據集分為兩組,分別是訓練和驗證,分別包含1,464和1,449張圖像 。 有一個針對實際挑戰的私人測試儀。 圖42顯示了示例圖像及其按像素標記。
是PASCAL VOC 2010檢測挑戰的擴展,它包含所有訓練圖像的逐像素標簽。 它包含400多個類(包括原始的20個類以及PASCAL VOC分割的背景),分為三類(對象,填充和混合)。 該數據集的許多對象類別太稀疏了; 因此,通常會選擇59個常見類別的子集來使用。 圖43顯示了此數據集的三個樣本圖像的分割圖。
是另一種大規模的對象檢測,分割和字幕數據集。 COCO包含日常復雜場景的圖像,其中包含自然環境中的常見對象。 該數據集包含91種對象類型的照片,并以328k圖像的形式總共標記了250萬個實例。
它主要用于分割單個對象實例。 圖44顯示了給定樣本圖像的MS COCO標簽與先前數據集之間的差異。檢測挑戰包括80多個類別,提供超過82k圖像進行訓練,提供40.5k圖像進行驗證以及超過80k圖像進行測試。
是一個大型數據庫,專注于對城市街道場景的語義理解 。 它包含來自50個城市的街道場景中記錄的各種立體聲視頻序列集,5k幀的高質量像素級注釋以及一組20k的弱注釋幀,包括30類的語義和密集像素注釋, 分為8類-平面,人,車輛,建筑物,物體,自然,天空和空隙。 圖45顯示了來自該數據集的四個樣本分割圖。
4.2 2.5D Datasets
4.3 3D Datasets
5. Performance Review
5.1 Metrics For Segmentation Models
其中 p i j p_{ij}pij?是類別 i ii 的像素被預測為屬于類別 j jj 的像素數。
其中A和B分別表示 ground truth 和預測的分割圖。 取值范圍是0到1。
其中TP表示真陽性分數,FP表示假陽性分數,FN表示假陰性分數。 通常,我們會對精度和召回率的組合版本感興趣。 這種流行的度量稱為F1分數,其定義為精確度和查全率的 harmonic mean:
當將Dice系數應用于布爾數據(例如二進制分割圖)并將前景稱為正類時,其Dice系數與F1分數基本相同,定義為等式8:
Dice系數與IoU呈正相關。
5.2 Quantitative Performance of DL-Based Models
6. Challenges & Opportunities
6.1 More Challenging Datasets
已經創建了幾個大型圖像數據集用于語義分割和實例分割。 但是,仍然需要更具挑戰性的數據集以及不同類型圖像的數據集。 對于靜止圖像,具有大量對象和重疊對象的數據集將非常有價值。 這可以使訓練模型更適合處理密集的對象場景,以及對象之間的較大重疊,這在
真實場景。
隨著3D圖像分割的日益普及,尤其是在醫學圖像分析中,也非常需要大型3D圖像數據集。 這些數據集比維數較低的數據集更難創建。 現有的可用3D圖像分割數據集通常不夠大,有些是合成的,因此更大,更具挑戰性的3D圖像數據集可能非常有價值。
6.2 Interpretable Deep Models
盡管基于DL的模型在具有挑戰性的基準上取得了可喜的性能,但有關這些模型的問題仍然存在。 例如,深度模型究竟要學習什么? 我們應該如何解釋這些模型學到的特征? 能在給定的數據集上達到一定分割精度的最小神經架構是什么? 盡管可以使用一些技術來可視化這些模型的學習卷積核,但是仍缺乏對這些模型的基本行為/動力學的具體研究。 更好地理解這些模型的理論方面,可以開發出針對各種細分方案而設計的更好的模型。
6.3 Weakly-Supervised and Unsupervised Learning
弱監督(也就是很少有鏡頭學習)和無監督學習正在成為非常活躍的研究領域。這些技術有望對圖像分割特別有價值,因為在許多應用領域,尤其是在醫學圖像分析中,采集用于分割問題的標記樣本是有問題的 。 轉移學習方法是在大量帶標簽的樣本(可能來自公共基準)上訓練通用圖像分割模型,然后在某些特定目標應用程序的幾個樣本上對該模型進行微調。 自我監督學習是另一個有希望的方向,在各個領域都吸引了很多吸引力。 借助自我監督學習,可以捕獲圖像中的許多細節,從而以更少的訓練樣本來訓練分割模型。 基于強化學習的模型也可能是另一個潛在的未來方向,因為它們很少受到圖像分割的關注。
6.4 Real-time Models for Various Applications
在許多應用程序中,準確性是最重要的因素;但是,在某些應用程序中,具有可以接近實時或至少接近普通相機幀速率(每秒至少25幀)運行的分割模型也很關鍵 )。 這對于例如部署在自動駕駛汽車中的計算機視覺系統很有用。 當前的大多數模型都遠非這個幀速率。 例如,FCN-8大約需要100毫秒來處理低分辨率圖像。基于膨脹卷積的模型有助于在某種程度上提高分割模型的速度,但仍有很大的改進空間。
6.5 Memory Efficient Models
即使在推理階段,許多現代分割模型也需要大量內存。 到目前為止,已經進行了很多努力來提高這種模型的準確性,但是為了使它們適合特定的設備(例如移動電話),必須簡化網絡。 這可以通過使用更簡單的模型,或者通過使用模型壓縮技術,甚至訓練復雜的模型,然后使用知識提煉技術將其壓縮為模仿復雜模型的較小的,內存有效的網絡來完成。
6.6 3D Point-Cloud Segmentation
許多工作集中在2D圖像分割上,但 處理3D點云分割的工作卻很少 。然而,對點云分割的興趣與日俱增,在3D建模,自動駕駛汽車,機器人技術中具有廣泛的應用 ,建筑模型等。 處理3D無序和非結構化數據(例如點云)帶來了一些挑戰。 例如,尚不清楚在點云上應用CNN和其他經典深度學習架構的最佳方法。 基于圖的深度模型可能是探索點云分割的潛在領域,從而實現了這些數據的其他工業應用。
總結
以上是生活随笔為你收集整理的【转载】语义分割综述2020.01的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 相机稳定性测试软件,用于天文观测的科学级
- 下一篇: 王一博豆瓣电影海报抓取