當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读—图像分割方法综述(二)（arXiv:[cs:cv]20200410）

發布時間：2024/3/13 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读—图像分割方法综述(二)（arXiv:[cs:cv]20200410）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上一篇章，主要介紹了目前圖像分割領域常用的基礎網絡結構，以及總結了十大圖像分割算法，本節繼續介紹剩余算法。

論文閱讀—圖像分割方法綜述(一)（arXiv:[cs:cv]20200410）
論文閱讀—圖像分割方法綜述(三)（arXiv:[cs:cv]20200410）

4.3 Encoder-Decoder Based Models

另一個流行的用于圖像分割的深度模型系列基于卷積編碼器-解碼器體系結構。大多數基于DL的分割工作都使用某種編碼器/解碼器模型，我們將這些工作分為兩類：用于一般分割的編碼器-解碼器模型和用于醫學圖像分割的編碼器/解碼器模型（以更好地區分應用）。

3.4.1 Encoder-Decoder Models for General Segmentation

Noh等[43]發表了有關基于反卷積（也稱為轉置卷積）的語義分割的早期論文。他們的模型（圖11）由兩部分組成，一個是使用VGG16的卷積層作為編碼器，另一個解碼器是將特征向量作為輸入并生成像素級類別概率圖的反卷積網絡。反卷積網絡由反卷積層和反池化層組成，這些層識別逐個像素的類標簽并預測分割掩碼。該網絡在PASCAL VOC 2012數據集上取得了可喜的性能，并且在當時沒有外部數據訓練的方法中獲得了最高的準確性（72.5％）。

在另一個被稱為SegNet的有前途的工作中，Badrinarayanan等人[44]提出了一種用于圖像分割的卷積編碼器-解碼器架構（圖12）。類似于反卷積網絡，SegNet的核心可訓練分段引擎包括一個編碼器網絡（在拓撲上與VGG16網絡中的13個卷積層相同），以及一個相應的解碼器網絡，其后是按像素分類層。 SegNet的主要新穎之處在于解碼器對其較低分辨率的輸入特征圖進行升采樣。具體來說，它使用在相應編碼器的最大池化步驟中計算出的合并索引來執行非線性上采樣，從而無需學習上采樣。然后，將（稀疏的）上采樣圖與可訓練的濾波器進行卷積以生成密集的特征圖。與其他競爭性體系結構相比，SegNet的可訓練參數數量也明顯更少。同一作者還提出了貝葉斯版本的SegNet，以對卷積編碼器-解碼器網絡用于場景分割的固有不確定性建模[45]。

此類別中的另一個流行模型是最近開發的分割網絡，高分辨率網絡（HRNet）[119]圖13。除了像DeConvNet，SegNet，U-Net和V-Net中那樣恢復高分辨率表示之外，HRNet還會保持較高的通過并行連接高到低分辨率卷積流，并在分辨率之間反復交換信息，通過編碼過程實現分辨率表示。

4.3.2 Encoder-Decoder Models for Medical and Biomedical Image Segmentation

最初開發了幾種用于醫學/生物醫學圖像分割的模型，這些模型受FCN和編碼器-解碼器模型的啟發。 U-Net [50]和V-Net [51]是兩個眾所周知的此類體系結構，現在也已在醫療領域之外使用。

Ronneberger等[50]提出了用于分割生物顯微鏡圖像的U-Net。他們的網絡和訓練策略依靠數據增強來更有效地從可用的帶注釋的圖像中學習。 U-Net體系結構（圖14）包括兩個部分，一個用于捕獲上下文的收縮路徑，以及一個能夠實現精確定位的對稱擴展路徑。下采樣或壓縮部分具有類似于FCN的體系結構，可通過3x3卷積提取特征。上采樣或擴展部分使用上卷積，在增加特征圖尺寸的同時減少了特征圖的數量。來自網絡下采樣部分的特征圖將復制到上采樣部分，以避免丟失模式信息。最后，1x1卷積處理特征圖，以生成對輸入圖像的每個像素進行分類的分割圖。 U-Net接受了30幅透射光顯微鏡圖像的培訓，并且在2015年贏得了ISBI細胞跟蹤挑戰賽的冠軍。

4.4 Multi-Scale and Pyramid Network Based Models

多尺度分析是圖像處理中的一個相當古老的想法，已被部署在各種神經網絡體系結構中。這種最突出的模型之一是Lin等人提出的特征金字塔網絡（FPN）。它主要是為目標檢測而開發的，但后來也應用于分割。深度卷積神經網絡固有的多尺度金字塔層次結構用于以少量額外成本構建特征金字塔。為了合并低分辨率和高分辨率功能，FPN由自下而上的路徑，自上而下的路徑和橫向連接組成。然后，通過3x3卷積處理級聯的特征圖，以生成每個階段的輸出。最終，自頂向下路徑的每個階段都會生成預測以檢測物體。對于圖像分割，作者使用兩個多層感知器（MLP）生成MASKS。圖16顯示了橫向連接和自上而下的方式路徑通過加法合并。

趙等[57]提出了金字塔場景解析網絡（PSPN），這是一個多尺度網絡，可以更好地學習場景的全局上下文表示（圖17）。使用殘差網絡（ResNet）作為特征提取器得到特征圖。然后將這些特征圖輸入金字塔池模塊，以區分不同比例的特征圖，它們以四個不同的比例合并，每個比例對應于一個金字塔等級，并由1x1卷積層處理以減小其維度。金字塔等級的輸出被上采樣并與初始特征圖連接，以捕獲本地和全局上下文信息。最后，使用卷積層生成逐像素預測。

Ghiasi和Fowlkes [58]提出了一種基于拉普拉斯金字塔的多分辨率重建結構，該結構使用了來自高分辨率特征圖的跳躍連接和乘性門控，以逐步完善從低分辨率圖重建的分割邊界。他們表明，盡管卷積特征圖的表觀空間分辨率較低，但高維特征表示卻包含重要的子像素定位信息。

還有其他使用多尺度分析進行細分的模型，例如DM-Net（動態多尺度過濾器網絡）[59]，上下文對比網絡和門控多尺度聚合（CCN）[60]，自適應金字塔上下文網絡（APC- Net）[61]，多尺度上下文交織（MSCI）[62]和顯著對象分割[63]。

4.5 R-CNN Based Models (for Instance Segmentation)

區域卷積網絡（R-CNN）及其系列Fast R-CNN，Faster R-CNN，Mask-RCNN在目標檢測應用中被證明是成功的。 R-CNN的某些擴展已被廣泛用于解決實例分割問題。即同時執行對象檢測和語義分割的任務。 特別是，為目標檢測而提出的Faster R-CNN [64]結構（圖18）使用區域建議網絡（RPN）生成候選框。RPN提取感興趣區域（RoI），RoIPool層從這些建議框中計算特征，以推斷出邊界框坐標和對象的類別。

該模型的一個擴展中He等人[65]提出了一種用于對象實例分割的Mask R-CNN，它在許多COCO挑戰方面都超過了以前的所有基準。該模型有效地檢測圖像中的對象，同時為每個實例生成高質量的分割MASK。 MASK R-CNN本質上是具有3個輸出分支的Faster RCNN（圖19）-第一個計算邊界框坐標，第二個計算關聯的類，第三個計算binary mask以分割對象。 MASK R-CNN損失函數將邊界框坐標，預測類和 segmentation mask的損失合并在一起，并共同訓練它們。圖20顯示了一些樣本圖像上的Mask-RCNN結果。

Liu等人提出的路徑聚合網絡（PANet）[66]基于Mask R-CNN和FPN模型（圖21）。網絡的特征提取器使用FPN架構，具有新的增強的自下而上的路徑，從而改善了低層功能的傳播。第三條路徑的每個階段都將前一階段的特征圖作為輸入，并使用3x3卷積層對其進行處理。使用橫向連接將輸出添加到自頂向下路徑的同一階段特征圖，這些特征圖將饋入下一個階段。與Mask RCNN中一樣，自適應特征池化層的輸出將饋入三個分支。前兩個使用全連接層來生成邊界框坐標和關聯對象類別的預測。,第三部分使用FCN處理RoI以預測object mask。

Dai等[67]提出了一個多任務網絡，用于實例感知的語義分割，它由三個網絡組成，分別區分實例，估計掩碼estimating masks和對對象進行分類。這些網絡形成一個級聯結構，旨在共享它們的卷積特征。 Hu等[68]提出了一種新的部分監督的訓練范例，以及一個新穎的權重傳遞函數，該訓練范例使訓練實例分割模型可以基于大量類別，所有類別都具有框注，但是只有一小部分具有mask annotations。

Chen等通過基于Faster R-CNN的語義和方向特征完善對象檢測，提出了一個實例分割模 MaskLab（圖22）。該模型產生三個輸出，框檢測，語義分割和方向預測。在Faster-RCNN對象檢測器的基礎上，預測框提供了對象實例的精確定位。在每個感興趣的區域內，MaskLab通過組合語義和方向預測來執行前景/背景分割。

另一個有趣的模型是Chen等人提出的Tensormask [70]，這是基于密集的滑動窗口實例分割。他們將密集實例分割視為4D張量上的預測任務，并提出了一個通用框架，該框架使4D張量上的新型算子成為可能。他們證明張量視圖可以帶來比基線大的收益，并且產生的結果與Mask R-CNN相當。 TensorMask在密集對象分割上取得了可喜的結果（圖23）。

已經有許多基于R-CNN的實例分割模型被提出，例如那些mask proposal的模型，包括R-FCN [71]，DeepMask [72]，SharpMask [73]，PolarMask [74]和邊界感知實例分割[75]。 值得注意的是，還有另一個有希望的研究方向，它試圖通過學習用于自下而上的分割的分組線索來解決實例分割問題，例如深度分水嶺變換[76]和通過深度度量學習的語義實例分割[77]。

4.6 Dilated Convolutional Models and DeepLab Family

擴張卷積（空洞卷積）為卷積層引入了另一個參數，即擴張率。信號x(i)的擴張卷積（圖24）定義為 $y_i = \sum _{k}x [i + rk] w [k]$ ，其中r是定義內核權重w之間的間距的擴張率。例如，具有2的膨脹率的3x3核將具有與5 5核相同的大小感受野，而僅使用9個參數，因此在不增加計算成本的情況下擴大了感受野。空洞卷積在實時分割領域中很流行，并且許多最近的出版物報道了這種技術的使用。其中最重要的一些包括DeepLab系列[78]， multiscale context aggregation [79], dense upsampling convolution and hybrid dilatedconvolution (DUC-HDC) [80], densely79 connected Atrous Spatial Pyramid Pooling (DenseASPP) [81],and the efficient neural network (ENet) [82]。

DeepLabv1 [38]和DeepLabv2 [78]是Chen等人提出的一些最受歡迎的圖像分割方法。后者具有三個關鍵功能。首先是使用空洞卷積來解決網絡中分辨率下降的問題（這是由最大池化和步幅引起的）。其次是多孔空間金字塔池化（ASPP），它以多種采樣率使用過濾器探測傳入的卷積特征層，從而以多種比例捕獲對象以及圖像上下文，從而以多種比例可靠地分割對象。第三是通過結合深層CNN和概率圖形模型的方法來改進對象邊界的定位。最好的DeepLab（使用ResNet-101作為骨干）在2012年PASCAL VOC挑戰賽中達到79.7％的mIoU分數，在PASCAL-Context挑戰賽中達到45.7％的mIoU分數，在Cityscapes挑戰賽中達到70.4％的mIoU分數。圖25說明了Deeplab模型，該模型類似于[38]，主要區別在于使用了擴展卷積和ASPP??。

隨后陳等[12]提出了DeepLabv3，它結合了空洞卷積的級聯和并行模塊。并行卷積模塊在ASPP中分組。在ASPP中添加了1x1卷積和批處理歸一化(BN)。所有輸出通過另一個1x1卷積進行級聯和處理，以創建具有每個像素logit的最終輸出。

2018年Chen等[83]發布了Deeplabv3 +，該版本使用了編碼器-解碼器體系結構（圖26），包括無空間可分卷積，由深度卷積（輸入每個通道的空間卷積）和點向卷積（深度卷積為1x1卷積）作為輸入）。他們使用DeepLabv3框架作為編碼器。最相關的模型具有經過修改的Xception骨架，具有更多層，擴展的深度可分離卷積，而不是最大池化和批量歸一化。在COCO和JFT數據集上預訓練的最佳DeepLabv3 +在2012年PASCAL VOC挑戰中獲得了89.0％的mIoU分數。

4.7 Recurrent Neural Network Based Models

盡管CNN很自然地適合解決計算機視覺問題，但它們并不是唯一的可能性。 RNN在建模像素之間的短期/長期依存關系方面很有用，以改善分割圖的估計。使用RNN，可以將像素鏈接在一起并進行順序處理以建模全局上下文并改善語義分割。但是，挑戰之一是圖像的自然2D結構。

Visin等[84]提出了一種基于RNN的語義分割模型ReSeg。該模型主要基于另一項研究ReNet [85]，該研究是為圖像分類而開發的。每個ReNet層（圖27）由四個RNN組成，它們在兩個方向上水平和垂直掃描圖像，編碼補丁/激活并提供相關的全局信息。為了使用ReSeg模型進行圖像分割（圖28），ReNet層堆疊在提取通用局部特征的預訓練VGG-16卷積層之上。然后，在ReNet層之后是上采樣層，以在最終預測中恢復原始圖像分辨率。使用門控循環單元（GRU）是因為它們在內存使用和計算能力之間提供了良好的平衡。

在另一項工作中，Byeon等 [86]使用長短期記憶（LSTM）網絡開發了場景圖像的像素級分割和分類。他們研究了自然場景圖像的二維（2D）LSTM網絡，同時考慮了標簽的復雜空間依賴性。在這項工作中，分類，分割和上下文集成都由2D LSTM網絡執行，從而允許在單個模型中學習紋理和空間模型參數。 [29]中提出的用于圖像分割的2D LSTM網絡的框圖如圖29所示。

Hu等[89]開發了一種基于自然語言表達的語義分割算法，結合使用CNN編碼圖像和LSTM編碼其自然語言描述。這與圖30不同。圖LSTM模型與傳統的像素級RNN模型之間的比較。從傳統語義分割到一組預定義的語義類，例如短語“兩個人坐在正確的長凳上”只將正確的長凳上的兩個人分開，沒有人站立或坐在另一個長凳上。為了產生用于語言表達的逐像素細分，他們提出了一種端到端可訓練的遞歸和卷積模型，該模型共同學習處理視覺和語言信息（圖33）。在考慮的模型中，使用遞歸LSTM網絡將參考表達編碼為矢量表示，并使用FCN從圖像中提取空間特征圖并輸出目標對象的空間響應圖。該模型的示例分割結果（針對查詢“穿著藍色外套的人”）如圖34所示。

4.8 Attention-Based Models

多年來，人們一直在計算機視覺中探索注意力機制，因此，找到將此類機制應用于語義分割的文章也就不足為奇了。

Chen等 [90]提出了一種注意力機制，可以學習在每個像素位置輕柔地加權多尺度特征。他們采用了強大的語義分割模型，并結合多尺度圖像和注意力模型對其進行了訓練（圖35）。注意機制的性能優于平均池化和最大池化，它使模型能夠評估不同位置和比例下特征的重要性。

與其他訓練卷積分類器以學習標記對象的代表性語義特征的工作相反，Huang等人[91]提出了一種使用逆向注意機制的語義分割方法。其逆向注意網絡（RAN）架構（圖36）也訓練模型以捕獲相反的概念（即與目標類不相關的功能）。 RAN是一個三分支網絡，可同時執行直接注意和反向注意學習過程。

Li等[92]開發了一個用于語義分割的金字塔注意網絡。該模型利用了全局上下文信息在語義分割中的影響，將注意力機制和空間金字塔相結合，以提取精確的密集特征進行像素標記，而不是使用復雜的空洞卷積和人工設計的解碼器網絡。

最近傅等人 [93]提出了一種用于場景分割的雙重注意力網絡，它可以基于自關注機制捕獲豐富的上下文相關性。具體來說，它們在擴張的FCN頂部附加了兩種類型的注意模塊，分別針對空間和通道維度的語義相互依賴性進行建模。位置注意模塊通過所有位置的特征加權總和選擇性地聚合每個位置的特征。雙重注意力網絡的體系結構如圖37所示。

其他各種工作也探索了語義分割的注意力機制，例如OCNet [94]，該機制提出了受自我注意力機制啟發的目標內容上下文池化，期望最大化注意力（EMANet）[95]，跨交叉注意力網絡（CCNet）[96]。具有經常注意的端到端實例分割[97]，用于場景解析的逐點空間注意網絡[98]和區分性特征網絡（DFN）[99]，其中包括兩個子網絡：平滑網絡（包含一個通道注意塊和全局平均池化以選擇更具區別性的特征）和一個邊界網絡（以使邊界的雙邊特征可區分）。

4.9 Generative Models and Adversarial Training

Luc等提出了一種對抗訓練的語義分割方法。他們訓練了一個卷積語義分割網絡（圖38），以及一個對抗網絡，該網絡將真實分割圖與由分割網絡生成的圖區分開來。他們表明，對抗訓練方法可以提高Stanford Background和PASCAL VOC 2012數據集的準確性。

圖39顯示了對來自斯坦福背景數據集的一幅示例圖像進行對抗訓練所帶來的改進。

在另一項工作中，洪等人提出了一個使用對抗網絡的半監督語義分割框架。他們設計了FCN判別器，以考慮空間分辨率，將預測的概率圖與真實分割圖分布區分開。該模型考慮的損失函數包含三個術語：基于分割的真實交叉熵損失，判別器網絡的對抗損失和基于置信度圖的半監督損失；以及判別器的輸出。 Hung及其同事的模型架構如圖40所示。

薛等[103]提出了一種具有多尺度L1損失的對抗網絡，用于醫學圖像分割。他們使用FCN作為分割器來生成分割標簽圖，并提出了一種具有多尺度L1損失函數的新型對抗性評價（critic）網絡，以迫使critic and segmentor 學習捕獲了兩者之間長距離和短距離空間關系的全局和局部特征像素。分割器和注釋器網絡的框圖如圖41所示。

4.10 CNN Models With Active Contour Models

醫學相關不做介紹

4.11 Other Models

除上述模型外，還有幾種其他流行的用于分割的DL架構，例如：上下文編碼網絡（EncNet），它使用基本的特征提取器并將特征映射饋送到上下文編碼模塊[116]。 RefineNet [117]是一個多路徑優化網絡，它明確利用降采樣過程中的所有可用信息，以實現使用遠程殘差連接的高分辨率預測。 Seednet [118]引入了具有深度強化學習功能的自動種子生成技術，該技術學會了解決交互式分割問題的方法。Feedforward-Net [124]將圖像超像素映射到從一系列遞增的嵌套區域中提取的豐富特征表示中擴展并利用圖像和標簽空間中的統計結構，而無需建立明確的結構化預測機制。

全景分割[137]也是另一個有趣的（以及較新的）分割問題，而且普及程度不斷提高，并且在這個方向上已經有一些有趣的工作，包括全景特征金字塔網絡[138]，用于全景分割的注意力指導網絡[139]，和無縫場景分割[140]。

Figure 42 illustrates the timeline of popular DL-based works for semantic segmentation, as well as instance segmentation since 2014. Given the large number of works developed in the last few years, we only show some of the most representative ones.

該章總結：主要介紹了一些基于不同網絡架構的典型分割算法，粗略地了解他們的工作原理，可以看到有很多值得思考研究的地方，后面我們再繼續介紹圖像分割領域中的常用數據集。

未完待續…

總結

以上是生活随笔為你收集整理的论文阅读—图像分割方法综述(二)（arXiv:[cs:cv]20200410）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：据说是国内“最黑”的十大风景名胜区
下一篇：模具设计的四个步骤总结