日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

图像分割 2020 最新进展

發布時間:2024/4/11 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 图像分割 2020 最新进展 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


正文字數:3004 ?閱讀時長:4分鐘

該文章由Derrick Mwiti發表在Neptune blog,在這篇文章中,我們將會探討深度學習在圖像分割領域的應用。


Posted by?Jakub Czakon?

url :?https://towardsdatascience.com/image-segmentation-in-2020-756b77fa88fc

source來源:neptune.ai

在這篇文章中我們將討論的話題有:

  • 什么是圖像分割

  • 圖像分割的架構

  • 圖像分割中使用的損失函數

  • 在你的圖像分割項目中可用的框架

就讓我們一探究竟吧。

什么是圖像分割

顧名思義,圖像分割是將一幅圖像轉化成多個部分的過程。在這個過程中,圖像中的每個像素都與一個具體的物體相關聯在一起。圖像分割主要有兩種類型:語義分割和實例分割。

在語義分割中,所有物體都是同一類型的,所有相同類型的物體都使用一個類標簽進行標記,而在實例分割中,相似的物體可以有自己獨立的標簽。

參考Anurag Arnab, Shuai Zheng 等作者的2018年的Paper:“Conditional Random Fields Meet Deep Neural Networks for Semantic Segmentation” http://www.robots.ox.ac.uk/~tvg/publications/2017/CRFMeetCNN4SemanticSegmentation.pdf

圖像分割的架構

圖像分割的基本結構由編碼器和解碼器組成。

來自Vijay Badrinarayanan等作者2017的Paper:“SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation” https://arxiv.org/abs/1511.00561

編碼器通過過濾器從圖像中提取特征。解碼器負責生成最終輸出,通常是包含對象輪廓的分割掩碼(segmantation mask)。大多數架構都有這種體系結構或其變體。

讓我們看一看一些例子。

U-Net

U-Net是一個最初用于開發生物影響分割的卷積神經網絡。從視覺上看,它的架構看起來像字母U,因此而得名U-Net。它的架構由兩部分組成,左邊是收縮路徑,右邊是擴展路徑。收縮路徑的目的是捕獲內容,而擴展路徑的角色是幫助精確定位。

來自Olaf Ronneberger等作者2015年的Paper “U-net architecture image segmentation” https://arxiv.org/abs/1505.04597

U-Net由右側的擴展路徑和左側的收縮路徑組成。收縮路徑由兩個3×3的卷積層組成。卷積之后是一個校正的線性單元和和一個2×2的max-pooling池化層的計算來做下采樣。

U-Net的完整實現可以在這里找到:https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

FastFCN —?快速全連接網絡

在這種結構中,一個使用聯合金字塔上采樣(JPU)模塊來代替了擴展卷積網絡,因為卷積網絡消耗大量的內存和計算時間。它使用一個完全連接的網絡作為核心,同時應用JPU進行上采樣。JJPU將低分辨率的feature map上采樣為高分辨率的feature map。

來自Huikai Wu等作者2019的Paper “FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation” https://arxiv.org/abs/1903.11816

如果你想把通過代碼實現,查看這里:https://github.com/wuhuikai/FastFCN


Gated-SCNN

這個架構由一個雙流CNN架構組成。在該模型中,使用一個單獨的分支來處理圖像的形狀信息。形狀流用于處理邊界信息。

Towaki Takikawa等 al 2019年“Gated-SCNN:Gated Shape CNNs用于語義分割”? https://arxiv.org/abs/1907.05740

代碼實現:https://github.com/nv-tlabs/gscnn

DeepLab(深度實驗室)

在這種體系結構中,帶有上采樣濾波器的卷積用于涉及密集預測的任務。多個對象的分割是通過無空間金字塔空間池完成的。最后,利用DCNNs改進了目標邊界的定位。通過插入零或輸入特征圖進行稀疏采樣來對濾波器進行上采樣,從而實現無用卷積。

陳良杰等人,2016年“ DeepLab:利用深度卷積網絡,Atrous卷積和全連接的CRF進行語義圖像分割” https://arxiv.org/abs/1606.00915

您可以在PyTorch(https://github.com/fregu856/deeplabv3)或TensorFlow(https://github.com/sthalles/deeplab_v3)上嘗試它的實現。

Mask R-CNN

在這個體系結構中,使用一個邊界框/包圍盒和語義分割對對象進行分類和定位,該語義分割將每個像素分類為一組類別。每個感興趣的區域都有一個分割蒙版。并且將產生一個類標簽和一個邊界框作為最終輸出。實際上該體系結構是Faster R-CNN的擴展。Faster R-CNN由提出區域的深度卷積網絡和利用區域的檢測器組成。

Kaiming He et. al 2017 “Mask R-CNN”?https://arxiv.org/abs/1703.06870

這是在COCO測試集上獲得的結果的圖像。

Kaiming He et. al 2017 “Mask R-CNN”?https://arxiv.org/abs/1703.06870


圖像分割損失函數

語義分割模型在訓練過程中通常使用一個簡單的跨類別熵損失函數。但是,如果您對獲取圖像的詳細信息感興趣的話,那么您必須恢復到稍微高級的損失函數。

我們來看看其中的幾個。

焦點損失

這個損失是對標準互熵標準的改進。這是通過改變其形狀來完成和實現的,以使分配給分類充分的示例的損失降低權重。最終,這確保了沒有階級不平衡的存在。在這個損失函數中,隨著對正確類別的置信度增加,交叉熵損失會隨著縮放因子以零衰減而縮放。比例因子在訓練時自動降低權衡簡單示例的貢獻,并將重點放在難的示例上。

來源source:neptune.ai

骰子損失

這種損失是通過計算平滑骰子系數函數得到的。這種損失是最常用的損失,屬于是分割問題。

來源source:neptune.ai

IoU 平衡損失交集

IoU平衡的分類損失的目的是提高IoU高的樣本的梯度,降低低IoU樣本的梯度。這樣,通過這種方式,可以提高機器學習模型的定位精度。

來源source:neptune.ai

邊界損失

邊界損失的一種變體適用于分段高度不平衡的任務。這種損失的形式是空間輪廓\等高線而不是區域的距離度量。以這種方法,可以解決了由高度不平衡的分割任務中區域損失所帶來的問題。

來源source:neptune.al

加權交叉熵

在交叉熵的一個變量中,所有的正例子都被某個一定系數加權。它用于涉及類不平衡的場景或方案。

來源source:neptune.ai

Lovász-Softmax損失

該損失基于子模損失的凸Lovasz擴展,對神經網絡中的平均相交-大于聯合損失進行直接優化。

來源source:neptune.ai

其他值得一提的損失是:

  • TopK損失,其目的是確保網絡在訓練過程中集中在硬樣本上。

  • 距離損失的CE損耗將網絡引導到難以分割的邊界區域。

  • 敏感性\靈敏性-特異性(SS)損失,用于計算特異性和敏感性的均方差的加權和。

  • Hausdorff 距離(HD)損失,可從卷積神經網絡估計Hausdorff距離。

這些只是圖像分割中使用的幾個損失函數。要了解更多,請點此鏈接查看:https://github.com/JunMa11/SegLoss


圖像分割的數據集

如果你看到了這里的話,你會思考說從哪里可以獲得相應的數據集來進行圖像分割的學習呢。

現在我們來看下有哪些數據集我們拿來用。

Common Objects in COntext — Coco數據集

COCO是一個大規模的物體檢測、圖像分割和五項描述生成的大規模數據集。這個數據集中一共包含91個物品類別。包含著250000帶有關鍵點標注的人。它的下載大小是37.57GIB。它包含80個對象類別。它在Apache2.0許可下可用,可以從這里下載(https://cocodataset.org/#download)。

PASCAL可視化對象類(PASCAL VOC)

PASCAL有9963張圖片,有20個不同的類別。訓練/驗證集是一個2GB的tar文件。數據集可以從官方網站下載:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/

Cityscapes 數據集

此數據集包含城市場景的圖像。它可以用來評價視覺算法在城市場景中的性能。數據集可以從這里下載:https://www.cityscapes-dataset.com/。

Cambridge駕駛標注視頻數據庫 — CamVid

這是一個基于運動的分割和識別數據集。它包含32個語義類別。此鏈接包含進一步的解釋和指向數據集的下載鏈接:http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/。

圖像分割框架

現在您已經準備好了可使用的數據集,下面讓我來介紹一些可以用來入門的工具/框架。

  • FastAI庫——給定一個圖像,這個庫可以創建圖像中對象的掩碼/遮罩。

  • Sefexa圖像分割工具-——Sefexa是一個免費的工具,可用于半自動圖像分割、圖像分析和地面真實性的創建。

  • Deepmask——Facebook Research的Deepmask是Deepmask和SharpMask的Torch實現。

  • MultiPath——這是“用于對象檢測的MultiPath網絡 ”中對象檢測網絡的Torch實現。

  • OpenCV——這是一個開源的計算機視覺庫,有超過2500個優化算法。

  • MIScnn——是一個醫學圖像分割開源庫。它允許在幾行代碼中使用最先進的卷積神經網絡和深度學習模型來建立管道。

  • Fritz——Fritz提供了幾種計算機視覺工具,包括用于移動設備的圖像分割工具。

總結

希望本文能為您提供一些圖像分割的背景知識,并為您提供一些工具和框架,以便您在工作中使用。

有關更多信息,請查看附加到每個架構和框架的鏈接。

LiveVideoStackCon 2020?北京

2020年10月31日-11月1日

點擊【閱讀原文】了解更多詳細信息

總結

以上是生活随笔為你收集整理的图像分割 2020 最新进展的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。