當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Mask R-CNN全文翻译

發布時間：2023/12/15 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 Mask R-CNN全文翻译小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- 標題：Mask R-CNN
- 資源下載（PDF、學習筆記及資料）
- Abstract
- 1.Introduction：（機翻）
- 2.Related Work：（機翻）
- 3.Mask R-CNN
- - 3.1.Implementation Details
- 4.Experiments: Instance Segmentation
- - 4.1 Main Results
  - 4.2Ablation Experiments
  - 4.3.Bounding Box Detection Results
  - 4.4.Timing
- 5.Mask R-CNN for Human Pose Estimation（第5章及后內容為機翻）
- A.Experiments on Cityscapes
- 插圖
- 表
- Mask R-CNN數據標注和模型訓練
- 學習PySide2基于Python開發人工智能系統應用
- 修改記錄

標題：Mask R-CNN

資源下載（PDF、學習筆記及資料）

百度云

鏈接: https://pan.baidu.com/s/16O_GHRtLMnWYheuY7XZ0ow?pwd=bijo 提取碼: bijo --來自百度網盤超級會員v6的分享

CSDN

https://download.csdn.net/download/weixin_43312117/86723246

Abstract

我們提出了一個簡單的、靈活的、通用的實例分割網絡。我們的方法能夠有效檢測圖像中的每一個對象，同時對每個實例生成一個高質量的分割掩膜。這個方法稱作是，Mask R-CNN，它通過一個并行預測對象的分支掩膜與識別分支并行的方式擴展Faster R-CNN。Mask R-CNN的訓練很簡單，僅在Faster R-CNN上增加小部分開銷，達到每秒5幀。此外，Mask R-CNN很容易推廣到其它任務，如，姿態估計。我們在COCO數據集的三個任務上都表現出了最好的結果，包括實例分割、邊界框目標檢測、人員關鍵點檢測。不調參，Mask R-CNN能夠在所有任務上優于所有現有單一的模型，包括2016COCO數據挑戰賽的冠軍。希望我們簡單高效的方法能夠成為一個堅實的基準模型，助力未來實例分割的研究更進一步。代碼即將可用。

1.Introduction：（機翻）

視覺社區在短時間內迅速改善了目標檢測和語義分割結果。在很大程度上，這些進步是由強大的基線系統推動的，例如分別用于對象檢測和語義分割的Fast/Faster RCNN[12，34]和Fully Convolutional Network（FCN）[29]框架。這些方法在概念上是直觀的，并且具有靈活性和魯棒性，同時具有快速的訓練和推理時間。我們在這項工作中的目標是為實例細分開發一個相對可行的框架。

實例分割具有挑戰性，因為它需要正確檢測圖像中的所有對象，同時精確分割每個實例。因此，它結合了經典計算機視覺目標檢測任務中的元素，目標是對單個對象進行分類并使用邊界框對每個對象進行定位，以及語義分割，目標是將每個像素分類為不區分對象實例的固定類別集。鑒于此，可能需要一種復雜的方法來獲得良好的結果。然而，我們表明，一個令人驚訝的簡單、靈活和快速的系統可以超過先前最先進的實例分割結果。

我們的方法稱為Mask R-CNN，它擴展了Faster R-CNN[34]，通過添加一個分支來預測每個感興趣區域（RoI）上的分割掩碼，并與現有的分類和邊界框回歸分支并行（圖1）。掩碼分支是應用于每個RoI的一個小FCN，以像素topixel方式預測分割掩碼。鑒于更快的R-CNN框架，Mask R-CNN易于實施和訓練，有助于廣泛靈活的架構設計。此外，掩碼分支只增加了較小的計算開銷，從而實現了快速系統和快速實驗。

原則上，Mask R-CNN是Faster R-CNN的直觀擴展，但正確構建掩碼分支對于取得良好結果至關重要。最重要的是，Faster RCNN不是為網絡輸入和輸出之間的像素對像素對齊而設計的。RoIPool[18，12]是處理實例的實際核心操作，它是如何對特征提取進行粗略空間量化的，這一點最為明顯。為了修復失調，我們提出了一個簡單的、無量化的層，稱為RoIAlign，它忠實地保留了精確的空間位置。盡管RoIAlign似乎是一個很小的變化，但它有很大的影響：它將掩模精度提高了10%到50%，在更嚴格的本地化指標下表現出更大的提高。其次，我們發現將掩碼和類預測解耦是至關重要的：我們獨立地為每個類預測一個二進制掩碼，類之間沒有競爭，并且依賴網絡的RoI分類分支來預測類別。相比之下，FCN通常執行每像素的多類分類，這將分割和分類結合起來，并且基于我們的實驗，對于分割來說效果很差。

Mask R-CNN在COCO實例分割任務[28]上超越了以往所有最先進的單一模型結果，包括2016年比賽獲勝者的精心設計作品。作為副產品，我們的方法在COCO對象檢測任務上也表現出色。在消融實驗中，我們評估了多個基本實例化，這使我們能夠證明其魯棒性并分析核心因素的影響。

我們的模型在GPU上每幀可以運行大約200ms，在一臺8-GPU機器上進行COCO訓練需要一到兩天的時間。我們相信，快速的訓練和測試速度，以及框架的靈活性和準確性，將有助于并簡化實例分割的未來研究。

最后，我們通過COCO關鍵點數據集上的人體姿勢估計任務展示了我們框架的通用性[28]。通過將每個關鍵點視為一個熱的二進制掩碼，只需稍加修改，即可應用掩碼R-CNN檢測特定于實例的姿勢。沒有技巧，Mask R-CNN超越了2016年COCO關鍵點比賽的冠軍，同時以每秒5幀的速度運行。因此，掩碼R-CNN可以被更廣泛地視為實例級識別的靈活框架，并且可以很容易地擴展到更復雜的任務。

我們將發布代碼以促進未來的研究。

2.Related Work：（機翻）

R-CNN：基于區域的CNN（R-CNN）邊界框對象檢測方法[13]是關注可管理數量的候選對象區域[38，20]，并獨立于每個RoI評估卷積網絡[25，24]。R-CNN得到了擴展[18，12]，允許使用RoIPool在特征圖上查看RoIs，從而實現了更快的速度和更好的準確性。更快的R-CNN[34]通過學習區域提案網絡（RPN）的注意機制，推動了這一流。更快的R-CNN對許多后續改進（如[35、27、21]）具有靈活性和魯棒性，是目前幾個基準中的領先框架。

Instance Segmentation：受RCNN有效性的驅動，許多實例分段方法都基于分段建議。早期的方法[13，15，16，9]采用自下而上的分段[38，2]。DeepMask[32]和以下作品[33，8]學習提出細分候選框，然后由Fast R-CNN分類。在這些方法中，分割先于識別，識別速度慢且精度低。同樣，Dai等人[10]提出了一個復雜的多階段、從邊界框方案預測分段方案，然后進行分類。相反，我們的方法是基于掩碼和類標簽的并行預測，這更簡單、更靈活

最近，Li等人[26]將[8]中的分段建議系統和[11]中的對象檢測系統結合起來，用于“完全卷積實例分段”（FCIS）。[8,11,26]中的常見思想是完全卷積預測一組位置敏感輸出通道。這些通道同時處理對象類、框和遮罩，使系統速度更快。但是，FCIS在重疊實例上顯示出系統性錯誤，并產生假邊（圖5），這表明它受到了實例分割的基本困難的挑戰

3.Mask R-CNN

Mask R-CNN的概念很簡單：Faster R-CNN的每個候選目標有2個輸出，類標簽和邊界框偏移；我們增加了一個分支用于輸出目標掩膜。這是一個自然又直觀的想法。但是額外的掩膜輸出不同于輸出的類標簽和目標庫，需要對目標更加精細的空間布局。接下來，我們要介紹Mask R-CNN關鍵的地方，包括像素級的 Alignment，這是Fast/Faster R-CNN主要缺失的部分。

Faster R-CNN：我們簡短的回顧一下Faster R-CNN。Faster R-CNN由兩階段構成的。第一個階段，叫做RPN，提取目標候選框；第二個階段的本質就是Fast R-CNN，用ROI從每個候選框中提取特征，并執行分類和邊界框回歸。共享特征能夠得到更快的推理速度。我們推薦讀者閱讀文獻21去了解Faster R-CNN和其它框架的最新綜合比較。

Mask R-CNN：Mask R-CNN也是二階段的，第一個階段與RPN完全相同。第二個階段，與分類與邊界框回歸平行的，Mask R-CNN對每個ROI輸出一個二值掩膜。它與最近的系統對比，分類依靠掩膜預測。我們的方法與Fast R-CNN的內核相同，并行應用邊界框回歸和分類（這比原始R-CNN減少了大幅的流程）。

正式訓練時，我們在每個ROI定義了一個多分支損失：
$L=L_{cls} + L_{box}+L_{mask}$
分類損失和邊界框損失和Faster R-CNN原文是相同的。對于每個ROI，掩膜分支有K×m×m維，K是K個類別，m為分辨率的大小，每個掩膜均為二值圖。對每個像素用一個Sigmoid激活函數， $L_{mask}$ 被定義為平均的二值交叉熵損失。每個ROI與K個GT相關， $L_{mask}$ 被定義為第K個掩膜，其它輸出對這個loss沒有貢獻。

我們定義 $L_{mask}$ 運行網絡為每個類生成一個掩膜，掩膜間毫無競爭關系；我們用分類分支預測的類標簽來選擇輸出掩膜的類標簽。掩碼與分類預測低耦合，這與FCN用于語義分割的常見做法不同，常用的是像素的softmax和交叉熵損失。那樣的話，掩膜有類別間的競爭，我們的方法，每個像素點的Sigmoid和二值損失并不這樣。我們的實驗證明，這樣的損失公式是能獲得很好結果的關鍵。

Mask Representation：掩膜對輸入對象的空間分布進行編碼。因此，不像類標簽或者位置偏移，全連接層較短的輸出向量會不可避免的坍塌，提取掩膜的空間結構可以通過卷積自然的解決像素間的對應關系。

具體來講，我們對每一個ROI使用FCN來預測一個m×m的掩膜。允許掩膜分支去保持m×m的目標空間結構，而不是用會缺乏空間維度的向量表示。不像是原來的方法那樣用全連接層去預測掩膜，我們的全卷積參數量更少而且實驗表明擁有更高的精度。

像素級的行為需要我們的ROI特征，他們是更小的特征圖，能夠很好的對齊以確保每個像素明確的空間位置。這樣是因為ROIALign層在掩膜預測中發揮著重要的角色。

RoIAlign：RoIPool從每一個RoI小特征圖（如7×7）中提取，這是一個標準的操作。ROIPool首先將浮點數ROI量化成像素圖的離散度，然后將量化后的ROI分為空間單元，最后將每個單元的特征值進行聚合（使用最大池化max pooling）。量化是通過計算連續的x -> [x/16]（取整），16是特征圖的步距；同樣在劃分時執行7×7的網格。這些量化會引起在ROI及特征提取間的偏差。這樣的量化在對分類時可能沒什么影響，很魯棒，但對像素級的掩膜影響很大。

為了解決這個問題我們提出了一個RoIAlign層消除了RoIPool的嚴格量化，將提取的特征與輸入對齊。我們提出的想法很簡單：我們避免了RoI邊界的任何量化使用x/16替代[x/16]，我們使用雙線性插值來計算4個采樣點的精確值，然后匯總結果（用最大/平均池化）。

RoIAlign有很大的提升，如4.2節所示。我們還比較了提出的RoIWarp操作如文獻10。不像是RoIAlign，RoIWarp會出現和RoIPool一樣的量化問題。即使RoIWarp也用了22的雙線性插值，它的性能與RoIPool相當，如實驗所示（更多細節如表2c），展示了對齊的關鍵作用。

Network Architecture：展示我們方法的通用性，我們用多個通用的框架來實現Mask R-CNN結構。為了更清晰，我們進行一下區分：

用于整個圖像特征提取的卷積骨干結構；

網絡分類頭用于邊界框分類和回歸、掩膜預測，分別應用于每個RoI。

我們用網絡深度特征來表示主干架構。我們評估了ResNet和ResNeXt網絡深度50或101層。最初從Faster R-CNN中用ResNets進行特征提取的第四個階段，我們稱作c4，使用ResNet50骨干網絡，我們稱它為ResNet50-C4。在文獻【19，10，21，36】中是很常見的。

我們也探索了更多高效的骨干網絡【27】，被叫做FPN。FPN使用一個自上向下的橫向金字塔結構，用于單一尺度的輸入。Faster R-CNN使用FPN骨干網絡提取RoI特征，從特征金字塔的不同尺度，其它方法類似于普通的ResNet。使用ResNets-FPN作為Mask R-CNN的特征提取骨干網絡，能夠獲得更好的準確率和速度。更多關于FPN的細節，請閱讀文獻【27】。

對于網絡頭，我們嚴格的遵守原先的工作，僅僅額外增加了一個掩膜預測分支。具體來講我們擴展了Faster R-CNN的box頭從ResNet。細節如圖3所示。ResNet-C4骨干的頭，包括第五階段的ResNet，叫做’res5‘，它的計算是密集的。對于FPN，骨干已經包含res5，因此允許使用更少過濾器的更高效頭部。

我們注意到我們的掩膜分支有一個簡單的結構。雖然更復雜的設計能夠提升潛在的性能，但沒有關注到工作本身。

3.1.Implementation Details

我們的超參數設計與Fast/Faster RCNN相同，盡管這些決定是原始論文做出的，我們發現我們的實例分割模型更具魯棒性。

Training：在Fast R-CNN中，RoI的positive是與GT的IoU大于0.5部分，negative相反。掩膜分支的損失僅計算正例的RoIs。掩膜的目標是RoI與GT關聯的實例。

我們采用以圖像為中心的訓練方式。調整圖像的大小，讓它的短邊為800像素。每個GPU的每個mini-batch傳入2張圖像，每個圖像有N個Roi，正負樣本比例為1：3。C4時N是64，FPN是512。我們在8塊GPU上訓練（有效的mini-batch是16），迭代160k次，學習率設為0.02，在到120k是衰減10倍，weight_decay為0.0001以及動量為0.9。

這個FPN的anchor寬度為5個尺度3個橫軸比，于文獻【27】相同。便于消融，RPN單獨被訓練，特征不被Mask R-CNN共享，除非另有規定。對于本文的每個條目，RPN和Mask R-CNN有相同的骨干，所以可以共享。

Inference：測試時，C4骨干網絡目標框數量是300，FPN是1000。我們對這些預測分支的目標框，進行非極大值抑制。掩膜分支用于最高的100個檢測框。盡管這和訓練時的并行分支不同，它能夠加速推理速度提升準確率（因為使用更少，更精準的RoI）。對于每個RoI掩膜分支能夠預測K個掩膜，但我們僅使用第k個掩膜，k是分類分支預測的的類別。將m×m的浮點數掩膜輸出resize到RoI的大小，并以閾值為0.5二值化。

注意到，我們僅計算最高的100個檢測框，Mask R-CNN添加到運行更快的Faster R-CNN中去。(e.g., ～20% on typical models)

4.Experiments: Instance Segmentation

我們將Mask R-CNN與最新的模型進行比較，并且進行了詳細的消融實驗。使用COCO數據集進行所有的實驗。我們報告標準的COCO指標AP（IoU閾值的平均值），AP50，AP75，APS，APM，APL（不同規模的AP）。除非其它的說明，AP被用于評估掩膜的IoU值。以前的工作，80k訓練圖像和35k驗證子集，并報告余下5k驗證自己的消融情況。我們也報告結果在test-dev，沒有公開的標簽。發布后，我們將安裝測試標準的完整結果上傳的公共排行榜。

4.1 Main Results

我們比較了Mask R-CNN與最好的實例分割方法如表1所示。我們模型所有的實例化都優于先前的各種變體的sota模型。包括MNC、FCIS以及COCO2016、2016實例分割調整的冠軍。Mask R-CNN以ResNet-101-FPN作為骨干優于FCIS+++，包括多尺度train/test，水平翻轉測試以及OHEM。雖然不在本工作的范圍之中，但我們希望許多改進都是適合您的。

Mask R-CNN輸出的可視化結果如圖2和4。Mask R-CNN在具有挑戰的情況下也能獲得較好的結果。如圖5，我們比較Mask R-CNN基準及FCIS+++。FCIS+++在重疊實例上顯示系統工件，它是實例分割困難的挑戰，但是Mask R-CNN并沒有受到這樣的影響。

4.2Ablation Experiments

我們進行了多次消融實驗去分析Mask R-CNN。結果如表2所示，接下來進行詳細討論。

Architecture：表2a表明Mask R-CNN不同的骨干網絡。更深的網絡收益更多（50vs101），先進的設計包括FPN及ResNeXt。我們注意到，不是所有的框架都能受益于更深或者更前言的網絡。

Multinomial vs. Independent Masks：Mask R-CNN掩膜和分類預測是低耦合的，現有的box分支預測類標簽，我們為每個類生成一個掩碼，他們之間毫無競爭（每個像素的Sigmoid和二值損失）。表2，我們比較了使用每個像素的sofmax和多項式損失（和FPN中使用的一樣）。這個替代方案將掩膜和分類預測結合起來，結果導致掩膜ap值嚴重受損（5.5個點）。這表明一旦實例和分類作為一個整體（通過box分支），在不考慮類別的情況下它足夠去預測一個二值掩膜，讓模型更容易訓練。

Class-Specific vs. Class-Agnostic Masks：我們默認實例化預測為特殊類的掩膜，每個類都有一個m×m的掩膜。有趣的是，Mask R-CNN用類別無關的掩膜（預測單個m×m的掩膜輸出，無關類別）是很高效的，29.7 mask AP和30,3在特定類別的ResNet-50-C4。進一步突出了我們工作在我們研究的重要性，將分類與分割進行的大幅度的解耦。

RoIAlign：評估我們提出RoIAlign層如表2c。這個實驗我們使用的是ResNet-40-C4骨干網絡，stride16。RoIAlign提升了3個點的AP對于RoIPool，大部分收益都來自高的IoU（AP75）。RoiAlign對于max/average池化不敏感；后面都使用均值池化。

額外的，我們使用MNC提出的RoIWarp也使用簡單的線性插值，在3章討論，RoI任然量化了RoI，失去了與輸入的對齊。如表2c，RoIWarp比RoIpool好一點，但是比RoIAlign更差。我們和強調了對齊才是關鍵點。

我們也在ResNet-50-C5骨干網絡中驗證了RoIAlign，有更大的步距為32。我們使用了相同的頭如表3的左邊，這個res5頭不適用。表2d表明RoIAlig能夠提升maskAP7.3個點，AP75提升10.5個點。進一步，我們注意到RoIAlign，使用步距32的C5特征30.9的AP比步距16的C4特征30.3AP更好，如表2c。RoIAlign解決了檢測與分割使用大步距特征的挑戰。

最終RoIAlign表明，增加了1.5 掩膜AP和0.5box AP，當使用FPN獲得更加精細的多級尺度時。檢測的關鍵點就是獲得更加精細的對齊。使用RoIAlign即使使用FPN也能夠得到很好的提升，如表6。

Mask Branch：分割是一個像素級的任務，我們通過使用FCN利用掩膜的空間布局。如表2e，我們比較MLP和FCN，均使用ResNet-50-FPN骨干網絡。使用FCN能夠比MLP獲得2.1的mask 提升。為了公平的和MLP比較，我們選擇了一個沒有預訓練過的FCN卷積層。

4.3.Bounding Box Detection Results

我們比較了Mask R-CNN與COCO邊界框目標檢測最好模型，如表3。結果表明，即使訓練了整個Mask R-CNN模型，在推理時僅使用分類和邊界框的輸出（忽略掩膜）。Mask R-CNN使用ResNet-101-FPN優于其它各種變體模型，包括2016COCO調整賽的冠軍模型GRMI。使用ResNext-101-FPN能有更進一步的提升，比最好單一模型（Inception-ResNet-v2-TDM）的邊界框能夠提升3.0AP。

進一步比較，我們訓練了一個沒有掩膜分支的Mask R-CNN，表示為Faster R-CNN，RoIAlign如表3。該模型比不使用RoIAlign更好，Mask R-CNN比它高0.9的box AP。Mask R-CNN的邊界框檢測之間的差距完全得益于多分支訓練任務。

我們主要的Mask R-CNN獲得了一個小幅度的提升，在掩膜和邊界框AP，如表1和表3。這表明，我們的方法很大程度上縮小了目標檢測和更具調整的實例分割任務間的差距。

4.4.Timing

Inference：我們訓練一個ResNet-101-FPN模型，共享特征在RPN和Mask R-CNN階段，遵循Faster R-CNN第四階段的第四步訓練。該模型在Nvidia Tesla M40 GPU上以每幅圖像195ms的速度運行（再加上15ms的CPU時間，將輸出調整為原始分辨率），并在統計上實現了與非共享的相同掩碼AP。我們還報告說，ResNet-101-C4變體～400ms，因為它有一個較重的box head（圖3），所以我們不建議在實踐中使用C4變體。

盡管Mask R-CNN很快，但是我們的設計并沒有針對運行速度去優化，還可以達到更好的速度及準確率。通過調整圖像的大小和平衡目標框數量，但這不在本文的范圍中。

Training：Mask R-CNN訓練更快。在我們的同步8-GPU實現中，使用ResNet-50-FPN進行COCO trainval35k培訓需要32小時（每16個圖像小批量0.72秒），而使用ResNet-101-FPN則需要44小時。訓練時，快速原型制作可以在不到一天的時間內完成。我們希望這種快速訓練將消除這一領域的主要障礙，并鼓勵更多的人對這一具有挑戰性的課題進行研究。

5.Mask R-CNN for Human Pose Estimation（第5章及后內容為機翻）

我們的框架能很輕松的擴展到人體姿態估計，我們模型將關鍵點作為One-hot mask，采用Mask R-CNN去預測K個mask，k個關鍵點類型各一種。這個任務幫助證明了Mask R-CNN的靈活性。

我們注意到，我們系統利用了人體姿態最小領域知識，因為實驗主要是為了演示Mask R-CNN的框架的通用性。我們期望相關領域可以補充我們簡單的方法，但這不在本文的范圍中。

Implementation Details：我們對模型進行細微的修改已適應關鍵點檢測。對于實例的K個關鍵點，訓練目標為m×m的二進制掩膜，其中只有一個像素點標記為前進。在訓練期間，對于每個可見的GT關鍵點，我們將m×m進行softmax輸出的交叉熵損失降到最低（鼓勵單個檢測點）。我們注意到在實例分割中，k個關鍵點然然是獨立處理的。

我們采用ResNet-FPN的變體，關鍵點頭結果與圖3左邊相似。關鍵點頭部由8個3×3 512-d為卷積層構成，然后是反卷積核2個線性層的上采樣，產生一個輸出分辨率大小為56×56。與掩膜相比關鍵點級定位精度需要相對較高的分辨率輸出。

模型在包含注釋關鍵點的所有COCO trainval35k圖像上進行訓練。為了減少過擬合，由于該訓練集較小，我們使用從[640，800]像素隨機采樣的圖像比例對模型進行訓練；推斷是在800像素的單一尺度上進行的。我們針對90k次迭代進行訓練，學習率從0.02開始，在60k和80k次迭代中減少10次。我們使用閾值為0.5的邊界框非最大值抑制。其他實現與3.1中相同。

Experiments on Human Pose Estimation：我們使用ResNet-50-FPN評估人員關鍵點AP（APkp）。我們對ResNet-101進行了實驗，發現它獲得了類似的結果，可能是因為更深入的模型受益于更多的訓練數據，但這個數據集相對較小。

表4顯示，我們的結果（62.7 APkp）比使用多階段的COCO，2016關鍵點檢測優勝者[6]高0.9點（見表4標題）。我們的方法即簡單又快捷。

更重要的是，我們有一個統一的模型，可以在每秒5幀的速度下同時預測框、段和關鍵點。增加一個分割分支（對每個人）提高APkp到63.1如Table4在test-dev。表5顯示了minival上多任務學習的更多消融實驗。僅在box中添加掩碼分支（即Faster R-CNN）或僅使用keypoint的版本可以持續改善這些任務。然而，添加keypoint分支會略微減少框/掩碼AP，這表明雖然keypoint檢測可以從多任務訓練中受益，但它不會反過來幫助其他任務。然而，聯合學習所有三個任務可以使一個統一的系統同時有效地預測所有輸出（圖6）。

我們還研究了RoIAlign對關鍵點檢測的影響（表6）。盡管此ResNet-50-FPN主干具有更精細的步幅（例如，在最精細的級別上有4個像素），但RoIAlign仍比RoIPool有顯著改進，并將APkp提高了4.4點。這是因為關鍵點檢測對定位精度更敏感。這再次表明，對齊對于像素級定位至關重要，包括掩膜和關鍵點。

鑒于Mask R-CNN在提取對象邊界框、遮罩和關鍵點方面的有效性，我們希望它是其他實例級任務的有效框架

A.Experiments on Cityscapes

我們進一步報告了Cityscapes[7]數據集上的實例分割結果。該數據集有2975個訓練圖像、500個驗證圖像和1525個測試圖像的精細注釋。它有20k個沒有實例注釋的粗糙訓練圖像，我們不使用這些圖像。所有圖像的固定分辨率為2048×1024像素。實例分割任務涉及8個對象類別，精細訓練集中的實例數為如下所示：
此任務的實例分段性能由COCO風格的掩碼AP衡量（IoU閾值的平均值）；還報告了AP50（即IoU為0.5時的掩碼AP）。

Implementation：我們使用我們的Mask R-CNN模型和ResNet-FPN-50主干；我們已經測試了101層副本，發現由于數據集較小，它的性能類似。我們使用從[800，1024]隨機采樣的圖像比例（較短的一側）進行訓練，這減少了過擬合；推斷是在1024像素的單一尺度上進行的。我們使用每個GPU 1個圖像的小批量大小（因此在8個GPU上有效地為8個），并對模型進行24k迭代的訓練，從0.01的學習率開始，在18k迭代時將其降低到0.001。其他實施細節與§3.1相同。

Results：表7將我們的結果與val和測試集的最新技術進行了比較。在不使用粗訓練集的情況下，我們的方法在測試中達到26.2 AP，比使用精細+粗標記的最佳條目提高了30%以上。與僅使用精細標簽的最佳條目（17.4 AP）相比，我們實現了～提高50%。這需要～在單個8GPU機器上進行4小時的培訓，以獲得此結果。

對于人員和汽車類別，Cityscapes數據集顯示了大量類別內重疊的實例（平均每張圖像6人9輛汽車）。我們認為，類別內重疊是實例分割的核心困難。我們的方法顯示，相對于現有的最佳條目（相對～人員從16.5提高到30.5，提高了85%～汽車性能從35.7提高到46.9，提高了30%。

Cityscapes數據集的一個主要挑戰是低數據狀態下的訓練模型，尤其是卡車、公共汽車和火車類別的訓練模型。要部分解決此問題，我們進一步使用COCO進行預訓練。為此，我們從預先訓練好的COCO Mask R-CNN模型（騎手被隨機初始化）初始化城市景觀中相應的7個類別。我們針對4k迭代對該模型進行了微調，在4k迭代中，學習速率在3k迭代中降低，這需要～COCO模型培訓1小時。

COCO預先訓練的Mask R-CNN模型在測試中達到32.0 AP，幾乎比純精對口模型提高了6點。這表明了訓練數據量所起的重要作用。它還表明，城市景觀上的實例分割方法可能會受到其低鏡頭學習性能的影響。我們表明，使用COCO預培訓是緩解涉及此數據集的有限數據問題的有效策略。

最后，我們觀察到val和測試AP之間存在偏差，正如[23，4]的結果所觀察到的一樣。我們發現，這種偏差主要是由卡車、公共汽車和火車類別引起的，僅限精細模型的val/測試AP分別為28.8/22.8、53.5/32.2和33.0/18.6。這表明這些類別的領域發生了變化，培訓數據也很少。COCO預培訓有助于提高這些類別的成績；然而，域轉移持續存在，分別為38.0/30.1、57.5/40.9和41.2/30.9 val/test-AP。注意，對于人員和車輛類別，我們沒有發現任何此類偏差（val/測試AP在±1分范圍內）

城市景觀的示例結果如圖7所示。

插圖

表

Mask R-CNN數據標注和模型訓練

https://yidamyth.blog.csdn.net/article/details/124851003

學習PySide2基于Python開發人工智能系統應用

https://blog.csdn.net/weixin_43312117/article/details/125512308?spm=1001.2014.3001.5501

修改記錄

讀完之后，發現自己下載的不是最新的PDF，是中間版本emmm這就很尷尬了

相關資料上傳到百度云和CSDN了，2022年09月27日10:59:08

總結

以上是生活随笔為你收集整理的Mask R-CNN全文翻译的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：冒泡排序算法基本思路
下一篇：解决国内网页无法加载reCaptcha的