Mask R-CNN全文翻译
文章目錄
- 標(biāo)題:Mask R-CNN
- 資源下載(PDF、學(xué)習(xí)筆記及資料)
- Abstract
- 1.Introduction:(機(jī)翻)
- 2.Related Work:(機(jī)翻)
- 3.Mask R-CNN
- 3.1.Implementation Details
- 4.Experiments: Instance Segmentation
- 4.1 Main Results
- 4.2Ablation Experiments
- 4.3.Bounding Box Detection Results
- 4.4.Timing
- 5.Mask R-CNN for Human Pose Estimation(第5章及后內(nèi)容為機(jī)翻)
- A.Experiments on Cityscapes
- 插圖
- 表
- Mask R-CNN數(shù)據(jù)標(biāo)注和模型訓(xùn)練
- 學(xué)習(xí)PySide2基于Python開(kāi)發(fā)人工智能系統(tǒng)應(yīng)用
- 修改記錄
標(biāo)題:Mask R-CNN
資源下載(PDF、學(xué)習(xí)筆記及資料)
百度云
鏈接: https://pan.baidu.com/s/16O_GHRtLMnWYheuY7XZ0ow?pwd=bijo 提取碼: bijo --來(lái)自百度網(wǎng)盤(pán)超級(jí)會(huì)員v6的分享CSDN
https://download.csdn.net/download/weixin_43312117/86723246Abstract
我們提出了一個(gè)簡(jiǎn)單的、靈活的、通用的實(shí)例分割網(wǎng)絡(luò)。我們的方法能夠有效檢測(cè)圖像中的每一個(gè)對(duì)象,同時(shí)對(duì)每個(gè)實(shí)例生成一個(gè)高質(zhì)量的分割掩膜。這個(gè)方法稱(chēng)作是,Mask R-CNN,它通過(guò)一個(gè)并行預(yù)測(cè)對(duì)象的分支掩膜與識(shí)別分支并行的方式擴(kuò)展Faster R-CNN。Mask R-CNN的訓(xùn)練很簡(jiǎn)單,僅在Faster R-CNN上增加小部分開(kāi)銷(xiāo),達(dá)到每秒5幀。此外,Mask R-CNN很容易推廣到其它任務(wù),如,姿態(tài)估計(jì)。我們?cè)贑OCO數(shù)據(jù)集的三個(gè)任務(wù)上都表現(xiàn)出了最好的結(jié)果,包括實(shí)例分割、邊界框目標(biāo)檢測(cè)、人員關(guān)鍵點(diǎn)檢測(cè)。不調(diào)參,Mask R-CNN能夠在所有任務(wù)上優(yōu)于所有現(xiàn)有單一的模型,包括2016COCO數(shù)據(jù)挑戰(zhàn)賽的冠軍。希望我們簡(jiǎn)單高效的方法能夠成為一個(gè)堅(jiān)實(shí)的基準(zhǔn)模型,助力未來(lái)實(shí)例分割的研究更進(jìn)一步。代碼即將可用。
1.Introduction:(機(jī)翻)
視覺(jué)社區(qū)在短時(shí)間內(nèi)迅速改善了目標(biāo)檢測(cè)和語(yǔ)義分割結(jié)果。在很大程度上,這些進(jìn)步是由強(qiáng)大的基線系統(tǒng)推動(dòng)的,例如分別用于對(duì)象檢測(cè)和語(yǔ)義分割的Fast/Faster RCNN[12,34]和Fully Convolutional Network(FCN)[29]框架。這些方法在概念上是直觀的,并且具有靈活性和魯棒性,同時(shí)具有快速的訓(xùn)練和推理時(shí)間。我們?cè)谶@項(xiàng)工作中的目標(biāo)是為實(shí)例細(xì)分開(kāi)發(fā)一個(gè)相對(duì)可行的框架。
實(shí)例分割具有挑戰(zhàn)性,因?yàn)樗枰_檢測(cè)圖像中的所有對(duì)象,同時(shí)精確分割每個(gè)實(shí)例。因此,它結(jié)合了經(jīng)典計(jì)算機(jī)視覺(jué)目標(biāo)檢測(cè)任務(wù)中的元素,目標(biāo)是對(duì)單個(gè)對(duì)象進(jìn)行分類(lèi)并使用邊界框?qū)γ總€(gè)對(duì)象進(jìn)行定位,以及語(yǔ)義分割,目標(biāo)是將每個(gè)像素分類(lèi)為不區(qū)分對(duì)象實(shí)例的固定類(lèi)別集。鑒于此,可能需要一種復(fù)雜的方法來(lái)獲得良好的結(jié)果。然而,我們表明,一個(gè)令人驚訝的簡(jiǎn)單、靈活和快速的系統(tǒng)可以超過(guò)先前最先進(jìn)的實(shí)例分割結(jié)果。
我們的方法稱(chēng)為Mask R-CNN,它擴(kuò)展了Faster R-CNN[34],通過(guò)添加一個(gè)分支來(lái)預(yù)測(cè)每個(gè)感興趣區(qū)域(RoI)上的分割掩碼,并與現(xiàn)有的分類(lèi)和邊界框回歸分支并行(圖1)。掩碼分支是應(yīng)用于每個(gè)RoI的一個(gè)小FCN,以像素topixel方式預(yù)測(cè)分割掩碼。鑒于更快的R-CNN框架,Mask R-CNN易于實(shí)施和訓(xùn)練,有助于廣泛靈活的架構(gòu)設(shè)計(jì)。此外,掩碼分支只增加了較小的計(jì)算開(kāi)銷(xiāo),從而實(shí)現(xiàn)了快速系統(tǒng)和快速實(shí)驗(yàn)。
原則上,Mask R-CNN是Faster R-CNN的直觀擴(kuò)展,但正確構(gòu)建掩碼分支對(duì)于取得良好結(jié)果至關(guān)重要。最重要的是,Faster RCNN不是為網(wǎng)絡(luò)輸入和輸出之間的像素對(duì)像素對(duì)齊而設(shè)計(jì)的。RoIPool[18,12]是處理實(shí)例的實(shí)際核心操作,它是如何對(duì)特征提取進(jìn)行粗略空間量化的,這一點(diǎn)最為明顯。為了修復(fù)失調(diào),我們提出了一個(gè)簡(jiǎn)單的、無(wú)量化的層,稱(chēng)為RoIAlign,它忠實(shí)地保留了精確的空間位置。盡管RoIAlign似乎是一個(gè)很小的變化,但它有很大的影響:它將掩模精度提高了10%到50%,在更嚴(yán)格的本地化指標(biāo)下表現(xiàn)出更大的提高。其次,我們發(fā)現(xiàn)將掩碼和類(lèi)預(yù)測(cè)解耦是至關(guān)重要的:我們獨(dú)立地為每個(gè)類(lèi)預(yù)測(cè)一個(gè)二進(jìn)制掩碼,類(lèi)之間沒(méi)有競(jìng)爭(zhēng),并且依賴(lài)網(wǎng)絡(luò)的RoI分類(lèi)分支來(lái)預(yù)測(cè)類(lèi)別。相比之下,FCN通常執(zhí)行每像素的多類(lèi)分類(lèi),這將分割和分類(lèi)結(jié)合起來(lái),并且基于我們的實(shí)驗(yàn),對(duì)于分割來(lái)說(shuō)效果很差。
Mask R-CNN在COCO實(shí)例分割任務(wù)[28]上超越了以往所有最先進(jìn)的單一模型結(jié)果,包括2016年比賽獲勝者的精心設(shè)計(jì)作品。作為副產(chǎn)品,我們的方法在COCO對(duì)象檢測(cè)任務(wù)上也表現(xiàn)出色。在消融實(shí)驗(yàn)中,我們?cè)u(píng)估了多個(gè)基本實(shí)例化,這使我們能夠證明其魯棒性并分析核心因素的影響。
我們的模型在GPU上每幀可以運(yùn)行大約200ms,在一臺(tái)8-GPU機(jī)器上進(jìn)行COCO訓(xùn)練需要一到兩天的時(shí)間。我們相信,快速的訓(xùn)練和測(cè)試速度,以及框架的靈活性和準(zhǔn)確性,將有助于并簡(jiǎn)化實(shí)例分割的未來(lái)研究。
最后,我們通過(guò)COCO關(guān)鍵點(diǎn)數(shù)據(jù)集上的人體姿勢(shì)估計(jì)任務(wù)展示了我們框架的通用性[28]。通過(guò)將每個(gè)關(guān)鍵點(diǎn)視為一個(gè)熱的二進(jìn)制掩碼,只需稍加修改,即可應(yīng)用掩碼R-CNN檢測(cè)特定于實(shí)例的姿勢(shì)。沒(méi)有技巧,Mask R-CNN超越了2016年COCO關(guān)鍵點(diǎn)比賽的冠軍,同時(shí)以每秒5幀的速度運(yùn)行。因此,掩碼R-CNN可以被更廣泛地視為實(shí)例級(jí)識(shí)別的靈活框架,并且可以很容易地?cái)U(kuò)展到更復(fù)雜的任務(wù)。
我們將發(fā)布代碼以促進(jìn)未來(lái)的研究。
2.Related Work:(機(jī)翻)
R-CNN:基于區(qū)域的CNN(R-CNN)邊界框?qū)ο髾z測(cè)方法[13]是關(guān)注可管理數(shù)量的候選對(duì)象區(qū)域[38,20],并獨(dú)立于每個(gè)RoI評(píng)估卷積網(wǎng)絡(luò)[25,24]。R-CNN得到了擴(kuò)展[18,12],允許使用RoIPool在特征圖上查看RoIs,從而實(shí)現(xiàn)了更快的速度和更好的準(zhǔn)確性。更快的R-CNN[34]通過(guò)學(xué)習(xí)區(qū)域提案網(wǎng)絡(luò)(RPN)的注意機(jī)制,推動(dòng)了這一流。更快的R-CNN對(duì)許多后續(xù)改進(jìn)(如[35、27、21])具有靈活性和魯棒性,是目前幾個(gè)基準(zhǔn)中的領(lǐng)先框架。
Instance Segmentation:受RCNN有效性的驅(qū)動(dòng),許多實(shí)例分段方法都基于分段建議。早期的方法[13,15,16,9]采用自下而上的分段[38,2]。DeepMask[32]和以下作品[33,8]學(xué)習(xí)提出細(xì)分候選框,然后由Fast R-CNN分類(lèi)。在這些方法中,分割先于識(shí)別,識(shí)別速度慢且精度低。同樣,Dai等人[10]提出了一個(gè)復(fù)雜的多階段、從邊界框方案預(yù)測(cè)分段方案,然后進(jìn)行分類(lèi)。相反,我們的方法是基于掩碼和類(lèi)標(biāo)簽的并行預(yù)測(cè),這更簡(jiǎn)單、更靈活
最近,Li等人[26]將[8]中的分段建議系統(tǒng)和[11]中的對(duì)象檢測(cè)系統(tǒng)結(jié)合起來(lái),用于“完全卷積實(shí)例分段”(FCIS)。[8,11,26]中的常見(jiàn)思想是完全卷積預(yù)測(cè)一組位置敏感輸出通道。這些通道同時(shí)處理對(duì)象類(lèi)、框和遮罩,使系統(tǒng)速度更快。但是,FCIS在重疊實(shí)例上顯示出系統(tǒng)性錯(cuò)誤,并產(chǎn)生假邊(圖5),這表明它受到了實(shí)例分割的基本困難的挑戰(zhàn)
3.Mask R-CNN
Mask R-CNN的概念很簡(jiǎn)單:Faster R-CNN的每個(gè)候選目標(biāo)有2個(gè)輸出,類(lèi)標(biāo)簽和邊界框偏移;我們?cè)黾恿艘粋€(gè)分支用于輸出目標(biāo)掩膜。這是一個(gè)自然又直觀的想法。但是額外的掩膜輸出不同于輸出的類(lèi)標(biāo)簽和目標(biāo)庫(kù),需要對(duì)目標(biāo)更加精細(xì)的空間布局。接下來(lái),我們要介紹Mask R-CNN關(guān)鍵的地方,包括像素級(jí)的 Alignment,這是Fast/Faster R-CNN主要缺失的部分。
Faster R-CNN:我們簡(jiǎn)短的回顧一下Faster R-CNN。Faster R-CNN由兩階段構(gòu)成的。第一個(gè)階段,叫做RPN,提取目標(biāo)候選框;第二個(gè)階段的本質(zhì)就是Fast R-CNN,用ROI從每個(gè)候選框中提取特征,并執(zhí)行分類(lèi)和邊界框回歸。共享特征能夠得到更快的推理速度。我們推薦讀者閱讀文獻(xiàn)21去了解Faster R-CNN和其它框架的最新綜合比較。
Mask R-CNN:Mask R-CNN也是二階段的,第一個(gè)階段與RPN完全相同。第二個(gè)階段,與分類(lèi)與邊界框回歸平行的,Mask R-CNN對(duì)每個(gè)ROI輸出一個(gè)二值掩膜。它與最近的系統(tǒng)對(duì)比,分類(lèi)依靠掩膜預(yù)測(cè)。我們的方法與Fast R-CNN的內(nèi)核相同,并行應(yīng)用邊界框回歸和分類(lèi)(這比原始R-CNN減少了大幅的流程)。
正式訓(xùn)練時(shí),我們?cè)诿總€(gè)ROI定義了一個(gè)多分支損失:
L=Lcls+Lbox+LmaskL=L_{cls} + L_{box}+L_{mask}L=Lcls?+Lbox?+Lmask?
分類(lèi)損失和邊界框損失和Faster R-CNN原文是相同的。對(duì)于每個(gè)ROI,掩膜分支有K×m×m維,K是K個(gè)類(lèi)別,m為分辨率的大小,每個(gè)掩膜均為二值圖。對(duì)每個(gè)像素用一個(gè)Sigmoid激活函數(shù),LmaskL_{mask}Lmask?被定義為平均的二值交叉熵?fù)p失。每個(gè)ROI與K個(gè)GT相關(guān),LmaskL_{mask}Lmask?被定義為第K個(gè)掩膜,其它輸出對(duì)這個(gè)loss沒(méi)有貢獻(xiàn)。
我們定義LmaskL_{mask}Lmask?運(yùn)行網(wǎng)絡(luò)為每個(gè)類(lèi)生成一個(gè)掩膜,掩膜間毫無(wú)競(jìng)爭(zhēng)關(guān)系;我們用分類(lèi)分支預(yù)測(cè)的類(lèi)標(biāo)簽來(lái)選擇輸出掩膜的類(lèi)標(biāo)簽。掩碼與分類(lèi)預(yù)測(cè)低耦合,這與FCN用于語(yǔ)義分割的常見(jiàn)做法不同,常用的是像素的softmax和交叉熵?fù)p失。那樣的話,掩膜有類(lèi)別間的競(jìng)爭(zhēng),我們的方法,每個(gè)像素點(diǎn)的Sigmoid和二值損失并不這樣。我們的實(shí)驗(yàn)證明,這樣的損失公式是能獲得很好結(jié)果的關(guān)鍵。
Mask Representation:掩膜對(duì)輸入對(duì)象的空間分布進(jìn)行編碼。因此,不像類(lèi)標(biāo)簽或者位置偏移,全連接層較短的輸出向量會(huì)不可避免的坍塌,提取掩膜的空間結(jié)構(gòu)可以通過(guò)卷積自然的解決像素間的對(duì)應(yīng)關(guān)系。
具體來(lái)講,我們對(duì)每一個(gè)ROI使用FCN來(lái)預(yù)測(cè)一個(gè)m×m的掩膜。允許掩膜分支去保持m×m的目標(biāo)空間結(jié)構(gòu),而不是用會(huì)缺乏空間維度的向量表示。不像是原來(lái)的方法那樣用全連接層去預(yù)測(cè)掩膜,我們的全卷積參數(shù)量更少而且實(shí)驗(yàn)表明擁有更高的精度。
像素級(jí)的行為需要我們的ROI特征,他們是更小的特征圖,能夠很好的對(duì)齊以確保每個(gè)像素明確的空間位置。這樣是因?yàn)镽OIALign層在掩膜預(yù)測(cè)中發(fā)揮著重要的角色。
RoIAlign:RoIPool從每一個(gè)RoI小特征圖(如7×7)中提取,這是一個(gè)標(biāo)準(zhǔn)的操作。ROIPool首先將浮點(diǎn)數(shù)ROI量化成像素圖的離散度,然后將量化后的ROI分為空間單元,最后將每個(gè)單元的特征值進(jìn)行聚合(使用最大池化max pooling)。量化是通過(guò)計(jì)算連續(xù)的x -> [x/16](取整),16是特征圖的步距;同樣在劃分時(shí)執(zhí)行7×7的網(wǎng)格。這些量化會(huì)引起在ROI及特征提取間的偏差。這樣的量化在對(duì)分類(lèi)時(shí)可能沒(méi)什么影響,很魯棒,但對(duì)像素級(jí)的掩膜影響很大。
為了解決這個(gè)問(wèn)題我們提出了一個(gè)RoIAlign層消除了RoIPool的嚴(yán)格量化,將提取的特征與輸入對(duì)齊。我們提出的想法很簡(jiǎn)單:我們避免了RoI邊界的任何量化使用x/16替代[x/16],我們使用雙線性插值來(lái)計(jì)算4個(gè)采樣點(diǎn)的精確值,然后匯總結(jié)果(用最大/平均池化)。
RoIAlign有很大的提升,如4.2節(jié)所示。我們還比較了提出的RoIWarp操作如文獻(xiàn)10。不像是RoIAlign,RoIWarp會(huì)出現(xiàn)和RoIPool一樣的量化問(wèn)題。即使RoIWarp也用了22的雙線性插值,它的性能與RoIPool相當(dāng),如實(shí)驗(yàn)所示(更多細(xì)節(jié)如表2c),展示了對(duì)齊的關(guān)鍵作用。
Network Architecture:展示我們方法的通用性,我們用多個(gè)通用的框架來(lái)實(shí)現(xiàn)Mask R-CNN結(jié)構(gòu)。為了更清晰,我們進(jìn)行一下區(qū)分:
我們用網(wǎng)絡(luò)深度特征來(lái)表示主干架構(gòu)。我們?cè)u(píng)估了ResNet和ResNeXt網(wǎng)絡(luò)深度50或101層。最初從Faster R-CNN中用ResNets進(jìn)行特征提取的第四個(gè)階段,我們稱(chēng)作c4,使用ResNet50骨干網(wǎng)絡(luò),我們稱(chēng)它為ResNet50-C4。在文獻(xiàn)【19,10,21,36】中是很常見(jiàn)的。
我們也探索了更多高效的骨干網(wǎng)絡(luò)【27】,被叫做FPN。FPN使用一個(gè)自上向下的橫向金字塔結(jié)構(gòu),用于單一尺度的輸入。Faster R-CNN使用FPN骨干網(wǎng)絡(luò)提取RoI特征,從特征金字塔的不同尺度,其它方法類(lèi)似于普通的ResNet。使用ResNets-FPN作為Mask R-CNN的特征提取骨干網(wǎng)絡(luò),能夠獲得更好的準(zhǔn)確率和速度。更多關(guān)于FPN的細(xì)節(jié),請(qǐng)閱讀文獻(xiàn)【27】。
對(duì)于網(wǎng)絡(luò)頭,我們嚴(yán)格的遵守原先的工作,僅僅額外增加了一個(gè)掩膜預(yù)測(cè)分支。具體來(lái)講我們擴(kuò)展了Faster R-CNN的box頭從ResNet。細(xì)節(jié)如圖3所示。ResNet-C4骨干的頭,包括第五階段的ResNet,叫做’res5‘,它的計(jì)算是密集的。對(duì)于FPN,骨干已經(jīng)包含res5,因此允許使用更少過(guò)濾器的更高效頭部。
我們注意到我們的掩膜分支有一個(gè)簡(jiǎn)單的結(jié)構(gòu)。雖然更復(fù)雜的設(shè)計(jì)能夠提升潛在的性能,但沒(méi)有關(guān)注到工作本身。
3.1.Implementation Details
我們的超參數(shù)設(shè)計(jì)與Fast/Faster RCNN相同,盡管這些決定是原始論文做出的,我們發(fā)現(xiàn)我們的實(shí)例分割模型更具魯棒性。
Training:在Fast R-CNN中,RoI的positive是與GT的IoU大于0.5部分,negative相反。掩膜分支的損失僅計(jì)算正例的RoIs。掩膜的目標(biāo)是RoI與GT關(guān)聯(lián)的實(shí)例。
我們采用以圖像為中心的訓(xùn)練方式。調(diào)整圖像的大小,讓它的短邊為800像素。每個(gè)GPU的每個(gè)mini-batch傳入2張圖像,每個(gè)圖像有N個(gè)Roi,正負(fù)樣本比例為1:3。C4時(shí)N是64,FPN是512。我們?cè)?塊GPU上訓(xùn)練(有效的mini-batch是16),迭代160k次,學(xué)習(xí)率設(shè)為0.02,在到120k是衰減10倍,weight_decay為0.0001以及動(dòng)量為0.9。
這個(gè)FPN的anchor寬度為5個(gè)尺度3個(gè)橫軸比,于文獻(xiàn)【27】相同。便于消融,RPN單獨(dú)被訓(xùn)練,特征不被Mask R-CNN共享,除非另有規(guī)定。對(duì)于本文的每個(gè)條目,RPN和Mask R-CNN有相同的骨干,所以可以共享。
Inference:測(cè)試時(shí),C4骨干網(wǎng)絡(luò)目標(biāo)框數(shù)量是300,FPN是1000。我們對(duì)這些預(yù)測(cè)分支的目標(biāo)框,進(jìn)行非極大值抑制。掩膜分支用于最高的100個(gè)檢測(cè)框。盡管這和訓(xùn)練時(shí)的并行分支不同,它能夠加速推理速度提升準(zhǔn)確率(因?yàn)槭褂酶?#xff0c;更精準(zhǔn)的RoI)。對(duì)于每個(gè)RoI掩膜分支能夠預(yù)測(cè)K個(gè)掩膜,但我們僅使用第k個(gè)掩膜,k是分類(lèi)分支預(yù)測(cè)的的類(lèi)別。將m×m的浮點(diǎn)數(shù)掩膜輸出resize到RoI的大小,并以閾值為0.5二值化。
注意到,我們僅計(jì)算最高的100個(gè)檢測(cè)框,Mask R-CNN添加到運(yùn)行更快的Faster R-CNN中去。(e.g., ~20% on typical models)
4.Experiments: Instance Segmentation
我們將Mask R-CNN與最新的模型進(jìn)行比較,并且進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。使用COCO數(shù)據(jù)集進(jìn)行所有的實(shí)驗(yàn)。我們報(bào)告標(biāo)準(zhǔn)的COCO指標(biāo)AP(IoU閾值的平均值),AP50,AP75,APS,APM,APL(不同規(guī)模的AP)。除非其它的說(shuō)明,AP被用于評(píng)估掩膜的IoU值。以前的工作,80k訓(xùn)練圖像和35k驗(yàn)證子集,并報(bào)告余下5k驗(yàn)證自己的消融情況。我們也報(bào)告結(jié)果在test-dev,沒(méi)有公開(kāi)的標(biāo)簽。發(fā)布后,我們將安裝測(cè)試標(biāo)準(zhǔn)的完整結(jié)果上傳的公共排行榜。
4.1 Main Results
我們比較了Mask R-CNN與最好的實(shí)例分割方法如表1所示。我們模型所有的實(shí)例化都優(yōu)于先前的各種變體的sota模型。包括MNC、FCIS以及COCO2016、2016實(shí)例分割調(diào)整的冠軍。Mask R-CNN以ResNet-101-FPN作為骨干優(yōu)于FCIS+++,包括多尺度train/test,水平翻轉(zhuǎn)測(cè)試以及OHEM。雖然不在本工作的范圍之中,但我們希望許多改進(jìn)都是適合您的。
Mask R-CNN輸出的可視化結(jié)果如圖2和4。Mask R-CNN在具有挑戰(zhàn)的情況下也能獲得較好的結(jié)果。如圖5,我們比較Mask R-CNN基準(zhǔn)及FCIS+++。FCIS+++在重疊實(shí)例上顯示系統(tǒng)工件,它是實(shí)例分割困難的挑戰(zhàn),但是Mask R-CNN并沒(méi)有受到這樣的影響。
4.2Ablation Experiments
我們進(jìn)行了多次消融實(shí)驗(yàn)去分析Mask R-CNN。結(jié)果如表2所示,接下來(lái)進(jìn)行詳細(xì)討論。
Architecture:表2a表明Mask R-CNN不同的骨干網(wǎng)絡(luò)。更深的網(wǎng)絡(luò)收益更多(50vs101),先進(jìn)的設(shè)計(jì)包括FPN及ResNeXt。我們注意到,不是所有的框架都能受益于更深或者更前言的網(wǎng)絡(luò)。
Multinomial vs. Independent Masks:Mask R-CNN掩膜和分類(lèi)預(yù)測(cè)是低耦合的,現(xiàn)有的box分支預(yù)測(cè)類(lèi)標(biāo)簽,我們?yōu)槊總€(gè)類(lèi)生成一個(gè)掩碼,他們之間毫無(wú)競(jìng)爭(zhēng)(每個(gè)像素的Sigmoid和二值損失)。表2,我們比較了使用每個(gè)像素的sofmax和多項(xiàng)式損失(和FPN中使用的一樣)。這個(gè)替代方案將掩膜和分類(lèi)預(yù)測(cè)結(jié)合起來(lái),結(jié)果導(dǎo)致掩膜ap值嚴(yán)重受損(5.5個(gè)點(diǎn))。這表明一旦實(shí)例和分類(lèi)作為一個(gè)整體(通過(guò)box分支),在不考慮類(lèi)別的情況下它足夠去預(yù)測(cè)一個(gè)二值掩膜,讓模型更容易訓(xùn)練。
Class-Specific vs. Class-Agnostic Masks:我們默認(rèn)實(shí)例化預(yù)測(cè)為特殊類(lèi)的掩膜,每個(gè)類(lèi)都有一個(gè)m×m的掩膜。有趣的是,Mask R-CNN用類(lèi)別無(wú)關(guān)的掩膜(預(yù)測(cè)單個(gè)m×m的掩膜輸出,無(wú)關(guān)類(lèi)別)是很高效的,29.7 mask AP和30,3在特定類(lèi)別的ResNet-50-C4。進(jìn)一步突出了我們工作在我們研究的重要性,將分類(lèi)與分割進(jìn)行的大幅度的解耦。
RoIAlign:評(píng)估我們提出RoIAlign層如表2c。這個(gè)實(shí)驗(yàn)我們使用的是ResNet-40-C4骨干網(wǎng)絡(luò),stride16。RoIAlign提升了3個(gè)點(diǎn)的AP對(duì)于RoIPool,大部分收益都來(lái)自高的IoU(AP75)。RoiAlign對(duì)于max/average池化不敏感;后面都使用均值池化。
額外的,我們使用MNC提出的RoIWarp也使用簡(jiǎn)單的線性插值,在3章討論,RoI任然量化了RoI,失去了與輸入的對(duì)齊。如表2c,RoIWarp比RoIpool好一點(diǎn),但是比RoIAlign更差。我們和強(qiáng)調(diào)了對(duì)齊才是關(guān)鍵點(diǎn)。
我們也在ResNet-50-C5骨干網(wǎng)絡(luò)中驗(yàn)證了RoIAlign,有更大的步距為32。我們使用了相同的頭如表3的左邊,這個(gè)res5頭不適用。表2d表明RoIAlig能夠提升maskAP7.3個(gè)點(diǎn),AP75提升10.5個(gè)點(diǎn)。進(jìn)一步,我們注意到RoIAlign,使用步距32的C5特征30.9的AP比步距16的C4特征30.3AP更好,如表2c。RoIAlign解決了檢測(cè)與分割使用大步距特征的挑戰(zhàn)。
最終RoIAlign表明,增加了1.5 掩膜AP和0.5box AP,當(dāng)使用FPN獲得更加精細(xì)的多級(jí)尺度時(shí)。檢測(cè)的關(guān)鍵點(diǎn)就是獲得更加精細(xì)的對(duì)齊。使用RoIAlign即使使用FPN也能夠得到很好的提升,如表6。
Mask Branch:分割是一個(gè)像素級(jí)的任務(wù),我們通過(guò)使用FCN利用掩膜的空間布局。如表2e,我們比較MLP和FCN,均使用ResNet-50-FPN骨干網(wǎng)絡(luò)。使用FCN能夠比MLP獲得2.1的mask 提升。為了公平的和MLP比較,我們選擇了一個(gè)沒(méi)有預(yù)訓(xùn)練過(guò)的FCN卷積層。
4.3.Bounding Box Detection Results
我們比較了Mask R-CNN與COCO邊界框目標(biāo)檢測(cè)最好模型,如表3。結(jié)果表明,即使訓(xùn)練了整個(gè)Mask R-CNN模型,在推理時(shí)僅使用分類(lèi)和邊界框的輸出(忽略掩膜)。Mask R-CNN使用ResNet-101-FPN優(yōu)于其它各種變體模型,包括2016COCO調(diào)整賽的冠軍模型GRMI。使用ResNext-101-FPN能有更進(jìn)一步的提升,比最好單一模型(Inception-ResNet-v2-TDM)的邊界框能夠提升3.0AP。
進(jìn)一步比較,我們訓(xùn)練了一個(gè)沒(méi)有掩膜分支的Mask R-CNN,表示為Faster R-CNN,RoIAlign如表3。該模型比不使用RoIAlign更好,Mask R-CNN比它高0.9的box AP。Mask R-CNN的邊界框檢測(cè)之間的差距完全得益于多分支訓(xùn)練任務(wù)。
我們主要的Mask R-CNN獲得了一個(gè)小幅度的提升,在掩膜和邊界框AP,如表1和表3。這表明,我們的方法很大程度上縮小了目標(biāo)檢測(cè)和更具調(diào)整的實(shí)例分割任務(wù)間的差距。
4.4.Timing
Inference:我們訓(xùn)練一個(gè)ResNet-101-FPN模型,共享特征在RPN和Mask R-CNN階段,遵循Faster R-CNN第四階段的第四步訓(xùn)練。該模型在Nvidia Tesla M40 GPU上以每幅圖像195ms的速度運(yùn)行(再加上15ms的CPU時(shí)間,將輸出調(diào)整為原始分辨率),并在統(tǒng)計(jì)上實(shí)現(xiàn)了與非共享的相同掩碼AP。我們還報(bào)告說(shuō),ResNet-101-C4變體~400ms,因?yàn)樗幸粋€(gè)較重的box head(圖3),所以我們不建議在實(shí)踐中使用C4變體。
盡管Mask R-CNN很快,但是我們的設(shè)計(jì)并沒(méi)有針對(duì)運(yùn)行速度去優(yōu)化,還可以達(dá)到更好的速度及準(zhǔn)確率。通過(guò)調(diào)整圖像的大小和平衡目標(biāo)框數(shù)量,但這不在本文的范圍中。
Training:Mask R-CNN訓(xùn)練更快。在我們的同步8-GPU實(shí)現(xiàn)中,使用ResNet-50-FPN進(jìn)行COCO trainval35k培訓(xùn)需要32小時(shí)(每16個(gè)圖像小批量0.72秒),而使用ResNet-101-FPN則需要44小時(shí)。訓(xùn)練時(shí),快速原型制作可以在不到一天的時(shí)間內(nèi)完成。我們希望這種快速訓(xùn)練將消除這一領(lǐng)域的主要障礙,并鼓勵(lì)更多的人對(duì)這一具有挑戰(zhàn)性的課題進(jìn)行研究。
5.Mask R-CNN for Human Pose Estimation(第5章及后內(nèi)容為機(jī)翻)
我們的框架能很輕松的擴(kuò)展到人體姿態(tài)估計(jì),我們模型將關(guān)鍵點(diǎn)作為One-hot mask,采用Mask R-CNN去預(yù)測(cè)K個(gè)mask,k個(gè)關(guān)鍵點(diǎn)類(lèi)型各一種。這個(gè)任務(wù)幫助證明了Mask R-CNN的靈活性。
我們注意到,我們系統(tǒng)利用了人體姿態(tài)最小領(lǐng)域知識(shí),因?yàn)閷?shí)驗(yàn)主要是為了演示Mask R-CNN的框架的通用性。我們期望相關(guān)領(lǐng)域可以補(bǔ)充我們簡(jiǎn)單的方法,但這不在本文的范圍中。
Implementation Details:我們對(duì)模型進(jìn)行細(xì)微的修改已適應(yīng)關(guān)鍵點(diǎn)檢測(cè)。對(duì)于實(shí)例的K個(gè)關(guān)鍵點(diǎn),訓(xùn)練目標(biāo)為m×m的二進(jìn)制掩膜,其中只有一個(gè)像素點(diǎn)標(biāo)記為前進(jìn)。在訓(xùn)練期間,對(duì)于每個(gè)可見(jiàn)的GT關(guān)鍵點(diǎn),我們將m×m進(jìn)行softmax輸出的交叉熵?fù)p失降到最低(鼓勵(lì)單個(gè)檢測(cè)點(diǎn))。我們注意到在實(shí)例分割中,k個(gè)關(guān)鍵點(diǎn)然然是獨(dú)立處理的。
我們采用ResNet-FPN的變體,關(guān)鍵點(diǎn)頭結(jié)果與圖3左邊相似。關(guān)鍵點(diǎn)頭部由8個(gè)3×3 512-d為卷積層構(gòu)成,然后是反卷積核2個(gè)線性層的上采樣,產(chǎn)生一個(gè)輸出分辨率大小為56×56。與掩膜相比關(guān)鍵點(diǎn)級(jí)定位精度需要相對(duì)較高的分辨率輸出。
模型在包含注釋關(guān)鍵點(diǎn)的所有COCO trainval35k圖像上進(jìn)行訓(xùn)練。為了減少過(guò)擬合,由于該訓(xùn)練集較小,我們使用從[640,800]像素隨機(jī)采樣的圖像比例對(duì)模型進(jìn)行訓(xùn)練;推斷是在800像素的單一尺度上進(jìn)行的。我們針對(duì)90k次迭代進(jìn)行訓(xùn)練,學(xué)習(xí)率從0.02開(kāi)始,在60k和80k次迭代中減少10次。我們使用閾值為0.5的邊界框非最大值抑制。其他實(shí)現(xiàn)與3.1中相同。
Experiments on Human Pose Estimation:我們使用ResNet-50-FPN評(píng)估人員關(guān)鍵點(diǎn)AP(APkp)。我們對(duì)ResNet-101進(jìn)行了實(shí)驗(yàn),發(fā)現(xiàn)它獲得了類(lèi)似的結(jié)果,可能是因?yàn)楦钊氲哪P褪芤嬗诟嗟挠?xùn)練數(shù)據(jù),但這個(gè)數(shù)據(jù)集相對(duì)較小。
表4顯示,我們的結(jié)果(62.7 APkp)比使用多階段的COCO,2016關(guān)鍵點(diǎn)檢測(cè)優(yōu)勝者[6]高0.9點(diǎn)(見(jiàn)表4標(biāo)題)。我們的方法即簡(jiǎn)單又快捷。
更重要的是,我們有一個(gè)統(tǒng)一的模型,可以在每秒5幀的速度下同時(shí)預(yù)測(cè)框、段和關(guān)鍵點(diǎn)。增加一個(gè)分割分支(對(duì)每個(gè)人)提高APkp到63.1如Table4在test-dev。表5顯示了minival上多任務(wù)學(xué)習(xí)的更多消融實(shí)驗(yàn)。僅在box中添加掩碼分支(即Faster R-CNN)或僅使用keypoint的版本可以持續(xù)改善這些任務(wù)。然而,添加keypoint分支會(huì)略微減少框/掩碼AP,這表明雖然keypoint檢測(cè)可以從多任務(wù)訓(xùn)練中受益,但它不會(huì)反過(guò)來(lái)幫助其他任務(wù)。然而,聯(lián)合學(xué)習(xí)所有三個(gè)任務(wù)可以使一個(gè)統(tǒng)一的系統(tǒng)同時(shí)有效地預(yù)測(cè)所有輸出(圖6)。
我們還研究了RoIAlign對(duì)關(guān)鍵點(diǎn)檢測(cè)的影響(表6)。盡管此ResNet-50-FPN主干具有更精細(xì)的步幅(例如,在最精細(xì)的級(jí)別上有4個(gè)像素),但RoIAlign仍比RoIPool有顯著改進(jìn),并將APkp提高了4.4點(diǎn)。這是因?yàn)殛P(guān)鍵點(diǎn)檢測(cè)對(duì)定位精度更敏感。這再次表明,對(duì)齊對(duì)于像素級(jí)定位至關(guān)重要,包括掩膜和關(guān)鍵點(diǎn)。
鑒于Mask R-CNN在提取對(duì)象邊界框、遮罩和關(guān)鍵點(diǎn)方面的有效性,我們希望它是其他實(shí)例級(jí)任務(wù)的有效框架
A.Experiments on Cityscapes
我們進(jìn)一步報(bào)告了Cityscapes[7]數(shù)據(jù)集上的實(shí)例分割結(jié)果。該數(shù)據(jù)集有2975個(gè)訓(xùn)練圖像、500個(gè)驗(yàn)證圖像和1525個(gè)測(cè)試圖像的精細(xì)注釋。它有20k個(gè)沒(méi)有實(shí)例注釋的粗糙訓(xùn)練圖像,我們不使用這些圖像。所有圖像的固定分辨率為2048×1024像素。實(shí)例分割任務(wù)涉及8個(gè)對(duì)象類(lèi)別,精細(xì)訓(xùn)練集中的實(shí)例數(shù)為如下所示:
此任務(wù)的實(shí)例分段性能由COCO風(fēng)格的掩碼AP衡量(IoU閾值的平均值);還報(bào)告了AP50(即IoU為0.5時(shí)的掩碼AP)。
Implementation:我們使用我們的Mask R-CNN模型和ResNet-FPN-50主干;我們已經(jīng)測(cè)試了101層副本,發(fā)現(xiàn)由于數(shù)據(jù)集較小,它的性能類(lèi)似。我們使用從[800,1024]隨機(jī)采樣的圖像比例(較短的一側(cè))進(jìn)行訓(xùn)練,這減少了過(guò)擬合;推斷是在1024像素的單一尺度上進(jìn)行的。我們使用每個(gè)GPU 1個(gè)圖像的小批量大小(因此在8個(gè)GPU上有效地為8個(gè)),并對(duì)模型進(jìn)行24k迭代的訓(xùn)練,從0.01的學(xué)習(xí)率開(kāi)始,在18k迭代時(shí)將其降低到0.001。其他實(shí)施細(xì)節(jié)與§3.1相同。
Results:表7將我們的結(jié)果與val和測(cè)試集的最新技術(shù)進(jìn)行了比較。在不使用粗訓(xùn)練集的情況下,我們的方法在測(cè)試中達(dá)到26.2 AP,比使用精細(xì)+粗標(biāo)記的最佳條目提高了30%以上。與僅使用精細(xì)標(biāo)簽的最佳條目(17.4 AP)相比,我們實(shí)現(xiàn)了~提高50%。這需要~在單個(gè)8GPU機(jī)器上進(jìn)行4小時(shí)的培訓(xùn),以獲得此結(jié)果。
對(duì)于人員和汽車(chē)類(lèi)別,Cityscapes數(shù)據(jù)集顯示了大量類(lèi)別內(nèi)重疊的實(shí)例(平均每張圖像6人9輛汽車(chē))。我們認(rèn)為,類(lèi)別內(nèi)重疊是實(shí)例分割的核心困難。我們的方法顯示,相對(duì)于現(xiàn)有的最佳條目(相對(duì)~人員從16.5提高到30.5,提高了85%~汽車(chē)性能從35.7提高到46.9,提高了30%。
Cityscapes數(shù)據(jù)集的一個(gè)主要挑戰(zhàn)是低數(shù)據(jù)狀態(tài)下的訓(xùn)練模型,尤其是卡車(chē)、公共汽車(chē)和火車(chē)類(lèi)別的訓(xùn)練模型。要部分解決此問(wèn)題,我們進(jìn)一步使用COCO進(jìn)行預(yù)訓(xùn)練。為此,我們從預(yù)先訓(xùn)練好的COCO Mask R-CNN模型(騎手被隨機(jī)初始化)初始化城市景觀中相應(yīng)的7個(gè)類(lèi)別。我們針對(duì)4k迭代對(duì)該模型進(jìn)行了微調(diào),在4k迭代中,學(xué)習(xí)速率在3k迭代中降低,這需要~COCO模型培訓(xùn)1小時(shí)。
COCO預(yù)先訓(xùn)練的Mask R-CNN模型在測(cè)試中達(dá)到32.0 AP,幾乎比純精對(duì)口模型提高了6點(diǎn)。這表明了訓(xùn)練數(shù)據(jù)量所起的重要作用。它還表明,城市景觀上的實(shí)例分割方法可能會(huì)受到其低鏡頭學(xué)習(xí)性能的影響。我們表明,使用COCO預(yù)培訓(xùn)是緩解涉及此數(shù)據(jù)集的有限數(shù)據(jù)問(wèn)題的有效策略。
最后,我們觀察到val和測(cè)試AP之間存在偏差,正如[23,4]的結(jié)果所觀察到的一樣。我們發(fā)現(xiàn),這種偏差主要是由卡車(chē)、公共汽車(chē)和火車(chē)類(lèi)別引起的,僅限精細(xì)模型的val/測(cè)試AP分別為28.8/22.8、53.5/32.2和33.0/18.6。這表明這些類(lèi)別的領(lǐng)域發(fā)生了變化,培訓(xùn)數(shù)據(jù)也很少。COCO預(yù)培訓(xùn)有助于提高這些類(lèi)別的成績(jī);然而,域轉(zhuǎn)移持續(xù)存在,分別為38.0/30.1、57.5/40.9和41.2/30.9 val/test-AP。注意,對(duì)于人員和車(chē)輛類(lèi)別,我們沒(méi)有發(fā)現(xiàn)任何此類(lèi)偏差(val/測(cè)試AP在±1分范圍內(nèi))
城市景觀的示例結(jié)果如圖7所示。
插圖
表
Mask R-CNN數(shù)據(jù)標(biāo)注和模型訓(xùn)練
https://yidamyth.blog.csdn.net/article/details/124851003
學(xué)習(xí)PySide2基于Python開(kāi)發(fā)人工智能系統(tǒng)應(yīng)用
https://blog.csdn.net/weixin_43312117/article/details/125512308?spm=1001.2014.3001.5501
修改記錄
總結(jié)
以上是生活随笔為你收集整理的Mask R-CNN全文翻译的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 冒泡排序算法基本思路
- 下一篇: 解决国内网页无法加载reCaptcha的