日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Mask RcNN论文翻译

發(fā)布時(shí)間:2023/12/15 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Mask RcNN论文翻译 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Mask Rcnn英文版論文鏈接:https://arxiv.org/pdf/1703.06870.pdf

Mask Rcnn項(xiàng)目地址(caffe2):https://github.com/facebookresearch/Detectron


摘要

我們提出了一個(gè)概念上簡(jiǎn)單,靈活和通用的目標(biāo)分割框架。我們的方法有效地檢測(cè)圖像中的目標(biāo),同時(shí)為每個(gè)實(shí)例生成高質(zhì)量的分割掩碼。稱為Mask R-CNN的方法通過添加一個(gè)與現(xiàn)有目標(biāo)檢測(cè)框回歸并行的,用于預(yù)測(cè)目標(biāo)掩碼的分支來擴(kuò)展Faster R-CNN。Mask R-CNN訓(xùn)練簡(jiǎn)單,相對(duì)于Faster R-CNN,只需增加一個(gè)較小的開銷,運(yùn)行速度可達(dá)5 FPS。此外,Mask R-CNN很容易推廣到其他任務(wù),例如,允許我們?cè)谕粋€(gè)框架中估計(jì)人的姿勢(shì)。我們?cè)贑OCO挑戰(zhàn)的所有三個(gè)項(xiàng)目中取得了最佳成績(jī),包括目標(biāo)分割,目標(biāo)檢測(cè)和人體關(guān)鍵點(diǎn)檢測(cè)。在沒有使用額外技巧的情況下,Mask R-CNN優(yōu)于所有現(xiàn)有的單一模型,包括COCO 2016挑戰(zhàn)優(yōu)勝者。我們希望我們的簡(jiǎn)單而有效的方法將成為一個(gè)促進(jìn)未來目標(biāo)級(jí)識(shí)別領(lǐng)域研究的堅(jiān)實(shí)基礎(chǔ)。我們稍后將提供代碼。

簡(jiǎn)介

目標(biāo)檢測(cè)和語義分割的效果在短時(shí)間內(nèi)得到了很大的改善。在很大程度上,這些進(jìn)步是由強(qiáng)大的基線系統(tǒng)驅(qū)動(dòng)的,例如,分別用于目標(biāo)檢測(cè)和語義分割的Fast/Faster R-CNN?和全卷積網(wǎng)絡(luò)(FCN)框架。這些方法在概念上是直觀的,提供靈活性和魯棒性,以及快速的訓(xùn)練和推理。我們?cè)谶@項(xiàng)工作中的目標(biāo)是為目標(biāo)分割開發(fā)一個(gè)相對(duì)有力的框架。

目標(biāo)分割是具有挑戰(zhàn)性的,因?yàn)樗枰_檢測(cè)圖像中的所有目標(biāo),同時(shí)也精確地分割每個(gè)目標(biāo)。因此,它結(jié)合了來自經(jīng)典計(jì)算機(jī)視覺任務(wù)目標(biāo)檢測(cè)的元素,其目的是對(duì)目標(biāo)進(jìn)行分類,并使用邊界框定位每個(gè)目標(biāo),以及語義分割(通常來說,目標(biāo)檢測(cè)來使用邊界框而不是掩碼來標(biāo)定每一個(gè)目標(biāo)檢測(cè),而語義分割以在不區(qū)分目標(biāo)的情況下表示每像素的分類。然而,目標(biāo)分割既是語義分割,又是另一種形式的檢測(cè)。)鑒于此,人們可能認(rèn)為需要一種復(fù)雜的方法才能取得良好的效果。然而,我們的研究表明,使用非常簡(jiǎn)單,靈活和快速的系統(tǒng)就可以超越先前的最先進(jìn)的目標(biāo)分割結(jié)果。

我們稱之為Mask R-CNN的方法通過添加一個(gè)用于在每個(gè)感興趣區(qū)域(RoI)上預(yù)測(cè)分割掩碼的分支來擴(kuò)展Faster R-CNN [34],這個(gè)分支與用于分類和目標(biāo)檢測(cè)框回歸的分支并行執(zhí)行,如下圖(圖1)所示(用于目標(biāo)分割的Mask R-CNN框架):

掩碼分支是作用于每個(gè)RoI的小FCN,以像素到像素的方式預(yù)測(cè)分割掩碼。Mask R-CNN易于實(shí)現(xiàn)和訓(xùn)練,它是基于Faster R-CNN這種靈活的框架的。此外,掩碼分支只增加了很小的計(jì)算開銷。

原理上,Mask R-CNN是Faster R-CNN的直接擴(kuò)展,而要獲得良好的結(jié)果,正確構(gòu)建掩碼分支至關(guān)重要。最重要的是,Faster R-CNN不是為網(wǎng)絡(luò)輸入和輸出之間的像素到像素對(duì)齊而設(shè)計(jì)的。在《how RoIPool》??中提到,實(shí)際上,應(yīng)用到目標(biāo)上的核心操作執(zhí)行的是粗略的空間量化特征提取。為了修正錯(cuò)位,我們提出了一個(gè)簡(jiǎn)單的,量化無關(guān)的層,稱為RoIAlign,可以保留精確的空間位置。盡管是一個(gè)看似很小的變化,RoIAlign起到了很大的作用:它可以將掩碼準(zhǔn)確度提高10%至50%,在更嚴(yán)格的位置度量下顯示出更大的收益。其次,我們發(fā)現(xiàn)解耦掩碼和分類至關(guān)重要:我們?yōu)槊總€(gè)類獨(dú)立地預(yù)測(cè)二進(jìn)制掩碼,這樣不會(huì)跨類別競(jìng)爭(zhēng),并且依賴于網(wǎng)絡(luò)的RoI分類分支來預(yù)測(cè)類別。相比之下,FCN通常執(zhí)行每像素多類分類,分割和分類同時(shí)進(jìn)行,基于我們的實(shí)驗(yàn),對(duì)于目標(biāo)分割效果不佳。

Mask R-CNN超越了COCO實(shí)例分割任務(wù)[28]上所有先前最先進(jìn)的單一模型結(jié)果,其中包括COCO 2016挑戰(zhàn)優(yōu)勝者。作為副產(chǎn)品,我們的方法也優(yōu)于COCO對(duì)象檢測(cè)任務(wù)。在消融實(shí)驗(yàn)中,我們?cè)u(píng)估多個(gè)基本實(shí)例,這使我們能夠證明其魯棒性并分析核心因素的影響。

我們的模型可以在GPU上以200毫秒每幀的速度運(yùn)行,使用一臺(tái)有8個(gè)GPU的機(jī)器,在COCO上訓(xùn)練需要一到兩天的時(shí)間。我們相信,快速的訓(xùn)練和測(cè)試速度,以及框架的靈活性和準(zhǔn)確性將促進(jìn)未來目標(biāo)分割的研究。

最后,我們通過COCO關(guān)鍵點(diǎn)數(shù)據(jù)集上的人體姿態(tài)估計(jì)任務(wù)來展示我們框架的通用性。通過將每個(gè)關(guān)鍵點(diǎn)視為one-hot二進(jìn)制掩碼,只需要很少的修改,Mask R-CNN可以應(yīng)用于人體關(guān)鍵點(diǎn)檢測(cè)。不需要額外的技巧,Mask R-CNN超過了COCO 2016人體關(guān)鍵點(diǎn)檢測(cè)比賽的冠軍,同時(shí)運(yùn)行速度可達(dá)5 FPS。因此,Mask R-CNN可以被更廣泛地看作是用于目標(biāo)級(jí)識(shí)別的靈活框架,并且可以容易地?cái)U(kuò)展到更復(fù)雜的任務(wù)。

我們將發(fā)布代碼以促進(jìn)未來的研究。

相關(guān)工作

R-CNN:R-CNN方法是通過找到一定數(shù)量的候選區(qū)域?,并獨(dú)立地在每個(gè)RoI上執(zhí)行卷積?來進(jìn)行目標(biāo)檢測(cè)的。 基于R-CNN的改進(jìn)?,使用RoIPool在特征圖上選取RoI,實(shí)現(xiàn)了更快的速度和更好的準(zhǔn)確性。Faster R-CNN通過使用RPN學(xué)習(xí)注意機(jī)制來產(chǎn)生候選框。還有后續(xù)的對(duì)Faster R-CNN靈活性和魯棒性的改進(jìn)(例如??)。這是目前在幾個(gè)基準(zhǔn)測(cè)試中領(lǐng)先的框架。

目標(biāo)分割:在R- CNN的有效性的推動(dòng)下,目標(biāo)分割的許多方法都是基于segment proposals的。先前的方法???依賴自下而上的分割?。 DeepMask?通過學(xué)習(xí)提出分割候選,然后使用Fast R-CNN分類。在這些方法中,分割先于識(shí)別,這樣做既慢又不太準(zhǔn)確。同樣,Dai等人提出了一個(gè)復(fù)雜的多級(jí)聯(lián)級(jí)聯(lián),從候選框中預(yù)測(cè)候選分割,然后進(jìn)行分類。相反,我們的方法并行進(jìn)行掩碼和類標(biāo)簽的預(yù)測(cè),更簡(jiǎn)單也更靈活。

最近,Li等人中的分割候選系統(tǒng)與中的目標(biāo)檢測(cè)系統(tǒng)進(jìn)行了“全卷積目標(biāo)分割”(FCIS)的融合。 在??中的共同想法是用全卷積得到一組位置敏感的輸出通道候選。這些通道同時(shí)處理目標(biāo)分類,目標(biāo)檢測(cè)和掩碼,這使系統(tǒng)速度變得更快。但FCIS在重疊實(shí)例上出現(xiàn)系統(tǒng)錯(cuò)誤,并產(chǎn)生虛假邊緣(圖5)。

Mask R-CNN

Mask R-CNN在概念上是簡(jiǎn)單的:Faster R-CNN為每個(gè)候選目標(biāo)輸出類標(biāo)簽和邊框偏移量。為此,我們添加了一個(gè)輸出目標(biāo)掩碼的第三個(gè)分支。因此,Mask R-CNN是一種自然而直觀的點(diǎn)子。但是,附加的掩碼輸出與類和框輸出不同,需要提取對(duì)象的更精細(xì)的空間布局。接下來,我們介紹Mask R-CNN的關(guān)鍵特點(diǎn),包括像素到像素對(duì)齊,這是Fast/Faster R-CNN的主要缺失。

Faster R-CNN:我們首先簡(jiǎn)要回顧一下Faster R-CNN檢測(cè)器。Faster R-CNN由兩個(gè)階段組成。稱為區(qū)域提議網(wǎng)絡(luò)(RPN)的第一階段提出候選目標(biāo)邊界框。第二階段,本質(zhì)上是Fast R-CNN?,使用RoIPool從每個(gè)候選框中提取特征,并進(jìn)行分類和邊界回歸。兩個(gè)階段使用的特征可以共享,以便更快的推理。可以參考,了解Faster R-CNN和其他框架之間的最新綜合比較。

Mask R-CNN:Mask R-CNN采用相同的兩個(gè)階段,具有相同的第一階段(即RPN)。在第二階段,與預(yù)測(cè)類和框偏移量并行,Mask R-CNN還為每個(gè)RoI輸出二進(jìn)制掩碼。這與最近的其它系統(tǒng)相反,其分類取依賴于掩碼預(yù)測(cè)(例如??)。我們的方法遵循Fast R-CNN [12],預(yù)測(cè)類和框偏移量并行(這在很大程度上簡(jiǎn)化了R-CNN的多級(jí)流水線)。

在訓(xùn)練期間,我們將在每個(gè)采樣后的RoI上的多任務(wù)損失函數(shù)定義為L=Lcls+Lbox+LmaskL=Lcls+Lbox+Lmask。分類損失LclsLcls和檢測(cè)框損失LboxLbox中定義的相同。掩碼分支對(duì)于每個(gè)RoI的輸出維度為Km2Km2,即KK個(gè)分辨率為m×mm×m的二進(jìn)制掩碼,每個(gè)類別一個(gè),KK表示類別數(shù)量。我們?yōu)槊總€(gè)像素應(yīng)用Sigmoid,并將LmaskLmask定義為平均二進(jìn)制交叉熵?fù)p失。對(duì)于真實(shí)類別為kk的RoI,僅在第kk個(gè)掩碼上計(jì)算LmaskLmask(其他掩碼輸出不計(jì)入損失)。

我們對(duì)LmaskLmask的定義允許網(wǎng)絡(luò)為每個(gè)類獨(dú)立地預(yù)測(cè)二進(jìn)制掩碼,這樣不會(huì)跨類別競(jìng)爭(zhēng)。我們依靠專用分類分支預(yù)測(cè)用于選擇輸出掩碼的類標(biāo)簽。這將解耦掩碼和類預(yù)測(cè)。這與通常將FCN?應(yīng)用于像素級(jí)Softmax和多重交叉熵?fù)p失的語義分段的做法不同。在這種情況下,掩碼將在不同類別之間競(jìng)爭(zhēng)。而我們的方法,使用了其它方法沒有的像素級(jí)的Sigmod和二進(jìn)制損失。我們通過實(shí)驗(yàn)發(fā)現(xiàn),這種方法是改善目標(biāo)分割效果的關(guān)鍵。

掩碼表示:掩碼表示輸入目標(biāo)的空間布局。因此,與通過全連接(fc)層不可避免地縮成短輸出向量的類標(biāo)簽或框偏移不同,提取掩碼的空間結(jié)構(gòu)可以通過由卷積提供的像素到像素對(duì)應(yīng)自然地被解決。

具體來說,我們使用FCN來為每個(gè)RoI預(yù)測(cè)一個(gè)m×mm×m的掩碼。這允許掩碼分支中的每個(gè)層顯式的保持m×mm×m的對(duì)象空間布局,而不會(huì)將其縮成缺少空間維度的向量表示。與以前使用fc層掩碼預(yù)測(cè)的的方法不同??,我們的全卷積表示需要更少的參數(shù),并且如實(shí)驗(yàn)所證明的更準(zhǔn)確。

這種像素到像素的行為需要RoI特征,它們本身就是小特征圖。為了更好地對(duì)齊,以準(zhǔn)確地保留顯式的像素空間對(duì)應(yīng)關(guān)系,我們開發(fā)出在掩模預(yù)測(cè)中發(fā)揮關(guān)鍵作用的以下RoIAlign層。

RoIAlign:RoIPool是從每個(gè)RoI提取小特征圖(例如,7×77×7)的標(biāo)準(zhǔn)操作。 RoIPool首先將浮點(diǎn)數(shù)表示的RoI縮放到與特征圖匹配的粒度,然后將縮放后的RoI分塊,最后匯總每個(gè)塊覆蓋的區(qū)域的特征值(通常使用最大池化)。例如,對(duì)在連續(xù)坐標(biāo)系上的xx計(jì)算[x/16][x/16],其中16是特征圖步幅,[?][?]表示四舍五入。同樣地,當(dāng)對(duì)RoI分塊時(shí)(例如7×77×7)時(shí)也執(zhí)行同樣的計(jì)算。這樣的計(jì)算使RoI與提取的特征錯(cuò)位。雖然這可能不會(huì)影響分類,因?yàn)榉诸悓?duì)小幅度的變換具有一定的魯棒性,但它對(duì)預(yù)測(cè)像素級(jí)精確的掩碼有很大的負(fù)面影響。

為了解決這個(gè)問題,我們提出了一個(gè)RoIAlign層,可以去除RoIPool的錯(cuò)位,將提取的特征與輸入準(zhǔn)確對(duì)齊。我們提出的改變很簡(jiǎn)單:我們避免避免計(jì)算過程中的四舍五入(比如,我們使用x/16x/16代替[x/16][x/16])。我們選取分塊中的4個(gè)常規(guī)的位置,使用雙線性插值來計(jì)算每個(gè)位置的精確值,并將結(jié)果匯總(使用最大或平均池化)。(我們抽取四個(gè)常規(guī)位置,以便我們可以使用最大或平均池化。事實(shí)上,在每個(gè)分塊中心取一個(gè)值(沒有池化)幾乎同樣有效。我們也可以為每個(gè)塊采樣超過四個(gè)位置,我們發(fā)現(xiàn)這些位置的收益遞減。)

如我們?cè)谥兴?#xff0c;RoIAlign的改進(jìn)效果明顯。我們還比較了中提出的RoIWarp操作。與RoIAlign不同,RoIWarp忽略了對(duì)齊問題,并在的實(shí)現(xiàn)中,有像RoIPool那樣的四舍五入計(jì)算。因此,即使RoIWarp也采用提到的雙線性重采樣,如實(shí)驗(yàn)所示(更多細(xì)節(jié)見表格2c),它與RoIPool效果差不多。這表明了對(duì)齊起到了關(guān)鍵的作用。

網(wǎng)絡(luò)架構(gòu):為了證明我們的方法的普適性,我們構(gòu)造了多種不同結(jié)構(gòu)的Mask R-CNN。詳細(xì)來說就是,我們使用不同的:(i)用于整個(gè)圖像上的特征提取的下層卷積網(wǎng)絡(luò),以及(ii)用于檢測(cè)框識(shí)別(分類和回歸)和掩碼預(yù)測(cè)的上層網(wǎng)絡(luò)。

我們使用”網(wǎng)絡(luò)-深度-特征輸出層”的方式命名底下層卷積網(wǎng)絡(luò)。我們?cè)u(píng)估了深度為50或101層的ResNet和ResNeXt網(wǎng)絡(luò)。使用ResNet的Faster R-CNN從第四階段的最終卷積層提取特征,我們稱之為C4。例如,使用ResNet-50的下層網(wǎng)絡(luò)由ResNet-50-C4表示。這是???中常用的選擇。

我們還探討了Lin等人?最近提出的另一種更有效的下層網(wǎng)絡(luò),稱為特征金字塔網(wǎng)絡(luò)(FPN)。 FPN使用具有橫旁路連接的自頂向下架構(gòu),以從單尺度輸入構(gòu)建網(wǎng)絡(luò)中的特征金字塔。使用FPN的Faster R-CNN根據(jù)其尺度提取不同級(jí)別的金字塔的RoI特征,不過其它部分和平常的ResNet類似。使用ResNet-FPN進(jìn)行特征提取的Mask R-CNN可以在精度和速度方面獲得極大的提升。有關(guān)FPN的更多細(xì)節(jié),參見

對(duì)于上層網(wǎng)絡(luò),我們基本遵循了以前論文中提出的架構(gòu),我們添加了一個(gè)全卷積的掩碼預(yù)測(cè)分支。具體來說,我們擴(kuò)展了 ResNet和FPN中提出的Faster R-CNN的上層網(wǎng)絡(luò)。詳細(xì)信息如下圖(圖3)所示:(上層網(wǎng)絡(luò)架構(gòu):我們擴(kuò)展了兩種現(xiàn)有的Faster R-CNN上層網(wǎng)絡(luò)架構(gòu)?,分別添加了一個(gè)掩碼分支。圖中數(shù)字表示分辨率和通道數(shù),箭頭表示卷積、反卷積或全連接層(可以通過上下文推斷,卷積減小維度,反卷積增加維度。)所有的卷積都是3×33×3的,除了輸出層,是1×11×1的。反卷積是2×22×2的,步進(jìn)為2,,我們?cè)陔[藏層中使用ReLU。左圖中,“res5”表示ResNet的第五階段,簡(jiǎn)單起見,我們修改了第一個(gè)卷積操作,使用7×77×7,步長(zhǎng)為1的RoI代替14×1414×14,步長(zhǎng)為2的RoI。右圖中的“×4×4”表示堆疊的4個(gè)連續(xù)的卷積。)

ResNet-C4的上層網(wǎng)絡(luò)包括ResNet的第五階段(即9層的“res5”),這是計(jì)算密集型的。對(duì)于FPN,下層網(wǎng)已經(jīng)包含了res5,因此可以使上層網(wǎng)絡(luò)包含更少的卷積核而變的更高效。

我們注意到我們的掩碼分支是一個(gè)非常簡(jiǎn)單的結(jié)構(gòu)。也許更復(fù)雜的設(shè)計(jì)有可能提高性能,但不是這項(xiàng)工作的重點(diǎn)。

實(shí)現(xiàn)細(xì)節(jié)

超參數(shù)的設(shè)置與現(xiàn)有的Fast/Faster R-CNN基本一致??。雖然這些設(shè)定是在原始論文中是用于目標(biāo)檢測(cè)的??,但是我們發(fā)現(xiàn)我們的目標(biāo)分割系統(tǒng)也是可以用。

訓(xùn)練:與Faster R-CNN中的設(shè)置一樣,如果RoI與真值框的IoU不小于0.5,則為正樣本,否則為負(fù)樣本。掩碼損失函數(shù)LmaskLmask僅在RoI的正樣本上定義。掩碼目標(biāo)是RoI及其對(duì)應(yīng)的真值框之間的交集的掩碼。

我們采用以圖像為中心的訓(xùn)練。圖像被縮放(較短邊)到800像素。批量大小為每個(gè)GPU2個(gè)圖像,每個(gè)圖像具有N個(gè)RoI采樣,正負(fù)樣本比例為1:3。 C4下層網(wǎng)絡(luò)的N為64(如?),FPN為512(如)。我們使用8個(gè)GPU訓(xùn)練(如此有效的批量大小為16)160k次迭代,學(xué)習(xí)率為0.02,在120k次迭代時(shí)學(xué)習(xí)率除以10。我們使用0.0001的權(quán)重衰減和0.9的動(dòng)量。

RPN錨點(diǎn)跨越5個(gè)尺度和3個(gè)縱橫比。為方便消融,RPN分開訓(xùn)練,不與Mask R-CNN共享特征。本文中的,RPN和Mask R-CNN具有相同的下層網(wǎng)絡(luò),因此它們是可共享的。

測(cè)試:在測(cè)試時(shí),C4下層網(wǎng)絡(luò)(如)中的候選數(shù)量為300,FPN為1000(如)。我們?cè)谶@些候選上執(zhí)行檢測(cè)框預(yù)測(cè)分支,然后執(zhí)行非極大值抑制。然后將掩碼分支應(yīng)用于評(píng)分最高100個(gè)檢測(cè)框。盡管這與訓(xùn)練中使用的并行計(jì)算不同,但它可以加速推理并提高精度(由于使用更少,更準(zhǔn)確的RoI)。掩碼分支可以預(yù)測(cè)每個(gè)RoI的KK個(gè)掩碼,但是我們只使用第kk個(gè)掩碼,其中kk是分類分支預(yù)測(cè)的類別。然后將m×mm×m浮點(diǎn)數(shù)掩碼輸出的大小調(diào)整為RoI大小,并使用閾值0.5將其二值化。

請(qǐng)注意,由于我們僅在前100個(gè)檢測(cè)框中計(jì)算掩碼,Mask R-CNN將邊緣運(yùn)行時(shí)間添加到其對(duì)應(yīng)的Faster R-CNN版本(例如,相對(duì)約20%)。

實(shí)驗(yàn):目標(biāo)分割

我們對(duì)Mask R-CNN與現(xiàn)有技術(shù)進(jìn)行徹底的比較,并且進(jìn)行了綜合的消融實(shí)驗(yàn)。我們的實(shí)驗(yàn)使用COCO數(shù)據(jù)集。我們報(bào)告標(biāo)準(zhǔn)的COCO指標(biāo),包括AP(平均超過IoU閾值),AP50AP50AP75AP75APSAPSAPMAPMAPLAPL(不同尺度的AP)。除非另有說明,使用掩碼IoU評(píng)估AP,這與?一樣。我們訓(xùn)練使用80k訓(xùn)練集和35k驗(yàn)證集的子集(trainval35k)的組合,并在剩下的5k個(gè)驗(yàn)證集子集(minival)上報(bào)告消融。我們還給出了test-dev [28]的結(jié)果,其沒有公開的標(biāo)簽。本文發(fā)布后,我們將根據(jù)建議把在test-std測(cè)試的完整結(jié)果上傳到公開排行榜。

主要結(jié)果

我們將Mask R-CNN與其它最先進(jìn)的目標(biāo)分割方法進(jìn)行比較,如下表(表1)所示:(COCO test-dev上的目標(biāo)分割掩碼AP。 MNC和FCIS分別是COCO 2015和2016分割挑戰(zhàn)的獲勝者。Mask R-CNN優(yōu)于更復(fù)雜的,包含多尺度訓(xùn)練和測(cè)試、水平翻轉(zhuǎn)測(cè)試的FCIS+++,和OHEM。所有條目都是單模型的結(jié)果。)

我們的模型的所有實(shí)例都勝過了先前最先進(jìn)的模型。此外,這些模型中的改進(jìn)也同樣可以應(yīng)用到Mask R-CNN中。

Mask R-CNN的輸出見下圖(圖2和圖4):

(圖2)Mask R-CNN在COCO測(cè)試集上的結(jié)果。這些結(jié)果基于ResNet-101,掩碼AP達(dá)到了35.7,并可以5FPS的速度運(yùn)行。掩碼標(biāo)記為彩色,并且標(biāo)記出了邊框、類別和置信度。

(圖4)Mask R-CNN在COCO測(cè)試集上更多的結(jié)果。使用ResNet-101-FPN,并可以35FPS運(yùn)行。掩碼AP為35.7(表1)。

Mask R-CNN取得了良好的效果。在下圖(圖5)中:

FCIS+++(上)對(duì)比 Mask R-CNN(下,ResNet-101-FPN)。 FCIS在重疊對(duì)象上有問題,Mask R-CNN沒問題。

消融實(shí)驗(yàn)

我們進(jìn)行了一些消融來分析Mask R-CNN。結(jié)果顯示在下表(表2)中(Mask R-CNN的消融。我們?cè)趖rainval35k上訓(xùn)練,在minival上測(cè)試,并報(bào)告掩碼AP,除非另有說明。),并在下面詳細(xì)討論。

結(jié)構(gòu):表2a顯示了具有各種使用不同下層網(wǎng)絡(luò)的Mask R-CNN。它受益于更深層次的網(wǎng)絡(luò)(50對(duì)比101)和高級(jí)設(shè)計(jì),包括FPN和ResNeXt(我們使用64×4d64×4d的普通的ResNeXt)。我們注意到并不是所有的框架都會(huì)從更深層次的或高級(jí)的網(wǎng)絡(luò)中自動(dòng)獲益(參見中的基準(zhǔn)測(cè)試)。

獨(dú)立與非獨(dú)立掩碼:Mask R-CNN解耦了掩碼和類預(yù)測(cè):由于現(xiàn)有的檢測(cè)框分支預(yù)測(cè)類標(biāo)簽,所以我們?yōu)槊總€(gè)類生成一個(gè)掩碼,而不會(huì)在類之間產(chǎn)生競(jìng)爭(zhēng)(通過像素級(jí)Sigmoid和二值化損失)。在表2b中,我們將其與使用像素級(jí)Softmax和非獨(dú)立損失的方法進(jìn)行比較(常用于FCN)。這些方法將掩碼和類預(yù)測(cè)的任務(wù)結(jié)合,導(dǎo)致了掩碼AP(5.5個(gè)點(diǎn))的嚴(yán)重?fù)p失。這表明,一旦目標(biāo)被歸類(通過檢測(cè)框分支),就可以預(yù)測(cè)二值化掩碼而不用擔(dān)心類別,這樣可以使模型更容易訓(xùn)練。

類相關(guān)與類無關(guān)掩碼:我們默認(rèn)預(yù)測(cè)類相關(guān)的掩碼,即每類一個(gè)m×mm×m掩碼。有趣的是,這種方法與具有類別無關(guān)掩碼的Mask R-CNN(即,預(yù)測(cè)單個(gè)m×mm×m輸出而不論是那一類)幾乎同樣有效:對(duì)于ResNet-50-C4掩碼AP為29.7,而對(duì)于類相關(guān)的對(duì)應(yīng)的模型AP為30.3 。這進(jìn)一步突出了我們的方法中的改進(jìn):解耦了分類和分割。

RoIAlign:表2c顯示了對(duì)我們提出的RoIAlign層的評(píng)估。對(duì)于這個(gè)實(shí)驗(yàn),我們使用的下層網(wǎng)絡(luò)為ResNet-50-C4,其步進(jìn)為16。RoIAlign相對(duì)RoIPool將AP提高了約3個(gè)點(diǎn),在高IoU(AP75AP75)結(jié)果中增益更多。 RoIAlign對(duì)最大/平均池化不敏感,我們?cè)诒疚牡钠溆嗖糠质褂闷骄鼗?/strong>

此外,我們與采用雙線性采樣的MNC [10]中提出的RoIWarp進(jìn)行比較。如所述,RoIWarp仍然四舍五入了RoI,與輸入失去了對(duì)齊。從表2c可以看出,RoIWarp與RoIPool效果差不多,比RoIAlign差得多。這突出表明正確的對(duì)齊是關(guān)鍵。

我們還使用ResNet-50-C5下層網(wǎng)絡(luò)評(píng)估了RoIAlign,其步進(jìn)更大,達(dá)到了32像素。我們使用與圖3(右)相同的上層網(wǎng)絡(luò),因?yàn)閞es5不適用。表2d顯示,RoIAlign將掩碼AP提高了7.3個(gè)點(diǎn),并將掩碼的AP75AP75?提高了10.5個(gè)點(diǎn)(相對(duì)改善了50%)。此外,我們注意到,與RoIAlign一樣,使用步幅為32的C5特征(30.9 AP)比使用步幅為16的C4特征(30.3 AP,表2c)更加精準(zhǔn)。 RoIAlign在很大程度上解決了使用大步進(jìn)特征進(jìn)行檢測(cè)和分割的長(zhǎng)期挑戰(zhàn)。

最后,當(dāng)與FPN一起使用時(shí),RoIAlign顯示出1.5個(gè)掩碼AP和0.5個(gè)檢測(cè)框AP的增益,FPN具有更精細(xì)的多級(jí)步長(zhǎng)。對(duì)于需要更精細(xì)對(duì)準(zhǔn)的關(guān)鍵點(diǎn)檢測(cè),即使使用FPN,RoIAlign也顯示出很大的增益(表6)。

掩碼分支:分割是一個(gè)像素到像素的任務(wù),我們使用FCN來利用掩碼的空間布局。在表2e中,我們使用ResNet-50-FPN下層網(wǎng)絡(luò)來比較多層感知機(jī)(MLP)和FCN。使用FCN可以提供超過MLP 2.1個(gè)點(diǎn)的AP增益。為了與與MLP進(jìn)行公平的比較,FCN的上層網(wǎng)絡(luò)的卷積層沒有被預(yù)訓(xùn)練。

目標(biāo)檢測(cè)結(jié)果

我們?cè)贑OCO數(shù)據(jù)集上將Mask R-CNN與其它最先進(jìn)的目標(biāo)檢測(cè)方法進(jìn)行比較,如下表(表3)所示:(目標(biāo)檢測(cè)結(jié)果(目標(biāo)邊界框AP),單模型,在test-dev上與其它最先進(jìn)的技術(shù)對(duì)比。使用ResNet-101-FPN的Mask R-CNN優(yōu)于所有先前最先進(jìn)的模型的基本變體(實(shí)驗(yàn)中忽略了掩碼輸出)。Mask R-CNN超過的增益來自使用RoIAlign(+1.1?APbbAPbb),多任務(wù)訓(xùn)練(+0.9?APbbAPbb)和ResNeXt-101(+1.6?APbbAPbb)。)

對(duì)于該結(jié)果,雖然完整的Mask R-CNN模型被訓(xùn)練,但是測(cè)試時(shí)僅使用分類和檢測(cè)的輸出(忽略掩碼輸出)。Mask R-CNN使用ResNet-101- FPN優(yōu)于所有先前最先進(jìn)的模型的基本變體,包括單模型的G-RMI的,COCO 2016目標(biāo)檢測(cè)挑戰(zhàn)的獲勝者。使用ResNeXt-101-FPN的Mask R-CNN進(jìn)一步改善了結(jié)果,其AP相對(duì)于使用單模型的前最佳結(jié)果(使用Inception-ResNet-v2-TDM) 提升了3個(gè)點(diǎn)。

作為進(jìn)一步的比較,我們訓(xùn)練了一個(gè)沒有掩碼分支版本的Mask R-CNN,見表3中的“Faster R-CNN,RoIAlign”。由于RoIAlign,該模型的性能優(yōu)于中提出的模型。但是,比Mask R-CNN低0.9個(gè)點(diǎn)的AP。這個(gè)差距這是由于Mask R-CNN的多任務(wù)訓(xùn)練產(chǎn)生的。

最后,我們注意到,Mask R-CNN在其掩碼和檢測(cè)框的AP之間的差距很小:例如,AP 37.1(掩碼,表1)與AP 39.8(檢測(cè)框,表3)之間的差距僅2.7個(gè)點(diǎn)。這表明我們的方法在很大程度上彌補(bǔ)了目標(biāo)檢測(cè)與更具挑戰(zhàn)性的目標(biāo)分割任務(wù)之間的差距。

速度

測(cè)試:我們訓(xùn)練一個(gè)ResNet-101-FPN模型,在RPN和Mask R-CNN階段之間共享特征,遵循Faster R-CNN的四階段訓(xùn)練。該模型在Nvidia Tesla M40 GPU上處理每個(gè)圖像需要195ms(加上15毫秒的CPU時(shí)間,用于將輸出的大小調(diào)整到原始分辨率),并且達(dá)到了與非共享特征模型相同的掩碼AP。我們還指出,ResNet-101-C4變體需要大約400ms,因?yàn)樗纳蠈幽P捅容^復(fù)雜(圖3),所以我們不建議在實(shí)踐中使用C4變體。

雖然Mask R-CNN很快,但我們注意到,我們的設(shè)計(jì)并沒有針對(duì)速度進(jìn)行優(yōu)化,可以實(shí)現(xiàn)更好的速度/精度平衡,例如,通過改變圖像尺寸和候選數(shù)量,這超出了本文的范圍。

訓(xùn)練:Mask R-CNN的訓(xùn)練也很快。在COCO trainval35k上使用ResNet-50-FPN進(jìn)行訓(xùn)練,我們的同步8 GPU實(shí)現(xiàn)(每個(gè)批次耗時(shí)0.72秒,包含16個(gè)圖像)需要32小時(shí),而ResNet-101-FPN需要44小時(shí)。事實(shí)上,快速原型可以在不到一天的時(shí)間內(nèi)在訓(xùn)練集上進(jìn)行訓(xùn)練。我們希望這樣快速的訓(xùn)練將會(huì)消除這一領(lǐng)域的重大障礙,并鼓勵(lì)更多的人對(duì)這個(gè)具有挑戰(zhàn)性的課題進(jìn)行研究。

Mask R-CNN人體姿態(tài)估計(jì)

我們的框架可以很容易地?cái)U(kuò)展到人類姿態(tài)估計(jì)。我們將關(guān)鍵點(diǎn)的位置建模為one-hot掩碼,并采用Mask R-CNN來預(yù)測(cè)KK個(gè)掩碼,每個(gè)對(duì)應(yīng)KK種關(guān)鍵點(diǎn)類型之一(例如左肩,右肘)。此任務(wù)有助于展示Mask R-CNN的靈活性。

我們注意到,我們的系統(tǒng)利用了人類姿態(tài)的最小領(lǐng)域知識(shí),因?yàn)閷?shí)驗(yàn)主要是為了證明Mask R-CNN框架的一般性。我們期望領(lǐng)域知識(shí)(例如,建模結(jié)構(gòu))將是我們簡(jiǎn)單方法的補(bǔ)充,但這超出了本文的范圍。

實(shí)現(xiàn)細(xì)節(jié):在適配關(guān)鍵點(diǎn)時(shí),我們對(duì)分割系統(tǒng)進(jìn)行細(xì)微的修改。對(duì)于目標(biāo)的KK個(gè)關(guān)鍵點(diǎn)中的每一個(gè),訓(xùn)練目標(biāo)是一個(gè)one-hot的m×mm×m二進(jìn)制掩碼,其中只有一個(gè)像素被標(biāo)記為前景。在訓(xùn)練期間,對(duì)于每個(gè)可視的關(guān)鍵點(diǎn)真實(shí)值,我們最小化在m2m2路Softmax輸出上的交叉熵?fù)p失(這驅(qū)使一個(gè)點(diǎn)被檢測(cè)到)。我們注意到,和目標(biāo)分割一樣,K個(gè)關(guān)鍵點(diǎn)的檢測(cè)仍然是獨(dú)立對(duì)待的。

我們采用ResNet-FPN的變體,關(guān)鍵點(diǎn)檢測(cè)的上層架構(gòu)類似于圖3(右圖),由八個(gè)堆疊的3×33×3?512-d卷積層,后面是一個(gè)反卷積層進(jìn)行2×雙線性上采樣,產(chǎn)生分辨率56×5656×56的輸出。我們發(fā)現(xiàn)相對(duì)較高的分辨率輸出(與掩碼相比)是關(guān)鍵點(diǎn)級(jí)精確定位所必需的。

我們使用包含關(guān)鍵點(diǎn)標(biāo)注的COCO trainval35k圖像訓(xùn)練模型。由于訓(xùn)練集較小,為了減少過擬合,我們訓(xùn)練時(shí)將圖像在[640,800][640,800]范圍內(nèi)隨機(jī)縮放,測(cè)試則統(tǒng)一縮放到800像素。我們的訓(xùn)練迭代90k次,從0.02的學(xué)習(xí)率開始,并在迭代次數(shù)達(dá)到60k和80k次時(shí)將學(xué)習(xí)率除以10。檢測(cè)框的非極大值抑制閾值為0.5。其他實(shí)現(xiàn)細(xì)節(jié)與相同。

人體姿態(tài)估計(jì)實(shí)驗(yàn):使用ResNet-50-FPN評(píng)估人體關(guān)鍵點(diǎn)的AP(APkpAPkp)。我們也嘗試了ResNet-101,不過效果差不多,可能是因?yàn)楦顚哟蔚哪P托枰嗟挠?xùn)練數(shù)據(jù),但是這個(gè)數(shù)據(jù)集相對(duì)較小。

如下表(表4)所示:(COCO test-dev 上的關(guān)鍵點(diǎn)檢測(cè)AP。我們的(ResNet-50-FPN)模型是以5 FPS的速度運(yùn)行的單模型。 CMU-Pose+++是2016年度的優(yōu)勝者,使用多尺度測(cè)試,CPM進(jìn)行后處理,并使用目標(biāo)檢測(cè)進(jìn)行過濾,提高了約5個(gè)點(diǎn)(與作者溝通確認(rèn))。 ?:G-RMI使用兩種模型(Inception-ResNet-v2 + ResNet-101),用COCO加MPII(25k圖像)進(jìn)行訓(xùn)練。由于他們使用了更多的數(shù)據(jù),無法直接與Mask R-CNN進(jìn)行比較。)

我們的結(jié)果(62.7?APkpAPkp)比使用多級(jí)處理流水線的COCO 2016關(guān)鍵點(diǎn)檢測(cè)獲勝者高出0.9個(gè)點(diǎn)。我們的方法要簡(jiǎn)單得多,速度更快。

更重要的是,我們用一個(gè)統(tǒng)一的模型,可以5 FPS的速度同時(shí)做目標(biāo)檢測(cè)、目標(biāo)分割和關(guān)鍵點(diǎn)檢測(cè)。添加目標(biāo)分割分支(針對(duì)人員類別)將test-dev上的APkpAPkp提升到63.1(表4)。更多在minival上的多任務(wù)學(xué)習(xí)的消除在下表(表5)中:(目標(biāo)檢測(cè)、目標(biāo)分割和關(guān)鍵點(diǎn)檢測(cè)的多任務(wù)學(xué)習(xí),在minival上的測(cè)試。為了公平起見,所有的模型都使用相同的訓(xùn)練數(shù)據(jù)。下層網(wǎng)絡(luò)是ResNet-50-FPN。 第三行在minival上64.2 AP,在test-dev上62.7 AP。第四行在minival上64.7 AP,在test-dev上有63.1 AP,見表4。)

將掩碼分支添加到僅做目標(biāo)檢測(cè)(如,Faster R-CNN)或僅檢測(cè)關(guān)鍵點(diǎn)的網(wǎng)絡(luò)上也會(huì)改進(jìn)這些任務(wù)的準(zhǔn)確率。然而,添加關(guān)鍵點(diǎn)分支會(huì)輕微降低目標(biāo)檢測(cè)/目標(biāo)分割的AP,關(guān)鍵點(diǎn)檢測(cè)會(huì)從多任務(wù)訓(xùn)練中獲益,但它不會(huì)改善其他任務(wù)的準(zhǔn)確率。然而,共同學(xué)習(xí)所有三個(gè)任務(wù)可以使統(tǒng)一的系統(tǒng)同時(shí)有效地預(yù)測(cè)所有輸出,如下圖(圖6)所示:(使用Mask R-CNN(ResNet-50-FPN)在COCO test上的關(guān)鍵點(diǎn)檢測(cè)結(jié)果,該模型也同時(shí)輸出目標(biāo)分割結(jié)果。其關(guān)鍵點(diǎn)檢測(cè)的AP為63.1,運(yùn)行速度為5 FPS。)。

我們還調(diào)查了RoIAlign對(duì)關(guān)鍵點(diǎn)檢測(cè)的影響,如下表(表6)所示:(RoIAlign與RoIPool在minival上關(guān)鍵點(diǎn)檢測(cè)。)

盡管這款ResNet-50-FPN下層網(wǎng)絡(luò)有較小的步進(jìn)(例如,最小步進(jìn)為4像素),但RoIAlign相對(duì)RoIPool仍然有明顯的改進(jìn),并將APkpAPkp提高了4.4個(gè)點(diǎn)。這是因?yàn)殛P(guān)鍵點(diǎn)檢測(cè)對(duì)定位精度更敏感。這再次表明對(duì)齊對(duì)像素級(jí)定位是至關(guān)重要的,包括掩碼和關(guān)鍵點(diǎn)。

鑒于Mask R-CNN提取目標(biāo)框,掩碼和關(guān)鍵點(diǎn)的有效性,我們期望它也可以成為其它目標(biāo)級(jí)任務(wù)的有效框架。

Cityscapes上的實(shí)驗(yàn)

我們進(jìn)一步報(bào)告Cityscapes [7]數(shù)據(jù)集的目標(biāo)分割結(jié)果。該數(shù)據(jù)集具有精細(xì)標(biāo)注的2975個(gè)訓(xùn)練圖像,500個(gè)驗(yàn)證圖像和1525個(gè)測(cè)試圖像。它還有20k粗糙的訓(xùn)練圖像,無精細(xì)標(biāo)注,我們不使用它們。所有圖像的分辨率為2048 x 1024像素。目標(biāo)分割任務(wù)涉及8個(gè)對(duì)象類別,其訓(xùn)練集中的目標(biāo)數(shù)為:

人騎手小汽車卡車公交車火車摩托車自行車17.9k1.8k26.9k0.5k0.4k0.2k0.7k3.7k

該任務(wù)的目標(biāo)分割性能由和COCO一樣的掩碼AP(在IoU閾值上平均)來測(cè)量,也包括AP50AP50(即,IoU為0.5的掩碼AP)。

實(shí)現(xiàn):我們Mask R-CNN模型使用的下層網(wǎng)絡(luò)是ResNet-FPN-50,我們也測(cè)試了對(duì)應(yīng)的101層的網(wǎng)絡(luò),不過由于數(shù)據(jù)集比較小,性能相似。我們將圖像在[8001024][800,1024]像素范圍內(nèi)隨機(jī)縮放(較短邊)進(jìn)行訓(xùn)練,從而減少過擬合。測(cè)試時(shí)則統(tǒng)一縮放到1024像素。我們使用的批量大小為每個(gè)GPU 1個(gè)圖像(實(shí)際上8個(gè)GPU上有8個(gè)),學(xué)習(xí)率為0.01,迭代次數(shù)為24k,在迭代次數(shù)達(dá)到18k時(shí),學(xué)習(xí)率減少到0.001。其他實(shí)現(xiàn)細(xì)節(jié)與相同。

結(jié)果:我們?cè)跍y(cè)試集和驗(yàn)證集上,將我們的結(jié)果與其它主流方法進(jìn)行了比較,如下表(表7)所示:

在不使用無精細(xì)標(biāo)注的訓(xùn)練集的情況下,我們的方法在測(cè)試集上的AP達(dá)到了26.2,相對(duì)于以前的最佳結(jié)果(使用了所有的訓(xùn)練集),相對(duì)提升了超過30%。與僅使用精細(xì)標(biāo)注訓(xùn)練集(17.4 AP)的前最佳結(jié)果相比,相對(duì)提升了約50%。在一臺(tái)8 GPU的機(jī)器上需要約4個(gè)小時(shí)的訓(xùn)練才能獲得此結(jié)果。

對(duì)于人和小汽車類別,Cityscapes數(shù)據(jù)集包含了大量的類內(nèi)重疊目標(biāo)(每個(gè)圖像平均6人和9輛小汽車)。我們認(rèn)為類內(nèi)重疊是目標(biāo)分割的核心難點(diǎn)。我們的方法在這兩個(gè)類別相對(duì)前最佳結(jié)果有大幅度改善(人相對(duì)提升了約85%,從16.5提高到30.5,小汽車相對(duì)提升了約30%,從35.7提高到46.9)。

Cityscapes數(shù)據(jù)集的主要挑戰(zhàn)是訓(xùn)練數(shù)據(jù)較少,特別是對(duì)于卡車,公共汽車和火車的類別,每個(gè)類別的訓(xùn)練樣本大約有200-500個(gè)。為了在一定程度上改善這個(gè)問題,我們進(jìn)一步報(bào)告了使用COCO預(yù)訓(xùn)練的結(jié)果。為了做到這一點(diǎn),我們使用預(yù)先訓(xùn)練好的COCO Mask R-CNN模型(騎手類別被隨機(jī)初始化)。然后我們?cè)贑ityscapes數(shù)據(jù)集上進(jìn)行4k次迭代來微調(diào)這個(gè)模型,其中學(xué)習(xí)速率在迭代次數(shù)達(dá)到3k時(shí)減少,微調(diào)需要約1小時(shí)。

使用COCO預(yù)訓(xùn)練的Mask R-CNN模型在測(cè)試集上達(dá)到了32.0 AP,比不預(yù)訓(xùn)練的模型提高了6個(gè)點(diǎn)。這表明足夠的訓(xùn)練數(shù)據(jù)的重要性。同時(shí),在Cityscapes數(shù)據(jù)集上的目標(biāo)分割還收到其low-shot學(xué)習(xí)性能的影響。我們發(fā)現(xiàn),使用COCO預(yù)訓(xùn)練是減輕涉及此數(shù)據(jù)集的數(shù)據(jù)數(shù)據(jù)偏少問題的有效策略。

最后,我們觀察到測(cè)試集和訓(xùn)練集AP之間的偏差,從?的結(jié)果也可以看出。我們發(fā)現(xiàn)這種偏差主要是由卡車,公共汽車和火車類別造成的,其中只使用精細(xì)標(biāo)注訓(xùn)練數(shù)據(jù)的模型,在驗(yàn)證集和測(cè)試集上的AP分別為28.8/22.8,53.5/32.2和33.0/18.6。這表明這些訓(xùn)練數(shù)據(jù)很少的類別存在domain shift。 COCO預(yù)訓(xùn)練有助于改善這些類別上的結(jié)果,然而,domain shift依然存在,在驗(yàn)證集和測(cè)試集上的AP分別為38.0/30.1,57.5/40.9和41.2/30.9。不過,對(duì)于人和小汽車類別,我們沒有看到任何此類偏差(在驗(yàn)證集和測(cè)試集上的AP偏差在±1以內(nèi))。

Cityscapes的結(jié)果示例如下圖(圖7)所示:(Mask R-CNN在Cityscapes的測(cè)試結(jié)果(32.0 AP)。右下圖出錯(cuò)。)

參考文獻(xiàn)

R. Girshick. Fast R-CNN. In ICCV, 2015.???????????

S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.????????

J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.????

K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV. 2014.??

T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014.??

R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.???

J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013.??

J. Hosang, R. Benenson, P. Dollár, and B. Schiele. What makes for effective detection proposals? PAMI, 2015.?

Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989.?

A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012.?

A. Shrivastava, A. Gupta, and R. Girshick. Training regionbased object detectors with online hard example mining. In CVPR, 2016.??

T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.??????????????

J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. In CVPR, 2017.??????

B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In ECCV. 2014.?

B. Hariharan, P. Arbeláez, R. Girshick, and J. Malik. Hyper-columns for object segmentation and fine-grained localization. In CVPR, 2015.?

J. Dai, K. He, and J. Sun. Convolutional feature masking for joint object and stuff segmentation. In CVPR, 2015.?

P. Arbeláez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik. Multiscale combinatorial grouping. In CVPR, 2014.?

P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to segment object candidates. In NIPS, 2015.???

P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollár. Learning to refine object segments. In ECCV, 2016.??

J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016.???

J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. In CVPR, 2016.???????

Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional instance-aware semantic segmentation. In CVPR, 2017.?????

J. Dai, Y. Li, K. He, and J. Sun. R-FCN: Object detection via region-based fully convolutional networks. In NIPS, 2016.??

M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In NIPS, 2015.??

K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.????????

S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He. Aggregated residual transformations for deep neural networks. In CVPR, 2017.?

A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta. Beyond skip connections: Top-down modulation for object detection. arXiv:1612.06851, 2016.??

V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010.?

R. Girshick, F. Iandola, T. Darrell, and J. Malik. Deformable part models are convolutional neural networks. In CVPR, 2015.?

S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016.?

Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multi-person 2d pose estimation using part affinity fields. In CVPR, 2017.???

S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016.?

M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele. 2D human pose estimation: New benchmark and state of the art analysis. In CVPR, 2014.?

A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and C. Rother. Instancecut: from edges to instances with multicut. In CVPR, 2017.?

M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. In CVPR, 2017.?




總結(jié)

以上是生活随笔為你收集整理的Mask RcNN论文翻译的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。