Salient Image Matting
生活随笔
收集整理的這篇文章主要介紹了
Salient Image Matting
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Salient Image Matting
論文鏈接:https://arxiv.org/abs/2103.12337
發(fā)表出處:2021 CVPR
一.背景
在現(xiàn)實(shí)世界的摳圖中,前景對(duì)象可以出現(xiàn)在與訓(xùn)練數(shù)據(jù)非常不同的設(shè)置中,而且圖像內(nèi)容往往會(huì)有很大的變化,因此捕獲圖像中的高級(jí)語(yǔ)義特征始終需要在大量數(shù)據(jù)上訓(xùn)練模型。目前,大多數(shù)的trimap-free方法很大程度上依賴于昂貴的alpha注釋來(lái)學(xué)習(xí)這樣的變化,但是注釋是昂貴且費(fèi)時(shí)的,所以大多數(shù)當(dāng)前的trimap-free方法要么只關(guān)注人類,要么在處理看不見的對(duì)象類方面也有困難。
所以為了處理圖像中大量的語(yǔ)義多樣性,通常仍然需要使用trimap,因?yàn)樗鼮閾笀D過(guò)程提供了對(duì)象語(yǔ)義方面的重要指導(dǎo)
二.內(nèi)容
針對(duì)上面的問題,文章提出了一個(gè)框架,該框架可以利用廉價(jià)的低質(zhì)量注釋來(lái)學(xué)習(xí)健壯的語(yǔ)義特征,并利用一部分高質(zhì)量注釋來(lái)學(xué)習(xí)低級(jí)特征,能夠?yàn)榇蠓秶那熬皩?duì)象以及前景類出現(xiàn)在與來(lái)自RGB輸入的訓(xùn)練數(shù)據(jù)不同的上下文的情況生成準(zhǔn)確的alpha mattes
該框架被稱為SIM(Salient Image Matting),它使用一種新穎的Salient Trimap Network,能夠產(chǎn)生圖像中最顯著對(duì)象的trimap。Salient Trimap Network(STN)基于粗標(biāo)注生成的trimap和簡(jiǎn)單的trimap生成方案進(jìn)行訓(xùn)練。這種訓(xùn)練允許trimap網(wǎng)絡(luò)精確地產(chǎn)生各種前景的trimap,并且對(duì)自然圖像中的大的語(yǔ)義變化是魯棒的。
然后,STN的輸出被饋送到一個(gè)摳圖網(wǎng)絡(luò),用于細(xì)化低層語(yǔ)義。
通過(guò)decouple這些特征的學(xué)習(xí),能夠?yàn)樾枰Z(yǔ)義信息的摳圖網(wǎng)絡(luò)提供指導(dǎo),而無(wú)需用戶為任意前景對(duì)象生成trimap。
此外,對(duì)于圖像摳圖任務(wù),本文提出了一種新的結(jié)構(gòu),該結(jié)構(gòu)比用于摳圖的普通編碼器-解碼器結(jié)構(gòu)具有更好的多尺度特征表示,以更有效地學(xué)習(xí)低級(jí)特征。
三.方法
1.網(wǎng)絡(luò)概述
為了分別捕捉高層次和低層次的特征,本文在提出的特征模型框架中使用了兩個(gè)子網(wǎng)絡(luò),一個(gè)Salient Trimap Network (STN)和一個(gè)摳圖網(wǎng)絡(luò)。這種分離允許SIM使用大量的粗注釋數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)義特征。STN產(chǎn)生分別代表背景、未知區(qū)域和前景的三通道輸出。摳圖網(wǎng)絡(luò)隨后從STN中獲取intrinsic trimap以及原始輸入,并預(yù)測(cè)一個(gè)單通道alpha matte image。然后,融合兩個(gè)子網(wǎng)絡(luò)的輸出,以產(chǎn)生最終的alpha matte。SIM的工作流程如圖所示。同時(shí),本文還引入了一個(gè)多尺度塊:DensePN,它作用于來(lái)自編碼器的特征金字塔。
2.自適應(yīng)trimap生成方案
為了訓(xùn)練STN,本文需要ground truths trimap,由于成本高昂,本文收集粗糙注釋的segmentation masks,然后構(gòu)造一個(gè)方案,以最好地從這些粗糙masks中生成trimaps。
由于收集的數(shù)量較大,所以圖像的大小和前景對(duì)象的大小有很大的差異并且前景和背景區(qū)域的顏色有時(shí)也非常相似,所以常見的trimap生成方案(如腐蝕膨脹和基于顏色信息的方案)會(huì)導(dǎo)致不準(zhǔn)確的不確定區(qū)域。
為此,本文開發(fā)了一個(gè)簡(jiǎn)單但健壯的trimap生成方案,該方案考慮了對(duì)象的大小和對(duì)象的特征,如頭發(fā)和毛發(fā),以從這種粗糙的Mask生成trimap。為此,本文將粗糙Mask的邊界像素分為三類:毛發(fā)、毛發(fā)和實(shí)體,然后分別進(jìn)行擴(kuò)張。分類如下:
(1)對(duì)于人類的頭發(fā)等,在圖像上先應(yīng)用最先進(jìn)的人類解析網(wǎng)絡(luò)得到頭發(fā)和身體區(qū)域的mask。mask然后被轉(zhuǎn)換為只有2類:頭發(fā)和非頭發(fā)
(2)在有動(dòng)物或毛絨玩具的圖像中,所有的邊界像素都被標(biāo)記為皮毛像素
(3)如果一個(gè)像素沒有被檢測(cè)為毛發(fā)或皮毛,那么它被標(biāo)記為一個(gè)實(shí)體像素
在粗糙圖像masks上定義一個(gè)度量D作為顯著對(duì)象大小的度量。hair, fur and solid pixels分別放大D的3.5%、2.5%和1.5%。
生成的效果如下圖所示:
3.Salient Trimap Network
用于alpha matting的圖像往往含有很大的語(yǔ)義多樣性,所以本文利用Salient Trimap Network (STN)來(lái)預(yù)測(cè)最顯著前景區(qū)域的trimap,而不是依賴于外部輸入。
STN的輸出是3通道分類輸出,是絕對(duì)背景、未知區(qū)域和絕對(duì)前景區(qū)域的概率估計(jì),STN可以基于任何顯著性對(duì)象檢測(cè)架構(gòu)。
本文選擇使用基于U2Net 的體系結(jié)構(gòu),因?yàn)樗軌蛴行У夭蹲綔?zhǔn)確的語(yǔ)義。U2Net 的nested U-structure和residual U-blocks使得網(wǎng)絡(luò)能夠在不顯著降低feature map分辨率的情況下獲得多尺度特征,這有助于STN更好地對(duì)前景、背景和未知區(qū)域之間的語(yǔ)義進(jìn)行分類。
4.摳圖網(wǎng)絡(luò)
(1)網(wǎng)絡(luò)設(shè)計(jì)
編碼器-解碼器架構(gòu)只有一個(gè)自下而上的路徑,限制了來(lái)自豐富的低層特征和深層語(yǔ)義特征的信息流。所以本文創(chuàng)建了一個(gè)可重復(fù)的金字塔層,稱為DensePN,它具有并行的多分辨率流,并豐富了其他多分辨率特性。
如圖所示,每個(gè)流都是一個(gè)DenseBlock,后面是融合層,融合層使所有流的都達(dá)到相同的分辨率,并執(zhí)行1×1卷積。
重復(fù)卷積和融合塊允許在每個(gè)分辨率級(jí)別豐富的多尺度特征。最后,所有的流在最終的prediction head被合并以預(yù)測(cè)alpha matte。本文使用ResNet34 作為編碼器。
(2)融合
摳圖網(wǎng)絡(luò)僅在由intrinsic trimap建議的不確定區(qū)域中產(chǎn)生具有精確值的alpha matte,所以利用以下公式將STN和摳圖模型的輸出進(jìn)行融合:
其中,F、B和U表示STN和預(yù)測(cè)的前景、背景和未知區(qū)域概率圖,αm表示摳圖網(wǎng)絡(luò)輸出。
5.損失函數(shù)
(1)STN Loss
使用每個(gè)像素上的標(biāo)準(zhǔn)交叉熵?fù)p耗
(2)Matting Loss
應(yīng)用alpha預(yù)測(cè)損失和合成損失的組合,還應(yīng)用拉普拉斯損失來(lái)進(jìn)一步提高網(wǎng)絡(luò)的性能:
(3)Joint Loss
其中FS是groundtruth foreground map,而1^是指示函數(shù)。這種軟L1約束允許聯(lián)合網(wǎng)絡(luò)針對(duì)兩個(gè)模型之間微妙的低層次和高層次特征融合進(jìn)行優(yōu)化,并且還防止STN忘記其語(yǔ)義豐富的特征。
四.實(shí)驗(yàn)結(jié)果
1.與基于trimap方法的比較
2.與自動(dòng)摳圖方法的比較
3.視覺效果對(duì)比
總結(jié)
以上是生活随笔為你收集整理的Salient Image Matting的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linpack安装
- 下一篇: qtabwidget右键菜单_Qt5 添