日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

opencv 图像 抠图 算法_人工智能 | 不用绿幕也能实时抠图,商汤等提出只需单张图像、单个模型的新方法MODNet...

發(fā)布時(shí)間:2024/9/3 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 opencv 图像 抠图 算法_人工智能 | 不用绿幕也能实时抠图,商汤等提出只需单张图像、单个模型的新方法MODNet... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

openEA開(kāi)源周刊

openEA開(kāi)源社區(qū)的官方運(yùn)營(yíng)載體

這里每天給大家呈現(xiàn)有價(jià)值的開(kāi)源資訊,歡迎您的來(lái)稿與推薦,點(diǎn)擊上方藍(lán)色字,加入我們吧!

摘要:近日,香港城市大學(xué)和商湯提出一種新型人像摳圖方法 MODNet,不用綠幕、只用單張圖像、單個(gè)模型即可實(shí)時(shí)完成人像摳圖。

openEA開(kāi)源社區(qū)(ID:openEA)| 出品

小夕? | 編輯

機(jī)器之心? | 來(lái)源

選自arXiv

作者:Zhanghan Ke 等沒(méi)有綠幕怎么摳圖?此前,華盛頓大學(xué)的研究人員提出用背景圖替換 trimap,不用綠幕也能實(shí)現(xiàn)不錯(cuò)的摳圖結(jié)果。但該方法需要處理和對(duì)齊原始圖像和背景圖兩張圖像,不便于現(xiàn)實(shí)應(yīng)用。近日,香港城市大學(xué)和商湯提出一種新型人像摳圖方法 MODNet,不用綠幕、只用單張圖像、單個(gè)模型即可實(shí)時(shí)完成人像摳圖。人像摳圖即預(yù)測(cè)一個(gè)精確的前景蒙版(alpha matte),然后利用它從給定圖像或視頻中提取人物。這一技術(shù)得到了廣泛的應(yīng)用,如照片編輯、電影再創(chuàng)作等。目前,實(shí)時(shí)獲得高質(zhì)量前景蒙版仍需要綠幕的輔助。但如果沒(méi)有綠幕呢?目前大部分摳圖方法使用預(yù)定義 trimap 作為先驗(yàn)。但,trimap 需要人類(lèi)標(biāo)注,所需成本高昂,并且如果是通過(guò)深度相機(jī)捕獲,還會(huì)出現(xiàn)低精度問(wèn)題。因此,近期的一些工作嘗試消除模型對(duì) trimap 的依賴(lài),即 trimap-free 方法。例如,華盛頓大學(xué)提出的?background matting?方法用分離背景圖像來(lái)替代 trimap。其他方法使用多個(gè)模型先生成偽 trimap 或語(yǔ)義掩碼,然后將其作為先驗(yàn)進(jìn)行前景蒙版預(yù)測(cè)。但使用背景圖像作為輸入需要輸入并對(duì)齊兩張圖像,使用多個(gè)模型會(huì)使推斷時(shí)間顯著增加。這些缺陷使得前述所有摳圖方法不適用于現(xiàn)實(shí)應(yīng)用,如相機(jī)預(yù)覽。此外,受到標(biāo)注訓(xùn)練數(shù)據(jù)不足的限制,trimap-free 方法在實(shí)踐中常遇到域偏移問(wèn)題,即模型無(wú)法很好地泛化至現(xiàn)實(shí)數(shù)據(jù)。能不能只用一個(gè)模型、一張 RGB 圖像,來(lái)預(yù)測(cè)精確的前景蒙版呢?最近,香港城市大學(xué)和商湯合作提出了一種輕量級(jí)網(wǎng)絡(luò) MODNet,它將人像摳圖任務(wù)分解成三個(gè)相關(guān)的子任務(wù),并通過(guò)特定約束執(zhí)行同步優(yōu)化。先來(lái)看一下 MODNet 的摳圖效果:

MODNet 模型背后存在兩種洞見(jiàn):一,神經(jīng)網(wǎng)絡(luò)更擅長(zhǎng)學(xué)習(xí)一組簡(jiǎn)單目標(biāo),而不是一個(gè)復(fù)雜目標(biāo)。因此,解決多個(gè)摳圖子目標(biāo)可以實(shí)現(xiàn)更好的性能。二,對(duì)每個(gè)子目標(biāo)應(yīng)用顯式監(jiān)督信號(hào),可以使模型的不同部分學(xué)習(xí)解耦的知識(shí),從而實(shí)現(xiàn)一個(gè)模型解決所有子目標(biāo)。為了克服域遷移問(wèn)題,該研究基于子目標(biāo)一致性 (SOC) 提出了一種自監(jiān)督策略,即利用子目標(biāo)之間的一致性來(lái)減少預(yù)測(cè)前景蒙版中的偽影。此外,該研究還提出單幀延遲 (OFD) trick 這種后處理方法,以在視頻摳圖應(yīng)用中獲得更流暢的輸出。MODNet 框架參見(jiàn)下圖:

相比 trimap-free 方法,MODNet 具備以下優(yōu)勢(shì):
  • MODNet 更快:它專(zhuān)為實(shí)時(shí)應(yīng)用而設(shè)計(jì),輸入大小為 512 × 512 時(shí),MODNet 在 Nvidia GTX 1080Ti GPU 上的運(yùn)行速度為 63 fps;

  • MODNet 獲得了新的 SOTA 結(jié)果,原因在于:1)目標(biāo)分解和同步優(yōu)化;2)對(duì)每個(gè)子目標(biāo)應(yīng)用特定的監(jiān)督信號(hào);

  • MODNet 具備更好的泛化能力,這得益于 SOC 策略。

盡管 MODNet 的結(jié)果沒(méi)有超過(guò)那些基于 trimap 的方法,但實(shí)驗(yàn)表明 MODNet 在實(shí)際應(yīng)用中更加穩(wěn)定,原因就在于其移除了 trimap 輸入。該方法對(duì)實(shí)時(shí)人像摳圖任務(wù)中綠幕的必要性提出了挑戰(zhàn)。現(xiàn)有開(kāi)源人像摳圖數(shù)據(jù)集的規(guī)模或精度均有一定限制,之前很多研究是在質(zhì)量和難度等級(jí)不同的私人數(shù)據(jù)集上進(jìn)行模型訓(xùn)練和驗(yàn)證的。這就使得不同方法的對(duì)比變得困難。而這項(xiàng)研究在統(tǒng)一的標(biāo)準(zhǔn)下評(píng)估現(xiàn)有的 trimap-free 方法:所有模型均在相同數(shù)據(jù)集上訓(xùn)練完成,并在來(lái)自 Adobe Matting 數(shù)據(jù)集和該研究提出的新基準(zhǔn)數(shù)據(jù)集的人像數(shù)據(jù)中執(zhí)行驗(yàn)證。研究人員表示,他們提出的新基準(zhǔn)完成了高質(zhì)量標(biāo)注,多樣性也優(yōu)于之前的基準(zhǔn),因而能夠更全面地反映出摳圖性能??傊?#xff0c;這項(xiàng)研究提出了新型網(wǎng)絡(luò)架構(gòu) MODNet,可實(shí)時(shí)完成 trimap-free 人像摳圖。研究者還提出了兩項(xiàng)技術(shù) SOC 和 OFD,使 MODNet 能夠很好地泛化至新的數(shù)據(jù)領(lǐng)域,視頻摳圖質(zhì)量更加平滑。此外,該研究還構(gòu)建了新的人像摳圖驗(yàn)證基準(zhǔn)數(shù)據(jù)集。MODNet 方法基于多個(gè)模型的方法表明,「將 trimap-free 摳圖看作 trimap 預(yù)測(cè)(分割)步驟加上基于 trimap 的摳圖步驟」能夠?qū)崿F(xiàn)更好性能。這表明,神經(jīng)網(wǎng)絡(luò)從分解復(fù)雜目標(biāo)中受益。于是,該研究將這一思路繼續(xù)擴(kuò)展,將 trimap-free 摳圖目標(biāo)分解為語(yǔ)義估計(jì)、細(xì)節(jié)預(yù)測(cè)和語(yǔ)義 - 細(xì)節(jié)融合三個(gè)子目標(biāo)。直觀來(lái)看,語(yǔ)義估計(jì)輸出粗糙的前景掩碼,細(xì)節(jié)預(yù)測(cè)生成細(xì)粒度的前景邊界,而語(yǔ)義 - 細(xì)節(jié)融合則將這二者的特征進(jìn)行混合。如圖 2 所示,MODNet 包含三個(gè)分支,每一個(gè)均通過(guò)特定約束學(xué)習(xí)不同的子目標(biāo)。具體而言:
  • 低分辨率分支用于估計(jì)人類(lèi)語(yǔ)義(監(jiān)督信號(hào)是真值蒙版的縮略圖);

  • 高分辨率分支用于辨別人像邊界(監(jiān)督信號(hào)是過(guò)渡區(qū)域 (α ∈ (0, 1));

  • 融合分支用來(lái)預(yù)測(cè)最終的前景蒙版(監(jiān)督信號(hào)是整個(gè)真值蒙版)。

實(shí)驗(yàn)該研究創(chuàng)建了新型人像摳圖基準(zhǔn) PPM-100,并在其上對(duì)比了 MODNet 和現(xiàn)有的人像摳圖方法,還證明了 SOC 和 OFD 策略對(duì)于 MODNet 適應(yīng)現(xiàn)實(shí)數(shù)據(jù)的有效性。PPM-100 基準(zhǔn)該研究提出了新型人像摳圖基準(zhǔn) Photographic Portrait Matting benchmark (PPM-100),包含 100 張精心標(biāo)注、背景不同的人像。如下圖 4 所示, PPM-100 中的樣本背景更加自然、人物姿勢(shì)更豐富,因此數(shù)據(jù)也更全面。

在 PPM-100 上的性能結(jié)果研究者在 PPM-100 上對(duì)比了 MODNet 和 FDMPA、LFM、SHM、BSHM、HAtt,結(jié)果參見(jiàn)下表 1。從中可以看出,MODNet 在 MSE 和 MAD 這兩項(xiàng)指標(biāo)上超過(guò)其他 trimap-free 方法,但仍遜色于基于 trimap 的 DIM 方法。將 MODNet 修改為基于 trimap 的方法后,其性能超過(guò) DIM。

下圖展示了不同方法的效果對(duì)比情況:

從中可以看出,MODNet 可以更好地處理空心結(jié)構(gòu)(第一行)和頭發(fā)細(xì)節(jié)(第二行),但在處理難度較大的姿勢(shì)或服飾時(shí)仍然會(huì)出現(xiàn)問(wèn)題(第三行)。在現(xiàn)實(shí)數(shù)據(jù)上的性能結(jié)果下圖展示了 MODNet 在現(xiàn)實(shí)數(shù)據(jù)上的摳圖效果,從圖中可以看出 SOC 對(duì)于模型在現(xiàn)實(shí)數(shù)據(jù)上的泛化能力非常重要,OFD 可以進(jìn)一步使輸出結(jié)果更加平滑。

MODNet 不基于 trimap,因而能夠避免錯(cuò)誤 trimap 的問(wèn)題。圖 8 展示了 MODNet 與基于 trimap 的 DIM 方法的對(duì)比結(jié)果:

此外,研究者還對(duì)比了 MODNet 和華盛頓大學(xué)提出的 background matting (BM) 方法,參見(jiàn)圖 9。從圖中可以看出,當(dāng)移動(dòng)對(duì)象突然出現(xiàn)在背景中時(shí),BM 方法的結(jié)果會(huì)受到影響,而 MODNet 對(duì)此類(lèi)擾動(dòng)具備魯棒性。
  • 論文鏈接:https://arxiv.org/pdf/2011.11961.pdf

  • 項(xiàng)目地址:https://github.com/ZHKKKe/MODNet

小貼士:

目前openEA應(yīng)用市場(chǎng)已經(jīng)上線啦,如果你手頭上剛好有開(kāi)源項(xiàng)目,歡迎到我們這里展示!

同時(shí)周刊已增設(shè)開(kāi)源工具欄目,歡迎聯(lián)系開(kāi)源君投稿哦~

開(kāi)源社區(qū)福利多多,歡迎登陸openea.net注冊(cè)會(huì)員哦!

END

/openEA

開(kāi)源社區(qū)統(tǒng)一認(rèn)證方案(上)——CAS與LDAP的搭建與集成

/企業(yè)應(yīng)用

讓復(fù)雜的差旅費(fèi)用報(bào)銷(xiāo)簡(jiǎn)單起來(lái)

掃碼關(guān)注公眾號(hào)

新浪微博:@openEA開(kāi)源社區(qū)

總結(jié)

以上是生活随笔為你收集整理的opencv 图像 抠图 算法_人工智能 | 不用绿幕也能实时抠图,商汤等提出只需单张图像、单个模型的新方法MODNet...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。