當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

opencv 图像抠图算法_人工智能 | 不用绿幕也能实时抠图，商汤等提出只需单张图像、单个模型的新方法MODNet...

發布時間：2024/9/3 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 opencv 图像抠图算法_人工智能 | 不用绿幕也能实时抠图，商汤等提出只需单张图像、单个模型的新方法MODNet... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

openEA開源周刊

openEA開源社區的官方運營載體

這里每天給大家呈現有價值的開源資訊，歡迎您的來稿與推薦，點擊上方藍色字，加入我們吧！

摘要：近日，香港城市大學和商湯提出一種新型人像摳圖方法 MODNet，不用綠幕、只用單張圖像、單個模型即可實時完成人像摳圖。

openEA開源社區(ID:openEA)| 出品

小夕? | 編輯

機器之心? | 來源

選自arXiv

作者：Zhanghan Ke 等沒有綠幕怎么摳圖？此前，華盛頓大學的研究人員提出用背景圖替換 trimap，不用綠幕也能實現不錯的摳圖結果。但該方法需要處理和對齊原始圖像和背景圖兩張圖像，不便于現實應用。近日，香港城市大學和商湯提出一種新型人像摳圖方法 MODNet，不用綠幕、只用單張圖像、單個模型即可實時完成人像摳圖。人像摳圖即預測一個精確的前景蒙版(alpha matte)，然后利用它從給定圖像或視頻中提取人物。這一技術得到了廣泛的應用，如照片編輯、電影再創作等。目前，實時獲得高質量前景蒙版仍需要綠幕的輔助。但如果沒有綠幕呢？目前大部分摳圖方法使用預定義 trimap 作為先驗。但，trimap 需要人類標注，所需成本高昂，并且如果是通過深度相機捕獲，還會出現低精度問題。因此，近期的一些工作嘗試消除模型對 trimap 的依賴，即 trimap-free 方法。例如，華盛頓大學提出的?background matting?方法用分離背景圖像來替代 trimap。其他方法使用多個模型先生成偽 trimap 或語義掩碼，然后將其作為先驗進行前景蒙版預測。但使用背景圖像作為輸入需要輸入并對齊兩張圖像，使用多個模型會使推斷時間顯著增加。這些缺陷使得前述所有摳圖方法不適用于現實應用，如相機預覽。此外，受到標注訓練數據不足的限制，trimap-free 方法在實踐中常遇到域偏移問題，即模型無法很好地泛化至現實數據。能不能只用一個模型、一張 RGB 圖像，來預測精確的前景蒙版呢？最近，香港城市大學和商湯合作提出了一種輕量級網絡 MODNet，它將人像摳圖任務分解成三個相關的子任務，并通過特定約束執行同步優化。先來看一下 MODNet 的摳圖效果：

MODNet 模型背后存在兩種洞見：一，神經網絡更擅長學習一組簡單目標，而不是一個復雜目標。因此，解決多個摳圖子目標可以實現更好的性能。二，對每個子目標應用顯式監督信號，可以使模型的不同部分學習解耦的知識，從而實現一個模型解決所有子目標。為了克服域遷移問題，該研究基于子目標一致性 (SOC) 提出了一種自監督策略，即利用子目標之間的一致性來減少預測前景蒙版中的偽影。此外，該研究還提出單幀延遲 (OFD) trick 這種后處理方法，以在視頻摳圖應用中獲得更流暢的輸出。MODNet 框架參見下圖：

相比 trimap-free 方法，MODNet 具備以下優勢：

MODNet 更快：它專為實時應用而設計，輸入大小為 512 × 512 時，MODNet 在 Nvidia GTX 1080Ti GPU 上的運行速度為 63 fps；
MODNet 獲得了新的 SOTA 結果，原因在于：1)目標分解和同步優化；2)對每個子目標應用特定的監督信號；
MODNet 具備更好的泛化能力，這得益于 SOC 策略。

盡管 MODNet 的結果沒有超過那些基于 trimap 的方法，但實驗表明 MODNet 在實際應用中更加穩定，原因就在于其移除了 trimap 輸入。該方法對實時人像摳圖任務中綠幕的必要性提出了挑戰?，F有開源人像摳圖數據集的規?；蚓染幸欢ㄏ拗?#xff0c;之前很多研究是在質量和難度等級不同的私人數據集上進行模型訓練和驗證的。這就使得不同方法的對比變得困難。而這項研究在統一的標準下評估現有的 trimap-free 方法：所有模型均在相同數據集上訓練完成，并在來自 Adobe Matting 數據集和該研究提出的新基準數據集的人像數據中執行驗證。研究人員表示，他們提出的新基準完成了高質量標注，多樣性也優于之前的基準，因而能夠更全面地反映出摳圖性能。總之，這項研究提出了新型網絡架構 MODNet，可實時完成 trimap-free 人像摳圖。研究者還提出了兩項技術 SOC 和 OFD，使 MODNet 能夠很好地泛化至新的數據領域，視頻摳圖質量更加平滑。此外，該研究還構建了新的人像摳圖驗證基準數據集。MODNet 方法基于多個模型的方法表明，「將 trimap-free 摳圖看作 trimap 預測(分割)步驟加上基于 trimap 的摳圖步驟」能夠實現更好性能。這表明，神經網絡從分解復雜目標中受益。于是，該研究將這一思路繼續擴展，將 trimap-free 摳圖目標分解為語義估計、細節預測和語義 - 細節融合三個子目標。直觀來看，語義估計輸出粗糙的前景掩碼，細節預測生成細粒度的前景邊界，而語義 - 細節融合則將這二者的特征進行混合。如圖 2 所示，MODNet 包含三個分支，每一個均通過特定約束學習不同的子目標。具體而言：

低分辨率分支用于估計人類語義(監督信號是真值蒙版的縮略圖)；
高分辨率分支用于辨別人像邊界(監督信號是過渡區域 (α ∈ (0, 1))；
融合分支用來預測最終的前景蒙版(監督信號是整個真值蒙版)。

實驗該研究創建了新型人像摳圖基準 PPM-100，并在其上對比了 MODNet 和現有的人像摳圖方法，還證明了 SOC 和 OFD 策略對于 MODNet 適應現實數據的有效性。PPM-100 基準該研究提出了新型人像摳圖基準 Photographic Portrait Matting benchmark (PPM-100)，包含 100 張精心標注、背景不同的人像。如下圖 4 所示， PPM-100 中的樣本背景更加自然、人物姿勢更豐富，因此數據也更全面。

在 PPM-100 上的性能結果研究者在 PPM-100 上對比了 MODNet 和 FDMPA、LFM、SHM、BSHM、HAtt，結果參見下表 1。從中可以看出，MODNet 在 MSE 和 MAD 這兩項指標上超過其他 trimap-free 方法，但仍遜色于基于 trimap 的 DIM 方法。將 MODNet 修改為基于 trimap 的方法后，其性能超過 DIM。

下圖展示了不同方法的效果對比情況：

從中可以看出，MODNet 可以更好地處理空心結構(第一行)和頭發細節(第二行)，但在處理難度較大的姿勢或服飾時仍然會出現問題(第三行)。在現實數據上的性能結果下圖展示了 MODNet 在現實數據上的摳圖效果，從圖中可以看出 SOC 對于模型在現實數據上的泛化能力非常重要，OFD 可以進一步使輸出結果更加平滑。

MODNet 不基于 trimap，因而能夠避免錯誤 trimap 的問題。圖 8 展示了 MODNet 與基于 trimap 的 DIM 方法的對比結果：

此外，研究者還對比了 MODNet 和華盛頓大學提出的 background matting (BM) 方法，參見圖 9。從圖中可以看出，當移動對象突然出現在背景中時，BM 方法的結果會受到影響，而 MODNet 對此類擾動具備魯棒性。

論文鏈接：https://arxiv.org/pdf/2011.11961.pdf
項目地址：https://github.com/ZHKKKe/MODNet

小貼士：

目前openEA應用市場已經上線啦，如果你手頭上剛好有開源項目，歡迎到我們這里展示！

同時周刊已增設開源工具欄目，歡迎聯系開源君投稿哦~

開源社區福利多多，歡迎登陸openea.net注冊會員哦！

END

/openEA

開源社區統一認證方案(上)——CAS與LDAP的搭建與集成

/企業應用

讓復雜的差旅費用報銷簡單起來

掃碼關注公眾號

新浪微博：@openEA開源社區

總結

以上是生活随笔為你收集整理的opencv 图像抠图算法_人工智能 | 不用绿幕也能实时抠图，商汤等提出只需单张图像、单个模型的新方法MODNet...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：光栅衍射主极大个数_大学物理——光的干涉
下一篇： win10怎么把c盘锁住_win10如何

编程问答

opencv 图像 抠图 算法_人工智能 | 不用绿幕也能实时抠图，商汤等提出只需单张图像、单个模型的新方法MODNet...

總結

opencv 图像抠图算法_人工智能 | 不用绿幕也能实时抠图，商汤等提出只需单张图像、单个模型的新方法MODNet...