當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis

發布時間：2023/12/3 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

注：拉到最后有視頻版~

論文地址：https://genforce.github.io/higan

這次給大家分享一篇做場景編輯的文章，作者是周博磊老師組的楊策元，中的是 IJCV2020

我會從這五個方面開始我的講解

背景

首先是背景，背景就是 GAN 在圖片合成領域表現優異

動機

動機是現在目標檢測的解釋性工作比較多，對于 GAN 這種生成模型的解釋性工作還比較少

目標

研究目標是探究下語義層級信息在 layer-wise 輸入的 GAN 模型中的表現，這里可以看到兩個圖，左圖是本文章主要探究的幾個語義屬性，比如 layout（格局），category（種類）,attribute 和 color；右圖是不同類型的 GAN，一般的 GAN 都是直接輸入網絡，但是 StyleGAN 的變量是 layer-wise 進去的

方法

先看下本文定義的多種語義，對于 bedroom 和 living room 這兩種場景，有以下的定義: attribute 就是用不同的分類器分出來的， layout 是提取墻的線得到的，object 是場景分割得到的

具體的方法就是 SVM 和 Re-score，SVM 我已經說過很多次，就是在 GAN 的 latent space 中，每個點對應著 image space 中的一張圖片，同時也對應著 semantic space 中的多種語義。Sample 一定量的圖片后，用預訓練好的分類器去獲取他們對應的不同語義，接著對于某個屬性，用一個 SVM 在 latent space 中學一個超平面，得到支持向量 n，這就是這個模型中的語義向量，和 InterfaceGAN 的方法幾乎一樣，不過 InterfaceGAN 處理的對象是 face，face 是容易定義的，而本文處理的是 scene，scene 的變化是很大的。

在獲取了語義向量后，我們用 Re-score 來衡量這個語義方向，也就是說看編輯前后圖片的語義變化程度，公式在下面，K 是樣本數

驗證完畢后，文章有三種編輯的手段，第一張很簡單，就是在 latent space 中向語義的方向推，第二種是向兩個語義方向的加和方向推，第三種是在推的時候加一點隨機擾動

實驗

然后來看實驗，比如對于 layout，object 這幾類屬性，正負樣本是怎么分的，layout 就是看支撐墻的中點在左邊還是右邊；文章做實驗用到的模型列在下面

首先看下出現的語義層級，對于本文用到的網絡，我們在 y 的層面而不是 z 的層面，做 rescore 來研究，探究某個層級后在整體效果中的占比，可以看到 layout，object 和其他屬性的峰值（即變化最大）都對應著不同的層級，user-study 也證明了這一點

然后看編輯實驗，對不同的屬性，都可以做相當定向的編輯，還能結合起來做編輯，效果都很不錯

當我們把 living room 的 scene 用語義向量推到 bedroom，再推到 dining room，跟蹤一些 object 的像素的變化，可以看到這樣的圖。出現這樣的現象的原因，是因為某些 object 是某個 scene 獨有的，因為床，沙發，椅子是 bedroom，living room 和 dining room 的特有物件。有這個現象，我們就可以做特定的編輯，也不用像其他 cgan 的那種 label 方式

場景的編輯肯定依賴于訓練的數據，故這里分析了一下訓練數據的分布，在 bridge 的場景，sunny 占主要的變化，其他場景也有對應的屬性，這些屬性都是這個場景獨有的

回顧下之前的編輯，對于不同的語義編輯，可以看到同時編輯的效果是可以把兩個語義同時加上去的，隨機擾動的編輯可以加上讓語義更加豐富

消融實驗主要為了證明自己的方法的有效性，先看第一個圖，在 bedroom 場景中，這幾個屬性一直保持接近 1 的值，這說明這幾個屬性是沒法區分的，我們的方法用 rescore 可以把這些給去掉；第二個圖，在 SVM 分類效果的指標上來看，幾乎所有的屬性都被完美分開，無法區分出主次，但我們的方法 rescore 可以把找出變化最明顯的屬性

這是對不同層做操作的消融實驗，從第一個圖可以看到對目標層和對所有層編輯的對比，對所有層的編輯帶來了更多其他屬性的變化

第二個圖是在底層對四個屬性進行編輯，可以發現大多都只改變了布局

在看解耦合的實驗，當我們定向編輯紅色向量的時候，發現在 rescore 的指標上，其他特征變化都不大

在其他的 GAN 模型上也能得到類似的結果

結論

結論就是 layer-wise 的層級對應于特定的語義，和人一樣從宏觀到微觀生成圖片

不足

不足也很明顯，首先是分類器可能不一定準確，第二是 layout 屬性的定義很難，第三是 SVM 的分類是線性的，效果可能不夠好

[IJCV2020]Semantic Hierarchy Emerges in Deep Generative Representations for Scen

總結

以上是生活随笔為你收集整理的【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【Linux】文件类型
下一篇：听著名服务端主程讲座有感 - archy