當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读

發布時間：2025/3/21 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

題目：Segattingan：關注分割的文本到圖像生成
時間：2020.5
作者：茍玉川,吳千城,李明浩,龔柏,韓梅
被 CVPR 2020 的 AI 內容創作研討會錄取

Abstract

在本文中，我們提出了一種新的生成網絡（SegAttnGAN），它利用額外的分割信息來完成文本到圖像的合成任務。由于引入到模型中的分割數據為生成器訓練提供了有用的指導，因此與以往的先進方法相比，該模型可以生成更逼真的圖像，并具有更高的量化度量。我們在CUB數據集和Oxford-102數據集上的初始得分分別為4.84和3.52。此外，我們還測試了self-attenting SegAttnGAN，它使用生成的分割數據而不是來自數據集的masks來進行注意，并獲得了類似的高質量結果，這表明我們的模型可以適用于文本到圖像的合成任務。

1.Introduction

研究現狀：基于語義描述生成高保真、逼真的圖像是許多應用程序的核心任務。很多研究都集中在文本到圖像合成任務上，該任務采用自然語言描述生成與文本匹配的圖像。該任務的許多模型使用生成性對抗網絡（GAN），以文本輸入為條件，而不是高斯噪聲來生成圖像。

現有模型存在的問題：盡管像這樣的模型在保持圖像文本一致性的同時實現了令人滿意的視覺質量，但除了唯一約束對象形狀的特定關鍵字外，對生成圖像的布局幾乎沒有控制。這些模型通常會生成形狀變形的對象或布局不切實際的圖像（見圖1和圖3）。

最近的工作表明，當分割數據的空間注意力用于指導圖像生成時，圖像合成任務可以獲得良好的結果。為了解決變形的形狀和不切實際的布局問題，我們設計了SegAttnGAN，它利用分割來增加文本輸入之外的全局空間注意力。我們希望空間信息能夠調整生成圖像的布局，從而創建更逼真的圖像。實驗表明，當使用額外的分割信息來指導圖像生成時，將獲得令人滿意的結果。

本文的貢獻總結如下：
（1）我們提出了一種新的生成網絡，它利用文本和空間注意來生成真實的圖像。
（2）我們驗證了在GAN中加入空間注意機制可以通過調節物體形狀和圖像布局顯著提高視覺真實感。
（3）我們構建了一個自注意網絡，首先生成分割masks，然后使用它生成圖像。基于定性結果，自注意模型也能很好地約束對象的形狀。

2.Related Work

由于文本圖像合成在許多應用中發揮著重要作用，人們提出了不同的文本到圖像的合成技術。Reed等人利用PixelCNN從文本描述生成圖像。Mansimov等人提出了一個在畫布上迭代繪制補丁，同時注意描述中的相關單詞的模型，Nguyen等人使用近似的Langevin采樣方法生成以文本為條件的圖像。

自從Goodfellow等人引入生成性對抗網絡（GAN）以來，人們對不同類型的GAN的圖像生成任務進行了廣泛的研究，并取得了高質量的結果。與此同時，研究人員也開始將GAN技術應用于文本到圖像合成任務。Reed等人提出了一種條件GAN，用于根據詳細的文本描述生成鳥和花的圖像，他們并向條件GAN添加了對象位置控制。Zhang等人提出了StackGAN從文本生成圖像。StackGAN由第一階段和第二階段的GAN組成，第一階段GAN生成低分辨率圖像，第二階段GAN生成高分辨率圖像。與句子層面上的StackGAN相比，Xu等人提出的AttnGAN在句子層面和單詞層面上發展了條件作用，旨在從文本描述中生成細粒度的高質量圖像。Zhang等人提出了一種用于文本到圖像合成的分層嵌套GAN。喬等人提出了MirrorGAN，以實現視覺真實感和語義一致性。Hong等人和Li等人都以從粗到精的方式專注于文本到圖像的合成任務。但他們的重點是通過在全局或對象級別設計雙向LSTM來實現單詞嵌入模塊和對象級別的識別。而我們的重點在于具有注意機制的生成器，可以有效地約束給定分割圖的對象邊界。

語義信息為圖像生成提供了有用的指導。它被引入以不同的格式作為輸入。之前有些工作中的作品在圖像到圖像的轉化中使用了邊緣映射作為指導。Karacan等人和Park等人在圖像生成中使用語義布局作為指導。我們的工作不同于這些工作，因為我們將語義的masks應用于文本到圖像的合成任務，而他們的工作是處理圖像到圖像的轉化或圖像生成。

3.SegAttnGAN for text-to-image synthesis

3.1SegAttnGAN architecture

文本到圖像的生成模型通常將整個句子的文本描述編碼為一個條件向量。AttnGAN還提出了一個單詞注意模型，該模型有助于根據單詞生成不同的圖像。如圖2所示，我們在SegAttnGAN采用了這種機制和一個LSTM文本編碼器來提取單詞特征和句子特征。句子特征與隨機潛在向量連接，單詞特征被用作單詞級注意。

3.2Segmentation attention module

分割注意模塊通過保持輸入語義圖的空間約束來增強圖像合成。Park等人已經證明了它的有效性，我們使用同樣分割注意力模塊機制。

數學上，我們將F定義為前一層的特征，將S定義為輸入分割圖。這個保持空間約束的注意力模塊的輸出可以用方程1表示：

其中BN()是批規范化函數，而Conv()是卷積函數。該函數的核心是保留分割模板的空間信息。這與超分辨率任務中的注意力模塊非常相似。該模型采用從粗到精的策略，在每個上采樣圖中引入語義圖注意，從而避免了純上采樣層對語義的消除。

3.3Segmentation mask strategies

當我們應用不同的分割masks的策略時，我們有兩種不同的模型。第一個模型名為SegAttnGAN，使用數據集中預先存在的masks作為注意力輸入。另一個名為自注意SegAttnGAN，使用自注意生成器生成的masks。

自注意生成器生成分割masks，并使用相應的鑒別器進行訓練。與SegAttnGAN一樣，它采用從粗到精的訓練策略，分辨率從6464、128128到256*256。自注意生成器將來自SegAttnGAN的相同z向量和文本嵌入向量作為輸入。在每個分辨率級別，都有一個用于訓練的鑒別器。

3.4Objective

對于生成性對抗網絡，具有條件輸入的經典目標函數是等式2中定義的生成器和鑒別器之間的最小-最大博弈：

其中，x表示來自真實數據分布的圖像，z表示驅動偽數據生成的隨機潛在向量。t和s分別指文本和分割輸入。

因此，生成器的損失函數在方程式3中定義：

其中，第一項是確定圖像是真是假的無條件損失，而第二項是條件丟失，確定生成的圖像是否與文本描述匹配。

鑒別器D_i的損失函數定義如等式4所示：

其中前兩項對應于優化鑒別器的無條件損失，而后兩項對應于條件損失。

對于自注意SegAttnGAN，我們將自注意生成器定義為G_s。我們用G_s(z，t)代替方程3和4中的s來定義G損失和D損失。總損失在方程式5中定義：

3.5Implementation details

如圖2所示，SegAttnGAN中的生成器輸出64? 64, 128 ? 128, 256 ? 256的圖片。首先，我們將分割mask處理成標簽圖（每個通道包含不同的對象）。在生成器的每個上采樣層，我們將分割標簽圖映射降采樣為與生成器中當前隱藏特征相同的分辨率張量。然后，在之前的上采樣操作之后，我們應用了注意模塊。文本和圖像編碼器采用了來自AttnGAN的相同實現。對于自注意SegAttnGAN，自注意的生成器沒有單詞特征。文本嵌入維度設置為256，損失權重λ設置為5.0。生成器和鑒別器使用beta_1=0.5且學習率為0.0002的ADAM解算器。

4.Experiments

4.1Dataset

我們使用CUB和Oxford-102數據集來評估我們提出的方法。CUB數據集包含200個類別的不同鳥類的圖像。我們使用該數據集中的8841張圖像進行訓練，2947張圖像進行測試。Oxford-102是另一個由花的圖像組成的數據集。從這個數據集中，我們選擇6141張圖像進行訓練，2047張圖像進行測試。

4.2Evaluation metrics

我們使用兩種定量測量來評估生成的圖像。
第一個指標是初始分數，它已被廣泛用于評估生成圖像的質量。
另一個指標是R-精度，作為文本到圖像合成任務的補充評估指標，以確定生成的圖像是否良好地依賴于給定的文本描述。

4.3Quantitative results

初始分數：我們用生成的圖像計算初始分數，并將其與其他最先進的方法進行比較。CUB和Oxford-102數據集的比較如表1所示。我們的模型SegAttnGAN 在CUB和Oxford-102數據集上都獲得了最高的初始分數。與基線模型AttnGAN相比，我們的SegAttnGAN 將CUB數據集的初始得分從4.36提高到4.82。此外，我們的自注意SegAttnGAN 在CUB和Oxford-102上分別獲得了4.44分和3.34分。

R-精度分數：如表2所示，我們的SegAttnGAN和自注意SegAttnGAN與AttnGAN相比也獲得了良好的R-精度分數。SegAttnGAN分數幾乎與AttnGAN的分數相同，表明SegAttnGAN可以生成與輸入文本描述一致的圖像。MirrorGAN的R-精度得分最高，因為它包含一個用于提高語義一致性的模塊。

4.4Qualitative results

在圖3（a）中，我們展示了AttnGAN和我們的模型生成的一些樣本。如圖所示，與基線模型AttnGAN相比，我們的SegAttnGAN生成的結果具有更好的對象形狀。盡管自注意SegAttnGAN使用生成的分割masks，但它可以約束對象的形狀，生成比AttnGAN更好的圖像。圖3（b）顯示了示例，說明了形狀和文本如何約束CUB和Oxford-102數據集上SegAttnGAN的輸出圖像。如圖所示，與顏色相關的單詞，如紅色和紫色，會導致不同顏色的結果。生成的圖像中與輸入masks匹配的對象形狀表明，分割圖可以很好地控制對象形狀。

4.5Limitation and discussion

與其他方法相比，SegAttnGAN表現良好，初始得分最高，但該模型在推理階段需要分段輸入。我們的自注意SegAttnGAN只需要在訓練階段使用分割數據，并且在對象形狀約束的幫助下，與其他模型相比，它獲得了更好的視覺效果。但它的初始評分顯示，它的結果得到了與AttnGAN的圖像客觀性和多樣性。

5.Conclusion

在本文中，我們提出了用于文本到圖像合成任務的SegAttnGAN，它使用分割注意來約束GAN訓練，并且與其他最先進的方法相比，成功地生成了質量更好的圖像。

使用數據集的分割masks作為輸入，我們的SegAttnGAN在CUB和Oxford-102數據集上都獲得了最高的初始分數。當masks通過我們的自注意生成器生成時，與其他最先進的方法相比，我們的自注意SegAttnGAN也能生成具有更好視覺真實感的結果。

總結

以上是生活随笔為你收集整理的SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：知云文献翻译登录时不显示二维码，显示二维
下一篇： Cascade EF-GAN: Prog