SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读
題目:Segattingan:關注分割的文本到圖像生成
時間:2020.5
作者:茍玉川,吳千城,李明浩,龔柏,韓梅
被 CVPR 2020 的 AI 內容創作研討會錄取
Abstract
在本文中,我們提出了一種新的生成網絡(SegAttnGAN),它利用額外的分割信息來完成文本到圖像的合成任務。由于引入到模型中的分割數據為生成器訓練提供了有用的指導,因此與以往的先進方法相比,該模型可以生成更逼真的圖像,并具有更高的量化度量。我們在CUB數據集和Oxford-102數據集上的初始得分分別為4.84和3.52。此外,我們還測試了self-attenting SegAttnGAN,它使用生成的分割數據而不是來自數據集的masks來進行注意,并獲得了類似的高質量結果,這表明我們的模型可以適用于文本到圖像的合成任務。
1.Introduction
(1)我們提出了一種新的生成網絡,它利用文本和空間注意來生成真實的圖像。
(2)我們驗證了在GAN中加入空間注意機制可以通過調節物體形狀和圖像布局顯著提高視覺真實感。
(3)我們構建了一個自注意網絡,首先生成分割masks,然后使用它生成圖像。基于定性結果,自注意模型也能很好地約束對象的形狀。
2.Related Work
3.SegAttnGAN for text-to-image synthesis
3.1SegAttnGAN architecture
文本到圖像的生成模型通常將整個句子的文本描述編碼為一個條件向量。AttnGAN還提出了一個單詞注意模型,該模型有助于根據單詞生成不同的圖像。如圖2所示,我們在SegAttnGAN采用了這種機制和一個LSTM文本編碼器來提取單詞特征和句子特征。句子特征與隨機潛在向量連接,單詞特征被用作單詞級注意。
3.2Segmentation attention module
其中BN()是批規范化函數,而Conv()是卷積函數。該函數的核心是保留分割模板的空間信息。這與超分辨率任務中的注意力模塊非常相似。該模型采用從粗到精的策略,在每個上采樣圖中引入語義圖注意,從而避免了純上采樣層對語義的消除。
3.3Segmentation mask strategies
3.4Objective
其中,x表示來自真實數據分布的圖像,z表示驅動偽數據生成的隨機潛在向量。t和s分別指文本和分割輸入。
其中,第一項是確定圖像是真是假的無條件損失,而第二項是條件丟失,確定生成的圖像是否與文本描述匹配。
其中前兩項對應于優化鑒別器的無條件損失,而后兩項對應于條件損失。
3.5Implementation details
如圖2所示,SegAttnGAN中的生成器輸出64? 64, 128 ? 128, 256 ? 256的圖片。首先,我們將分割mask處理成標簽圖(每個通道包含不同的對象)。在生成器的每個上采樣層,我們將分割標簽圖映射降采樣為與生成器中當前隱藏特征相同的分辨率張量。然后,在之前的上采樣操作之后,我們應用了注意模塊。文本和圖像編碼器采用了來自AttnGAN的相同實現。對于自注意SegAttnGAN,自注意的生成器沒有單詞特征。文本嵌入維度設置為256,損失權重λ設置為5.0。生成器和鑒別器使用beta_1=0.5且學習率為0.0002的ADAM解算器。
4.Experiments
4.1Dataset
我們使用CUB和Oxford-102數據集來評估我們提出的方法。CUB數據集包含200個類別的不同鳥類的圖像。我們使用該數據集中的8841張圖像進行訓練,2947張圖像進行測試。Oxford-102是另一個由花的圖像組成的數據集。從這個數據集中,我們選擇6141張圖像進行訓練,2047張圖像進行測試。
4.2Evaluation metrics
我們使用兩種定量測量來評估生成的圖像。
第一個指標是初始分數,它已被廣泛用于評估生成圖像的質量。
另一個指標是R-精度,作為文本到圖像合成任務的補充評估指標,以確定生成的圖像是否良好地依賴于給定的文本描述。
4.3Quantitative results
初始分數:我們用生成的圖像計算初始分數,并將其與其他最先進的方法進行比較。CUB和Oxford-102數據集的比較如表1所示。我們的模型SegAttnGAN 在CUB和Oxford-102數據集上都獲得了最高的初始分數。與基線模型AttnGAN相比,我們的SegAttnGAN 將CUB數據集的初始得分從4.36提高到4.82。此外,我們的自注意SegAttnGAN 在CUB和Oxford-102上分別獲得了4.44分和3.34分。
R-精度分數:如表2所示,我們的SegAttnGAN和自注意SegAttnGAN與AttnGAN相比也獲得了良好的R-精度分數。SegAttnGAN分數幾乎與AttnGAN的分數相同,表明SegAttnGAN可以生成與輸入文本描述一致的圖像。MirrorGAN的R-精度得分最高,因為它包含一個用于提高語義一致性的模塊。
4.4Qualitative results
在圖3(a)中,我們展示了AttnGAN和我們的模型生成的一些樣本。如圖所示,與基線模型AttnGAN相比,我們的SegAttnGAN生成的結果具有更好的對象形狀。盡管自注意SegAttnGAN使用生成的分割masks,但它可以約束對象的形狀,生成比AttnGAN更好的圖像。圖3(b)顯示了示例,說明了形狀和文本如何約束CUB和Oxford-102數據集上SegAttnGAN的輸出圖像。如圖所示,與顏色相關的單詞,如紅色和紫色,會導致不同顏色的結果。生成的圖像中與輸入masks匹配的對象形狀表明,分割圖可以很好地控制對象形狀。
4.5Limitation and discussion
與其他方法相比,SegAttnGAN表現良好,初始得分最高,但該模型在推理階段需要分段輸入。我們的自注意SegAttnGAN只需要在訓練階段使用分割數據,并且在對象形狀約束的幫助下,與其他模型相比,它獲得了更好的視覺效果。但它的初始評分顯示,它的結果得到了與AttnGAN的圖像客觀性和多樣性。
5.Conclusion
總結
以上是生活随笔為你收集整理的SegAttnGAN: Text to Image Generation with Segmentation Attention 论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知云文献翻译登录时不显示二维码,显示二维
- 下一篇: Cascade EF-GAN: Prog