當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研

發(fā)布時(shí)間：2024/1/18 编程问答 78 豆豆

生活随笔收集整理的這篇文章主要介紹了文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

基于近年來圖像處理和語(yǔ)言理解方面的技術(shù)突破，融合圖像和文本處理的多模態(tài)任務(wù)獲得了廣泛的關(guān)注并取得了顯著成功。

文本生成圖像（text-to-image）是圖像和文本處理的多模態(tài)任務(wù)的一項(xiàng)子任務(wù)，其根據(jù)給定文本生成符合描述的真實(shí)圖像，具有巨大的應(yīng)用潛力，如視覺推理、圖像編輯、視頻游戲、動(dòng)畫制作和計(jì)算機(jī)輔助設(shè)計(jì)。

目前，各種各樣的模型已經(jīng)開發(fā)用于文本到圖像的生成，模型主要可以分為三大類：擴(kuò)散模型（Diffusion Model）、自回歸模型（Autoregressive Model）、生成對(duì)抗網(wǎng)絡(luò)模型（Generative Adversarial Networks），下面梳理一些近幾年重要的模型并對(duì)比這三種方法的優(yōu)劣：

一、基本原理

1.1、擴(kuò)散模型（Diffusion Model）

擴(kuò)散模型是一類生成模型，其通過迭代去噪過程將高斯噪聲轉(zhuǎn)換為已知數(shù)據(jù)分布的樣本，生成的圖片具有較好的多樣性和寫實(shí)性。

擴(kuò)散過程逐步向原始圖像添加高斯噪聲，是一個(gè)固定的馬爾科夫鏈過程，最后圖像也被漸進(jìn)變換為一個(gè)高斯噪聲。而逆向過程則通過去噪一步步恢復(fù)原始圖像，從而實(shí)現(xiàn)圖像的生成。

隨機(jī)輸入一張高斯噪聲顯然不能按照人的意愿生成我們想要的內(nèi)容，我們需要將一些具體的指導(dǎo)融入擴(kuò)散模型中去，如：Classifier Guidance、Semantic Diffusion Guidance、Classifier-Free Guidance。

擴(kuò)散模型在實(shí)現(xiàn)文本生成圖像上大概有以下策略：

使用外部模型（分類器 or 廣義的判別器）的輸出作為引導(dǎo)條件來指導(dǎo)擴(kuò)散模型的去噪過程，從而得到我們想要的輸出；

直接把我們想要的引導(dǎo)條件 condition 也作為模型輸入的一部分，從而讓擴(kuò)散模型見到這個(gè)條件后就可以直接生成我們想要的內(nèi)容。

這兩種想法可以將普通擴(kuò)散模型改進(jìn)為引導(dǎo)擴(kuò)散模型（Guided Diffusion），并對(duì)生成的圖像進(jìn)行一定程度上的細(xì)粒度控制。

1.2、自回歸模型（Autoregressive Model）

自回歸模型模型利用其強(qiáng)大的注意力機(jī)制已成為序列相關(guān)建模的范例，受GPT模型在自然語(yǔ)言建模中的成功啟發(fā)，圖像GPT（iGPT）通過將展平圖像序列視為離散標(biāo)記，采用Transformer進(jìn)行自回歸圖像生成。生成圖像的合理性表明，Transformer模型能夠模擬像素和高級(jí)屬性（紋理、語(yǔ)義和比例）之間的空間關(guān)系。Transformer整體主要分為Encoder和Decoder兩大部分，利用多頭自注意力機(jī)制進(jìn)行編碼和解碼。

自回歸模型在實(shí)現(xiàn)文本生成圖像上大概有以下策略：

和VQ-VAE（矢量量化變分自動(dòng)編碼器）進(jìn)行結(jié)合，首先將文本部分轉(zhuǎn)換成token，利用的是已經(jīng)比較成熟的SentencePiece模型；然后將圖像部分通過一個(gè)離散化的AE(Auto-Encoder)轉(zhuǎn)換為token，將文本token和圖像token拼接到一起，之后輸入到GPT模型中學(xué)習(xí)生成圖像。

和CLIP結(jié)合。首先對(duì)于一幅沒有文本標(biāo)簽的圖像，使用 CLIP 的圖像編碼器，在語(yǔ)言-視覺（language-vision）聯(lián)合嵌入空間中提取圖像的 embedding。接著，將圖像轉(zhuǎn)換為 VQGAN 碼本空間（codebook space）中的一系列離散標(biāo)記（token）。最后，再訓(xùn)練一個(gè)自回歸 Transformer，用它來將圖像標(biāo)記從 Transformer 的語(yǔ)言-視覺統(tǒng)一表示中映射出對(duì)應(yīng)圖像。經(jīng)過這樣的訓(xùn)練后，面對(duì)一串文本描述，Transformer 就可以根據(jù)從 CLIP 的文本編碼器中提取的文本嵌入（text embedding）生成對(duì)應(yīng)的圖像標(biāo)記（image tokens）了。

1.3、生成對(duì)抗網(wǎng)絡(luò)模型（Generative Adversarial Networks）

生成對(duì)抗網(wǎng)絡(luò)包含一個(gè)生成模型和一個(gè)判別模型。其中，生成模型負(fù)責(zé)捕捉樣本數(shù)據(jù)的分布，而判別模型一般情況下是一個(gè)二分類器，判別輸入是真實(shí)數(shù)據(jù)還是生成的樣本。整個(gè)訓(xùn)練過程都是兩者不斷地進(jìn)行相互博弈和優(yōu)化。生成器不斷得生成圖像的分布不斷接近真實(shí)圖像分布，來達(dá)到欺騙判別器的目的，提高判別器的判別能力。判別器對(duì)真實(shí)圖像和生成圖像進(jìn)行判別，來提高生成器的生成能力。

生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)文本生成圖像主要分為三大部分：文本編碼器、生成器和鑒別器。文本編碼器由RNN或者Bi-LSTM組成，生成器可以做成堆疊結(jié)構(gòu)或者單階段生成結(jié)構(gòu)，主要用于在滿足文本信息語(yǔ)義的基礎(chǔ)上生成圖像，鑒別器用于鑒別生成器生成的圖像是否為真和是否符合文本語(yǔ)義。

生成對(duì)抗網(wǎng)絡(luò)模型在實(shí)現(xiàn)文本生成圖像上主要有以下策略：

多階段生成網(wǎng)絡(luò)。由樹狀結(jié)構(gòu)堆疊的多個(gè)生成器（G）和多個(gè)鑒別器（D）組成。從低分辨率到高分辨率的圖像是從樹的不同分支生成的。在每個(gè)分支上，生成器捕獲該尺度的圖像分布，鑒別器分辨來自該尺度樣本的真假。對(duì)生成器進(jìn)行聯(lián)合訓(xùn)練以逼近多個(gè)分布，并且以交替方式對(duì)生成器和鑒別器進(jìn)行訓(xùn)練。

單級(jí)生成網(wǎng)絡(luò)。拋棄了堆疊結(jié)構(gòu)，只使用一個(gè)生成器、一個(gè)鑒別器、一個(gè)預(yù)訓(xùn)練過的文本編碼器。使用一系列包含仿射變換的UPBlock塊學(xué)習(xí)文本與圖像之間的映射關(guān)系，由文本生成圖像特征。

二、三種框架的對(duì)比

2.1、圖像質(zhì)量

在生成圖像的質(zhì)量上：擴(kuò)散模型最好，自回歸模型和生成對(duì)抗網(wǎng)絡(luò)其次：

模型名模型類型FID分?jǐn)?shù)

KNN-Diffusion	擴(kuò)散模型	16.66
Stable Diffusion	擴(kuò)散模型	12.63
GLIDE	擴(kuò)散模型	12.24
DALL-E 2	擴(kuò)散模型	10.39
Imagen	擴(kuò)散模型	7.27
Re-Imagen	擴(kuò)散模型	6.88
DALL-E	自回歸模型	28
CogView	自回歸模型	27.1
CogView2	自回歸模型	24.0
Parti	自回歸模型	7.23
StackGAN++	生成對(duì)抗網(wǎng)絡(luò)	81.59
AttnGAN	生成對(duì)抗網(wǎng)絡(luò)	35.49
DM-GAN	生成對(duì)抗網(wǎng)絡(luò)	32.64
DF-GAN	生成對(duì)抗網(wǎng)絡(luò)	21.42
SSA-GAN	生成對(duì)抗網(wǎng)絡(luò)	19.37

2.2、參數(shù)量

在參數(shù)量的比較上，自回歸模型和擴(kuò)散模型參數(shù)量達(dá)到了十億級(jí)別，屬于自回歸模型的Parti甚至達(dá)到了百億級(jí)別的參數(shù)量，而生成對(duì)抗網(wǎng)絡(luò)的模型參數(shù)量一般在千萬(wàn)級(jí)別，明顯輕巧便捷。

模型名模型類型參數(shù)量（大概）

GLIDE	擴(kuò)散模型	35億
DALLE-2	擴(kuò)散模型	35億
Imagen	擴(kuò)散模型	34億
Re-Imagen	擴(kuò)散模型	36億
DALLE	自回歸模型	120億
Cogview	自回歸模型	40億
Cogview2	自回歸模型	60億
Parti	自回歸模型	200億
DFGAN	生成對(duì)抗網(wǎng)絡(luò)	0.19億

2.3、易擴(kuò)展性

在易擴(kuò)展度的比較上，由于訓(xùn)練的計(jì)算成本小，且開源模型較多，生成對(duì)抗網(wǎng)絡(luò)在文本生成圖像的任務(wù)上仍然有很大的優(yōu)勢(shì)。而擴(kuò)散模型和自回歸模型的開源量較少，目前大多數(shù)都是大型公司（谷歌、Meta等）在研究，大型通用模型對(duì)設(shè)備的要求較高,在單張A100 GPU下，DALL-E需要18萬(wàn)小時(shí)，擁有200億參數(shù)的 Parti 更是需要超過100萬(wàn)小時(shí)，成本高昂。

個(gè)人總結(jié)來說：

擴(kuò)散模型自回歸模型生成對(duì)抗網(wǎng)絡(luò)

圖像質(zhì)量	優(yōu)	良+	良
參數(shù)量	中	差	優(yōu)
易擴(kuò)展性	中	中	優(yōu)
優(yōu)勢(shì)原因	逐漸添加/去除噪聲的性質(zhì)，只學(xué)習(xí)大規(guī)模的結(jié)構(gòu)，不引入歸納偏差	更大的batch size、更多的隱藏層、Transformer的多頭自注意力機(jī)制	生成器和判別器動(dòng)態(tài)對(duì)抗的特點(diǎn)，避免了馬爾科夫鏈?zhǔn)降膶W(xué)習(xí)機(jī)制，無需在學(xué)習(xí)過程中進(jìn)行推斷
優(yōu)點(diǎn)	更好的可解釋性，生成的質(zhì)量高	生成質(zhì)量較高，生成分布更加均勻	采樣速度很快，靈活的設(shè)計(jì)框架
缺點(diǎn)	大量擴(kuò)散步驟導(dǎo)致采樣速度慢	需要將圖像轉(zhuǎn)為token進(jìn)行自回歸預(yù)測(cè)，采樣速度慢	可解釋性差，容易模式崩潰

三、生成性網(wǎng)絡(luò)的三難困境

目前的生成式學(xué)習(xí)框架還不能同時(shí)滿足三個(gè)關(guān)鍵要求，包括(i)高質(zhì)量樣本，(ii)模式覆蓋和樣本多樣性，(iii)快速和低廉的計(jì)算成本。而這些要求往往是它們?cè)诂F(xiàn)實(shí)問題中廣泛采用所必需的，普遍來說：

擴(kuò)散模型(Diffusion Model)可以生成質(zhì)量比較高的圖片，且具有較強(qiáng)的多樣性，但是其應(yīng)用在實(shí)踐中非常昂貴；（滿足i，ii，難以滿足iii）

自回歸模型(Autoregressive Model)可以達(dá)到較好的模式覆蓋和樣本多樣性，但是其先驗(yàn)的學(xué)習(xí)使用的是文本到中間離散表征的映射導(dǎo)致其很難在低廉的計(jì)算成本下生成高質(zhì)量樣本，它們生成的輸出模糊。往往產(chǎn)生不現(xiàn)實(shí)的、模糊的樣本（滿足i，但是難以同時(shí)滿足ii，iii）

生成對(duì)抗網(wǎng)絡(luò)(GANs)能夠快速生成高質(zhì)量樣本，但模式覆蓋率較差；（滿足i，iii，但難以滿足ii）

參考：
《TACKLING THE GENERATIVE LEARNING TRILEMMA WITH DENOISING DIFFUSION GANS》
《Retrieval-Augmented Multimodal Language Modeling》
https://blog.csdn.net/qq_32275289/article/details/126951463
https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124641910

💡 最后

我們已經(jīng)建立了🏤T2I研學(xué)社群，如果你還有其他疑問或者對(duì)🎓文本生成圖像很感興趣，可以私信我加入社群。

📝 加入社群抱團(tuán)學(xué)習(xí)：中杯可樂多加冰-采苓AI研習(xí)社

🔥 限時(shí)免費(fèi)訂閱：文本生成圖像T2I專欄

🎉 支持我：點(diǎn)贊👍+收藏??+留言📝

總結(jié)

以上是生活随笔為你收集整理的文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：网络安全——使用反弹木马进行提权获取主机
下一篇： https://zhuanlan.zhi