文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研
基于近年來圖像處理和語(yǔ)言理解方面的技術(shù)突破,融合圖像和文本處理的多模態(tài)任務(wù)獲得了廣泛的關(guān)注并取得了顯著成功。
文本生成圖像(text-to-image)是圖像和文本處理的多模態(tài)任務(wù)的一項(xiàng)子任務(wù),其根據(jù)給定文本生成符合描述的真實(shí)圖像,具有巨大的應(yīng)用潛力,如視覺推理、圖像編輯、視頻游戲、動(dòng)畫制作和計(jì)算機(jī)輔助設(shè)計(jì)。
目前,各種各樣的模型已經(jīng)開發(fā)用于文本到圖像的生成,模型主要可以分為三大類:擴(kuò)散模型(Diffusion Model)、自回歸模型(Autoregressive Model)、生成對(duì)抗網(wǎng)絡(luò)模型(Generative Adversarial Networks),下面梳理一些近幾年重要的模型并對(duì)比這三種方法的優(yōu)劣:
一、基本原理
1.1、擴(kuò)散模型(Diffusion Model)
擴(kuò)散模型是一類生成模型,其通過迭代去噪過程將高斯噪聲轉(zhuǎn)換為已知數(shù)據(jù)分布的樣本,生成的圖片具有較好的多樣性和寫實(shí)性。
擴(kuò)散過程逐步向原始圖像添加高斯噪聲,是一個(gè)固定的馬爾科夫鏈過程,最后圖像也被漸進(jìn)變換為一個(gè)高斯噪聲。而逆向過程則通過去噪一步步恢復(fù)原始圖像,從而實(shí)現(xiàn)圖像的生成。
隨機(jī)輸入一張高斯噪聲顯然不能按照人的意愿生成我們想要的內(nèi)容,我們需要將一些具體的指導(dǎo)融入擴(kuò)散模型中去,如:Classifier Guidance、Semantic Diffusion Guidance、Classifier-Free Guidance。
擴(kuò)散模型在實(shí)現(xiàn)文本生成圖像上大概有以下策略:
這兩種想法可以將普通擴(kuò)散模型改進(jìn)為引導(dǎo)擴(kuò)散模型(Guided Diffusion),并對(duì)生成的圖像進(jìn)行一定程度上的細(xì)粒度控制。
1.2、自回歸模型(Autoregressive Model)
自回歸模型模型利用其強(qiáng)大的注意力機(jī)制已成為序列相關(guān)建模的范例,受GPT模型在自然語(yǔ)言建模中的成功啟發(fā),圖像GPT(iGPT)通過將展平圖像序列視為離散標(biāo)記,采用Transformer進(jìn)行自回歸圖像生成。生成圖像的合理性表明,Transformer模型能夠模擬像素和高級(jí)屬性(紋理、語(yǔ)義和比例)之間的空間關(guān)系。Transformer整體主要分為Encoder和Decoder兩大部分,利用多頭自注意力機(jī)制進(jìn)行編碼和解碼。
自回歸模型在實(shí)現(xiàn)文本生成圖像上大概有以下策略:
1.3、生成對(duì)抗網(wǎng)絡(luò)模型(Generative Adversarial Networks)
生成對(duì)抗網(wǎng)絡(luò)包含一個(gè)生成模型和一個(gè)判別模型。其中,生成模型負(fù)責(zé)捕捉樣本數(shù)據(jù)的分布,而判別模型一般情況下是一個(gè)二分類器,判別輸入是真實(shí)數(shù)據(jù)還是生成的樣本。整個(gè)訓(xùn)練過程都是兩者不斷地進(jìn)行相互博弈和優(yōu)化。生成器不斷得生成圖像的分布不斷接近真實(shí)圖像分布,來達(dá)到欺騙判別器的目的,提高判別器的判別能力。判別器對(duì)真實(shí)圖像和生成圖像進(jìn)行判別,來提高生成器的生成能力。
生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)文本生成圖像主要分為三大部分:文本編碼器、生成器和鑒別器。文本編碼器由RNN或者Bi-LSTM組成,生成器可以做成堆疊結(jié)構(gòu)或者單階段生成結(jié)構(gòu),主要用于在滿足文本信息語(yǔ)義的基礎(chǔ)上生成圖像,鑒別器用于鑒別生成器生成的圖像是否為真和是否符合文本語(yǔ)義。
生成對(duì)抗網(wǎng)絡(luò)模型在實(shí)現(xiàn)文本生成圖像上主要有以下策略:
二、三種框架的對(duì)比
2.1、圖像質(zhì)量
在生成圖像的質(zhì)量上:擴(kuò)散模型最好,自回歸模型和生成對(duì)抗網(wǎng)絡(luò)其次:
| KNN-Diffusion | 擴(kuò)散模型 | 16.66 |
| Stable Diffusion | 擴(kuò)散模型 | 12.63 |
| GLIDE | 擴(kuò)散模型 | 12.24 |
| DALL-E 2 | 擴(kuò)散模型 | 10.39 |
| Imagen | 擴(kuò)散模型 | 7.27 |
| Re-Imagen | 擴(kuò)散模型 | 6.88 |
| DALL-E | 自回歸模型 | 28 |
| CogView | 自回歸模型 | 27.1 |
| CogView2 | 自回歸模型 | 24.0 |
| Parti | 自回歸模型 | 7.23 |
| StackGAN++ | 生成對(duì)抗網(wǎng)絡(luò) | 81.59 |
| AttnGAN | 生成對(duì)抗網(wǎng)絡(luò) | 35.49 |
| DM-GAN | 生成對(duì)抗網(wǎng)絡(luò) | 32.64 |
| DF-GAN | 生成對(duì)抗網(wǎng)絡(luò) | 21.42 |
| SSA-GAN | 生成對(duì)抗網(wǎng)絡(luò) | 19.37 |
2.2、參數(shù)量
在參數(shù)量的比較上,自回歸模型和擴(kuò)散模型參數(shù)量達(dá)到了十億級(jí)別,屬于自回歸模型的Parti甚至達(dá)到了百億級(jí)別的參數(shù)量,而生成對(duì)抗網(wǎng)絡(luò)的模型參數(shù)量一般在千萬(wàn)級(jí)別,明顯輕巧便捷。
| GLIDE | 擴(kuò)散模型 | 35億 |
| DALLE-2 | 擴(kuò)散模型 | 35億 |
| Imagen | 擴(kuò)散模型 | 34億 |
| Re-Imagen | 擴(kuò)散模型 | 36億 |
| DALLE | 自回歸模型 | 120億 |
| Cogview | 自回歸模型 | 40億 |
| Cogview2 | 自回歸模型 | 60億 |
| Parti | 自回歸模型 | 200億 |
| DFGAN | 生成對(duì)抗網(wǎng)絡(luò) | 0.19億 |
2.3、易擴(kuò)展性
在易擴(kuò)展度的比較上,由于訓(xùn)練的計(jì)算成本小,且開源模型較多,生成對(duì)抗網(wǎng)絡(luò)在文本生成圖像的任務(wù)上仍然有很大的優(yōu)勢(shì)。而擴(kuò)散模型和自回歸模型的開源量較少,目前大多數(shù)都是大型公司(谷歌、Meta等)在研究,大型通用模型對(duì)設(shè)備的要求較高,在單張A100 GPU下,DALL-E需要18萬(wàn)小時(shí),擁有200億參數(shù)的 Parti 更是需要超過100萬(wàn)小時(shí),成本高昂。
個(gè)人總結(jié)來說:
| 圖像質(zhì)量 | 優(yōu) | 良+ | 良 |
| 參數(shù)量 | 中 | 差 | 優(yōu) |
| 易擴(kuò)展性 | 中 | 中 | 優(yōu) |
| 優(yōu)勢(shì)原因 | 逐漸添加/去除噪聲的性質(zhì),只學(xué)習(xí)大規(guī)模的結(jié)構(gòu),不引入歸納偏差 | 更大的batch size、更多的隱藏層、Transformer的多頭自注意力機(jī)制 | 生成器和判別器動(dòng)態(tài)對(duì)抗的特點(diǎn),避免了馬爾科夫鏈?zhǔn)降膶W(xué)習(xí)機(jī)制,無需在學(xué)習(xí)過程中進(jìn)行推斷 |
| 優(yōu)點(diǎn) | 更好的可解釋性,生成的質(zhì)量高 | 生成質(zhì)量較高,生成分布更加均勻 | 采樣速度很快,靈活的設(shè)計(jì)框架 |
| 缺點(diǎn) | 大量擴(kuò)散步驟導(dǎo)致采樣速度慢 | 需要將圖像轉(zhuǎn)為token進(jìn)行自回歸預(yù)測(cè),采樣速度慢 | 可解釋性差,容易模式崩潰 |
三、生成性網(wǎng)絡(luò)的三難困境
目前的生成式學(xué)習(xí)框架還不能同時(shí)滿足三個(gè)關(guān)鍵要求,包括(i)高質(zhì)量樣本,(ii)模式覆蓋和樣本多樣性,(iii)快速和低廉的計(jì)算成本。而這些要求往往是它們?cè)诂F(xiàn)實(shí)問題中廣泛采用所必需的,普遍來說:
參考:
《TACKLING THE GENERATIVE LEARNING TRILEMMA WITH DENOISING DIFFUSION GANS》
《Retrieval-Augmented Multimodal Language Modeling》
https://blog.csdn.net/qq_32275289/article/details/126951463
https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124641910
💡 最后
我們已經(jīng)建立了🏤T2I研學(xué)社群,如果你還有其他疑問或者對(duì)🎓文本生成圖像很感興趣,可以私信我加入社群。
📝 加入社群 抱團(tuán)學(xué)習(xí):中杯可樂多加冰-采苓AI研習(xí)社
🔥 限時(shí)免費(fèi)訂閱:文本生成圖像T2I專欄
🎉 支持我:點(diǎn)贊👍+收藏??+留言📝
總結(jié)
以上是生活随笔為你收集整理的文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网络安全——使用反弹木马进行提权获取主机
- 下一篇: https://zhuanlan.zhi