日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研

發(fā)布時(shí)間:2024/1/18 编程问答 78 豆豆
生活随笔 收集整理的這篇文章主要介紹了 文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

基于近年來圖像處理和語(yǔ)言理解方面的技術(shù)突破,融合圖像和文本處理的多模態(tài)任務(wù)獲得了廣泛的關(guān)注并取得了顯著成功。

文本生成圖像(text-to-image)是圖像和文本處理的多模態(tài)任務(wù)的一項(xiàng)子任務(wù),其根據(jù)給定文本生成符合描述的真實(shí)圖像,具有巨大的應(yīng)用潛力,如視覺推理、圖像編輯視頻游戲動(dòng)畫制作計(jì)算機(jī)輔助設(shè)計(jì)。

目前,各種各樣的模型已經(jīng)開發(fā)用于文本到圖像的生成,模型主要可以分為三大類:擴(kuò)散模型(Diffusion Model)、自回歸模型(Autoregressive Model)、生成對(duì)抗網(wǎng)絡(luò)模型(Generative Adversarial Networks),下面梳理一些近幾年重要的模型并對(duì)比這三種方法的優(yōu)劣:

一、基本原理

1.1、擴(kuò)散模型(Diffusion Model)

擴(kuò)散模型是一類生成模型,其通過迭代去噪過程將高斯噪聲轉(zhuǎn)換為已知數(shù)據(jù)分布的樣本,生成的圖片具有較好的多樣性和寫實(shí)性。

擴(kuò)散過程逐步向原始圖像添加高斯噪聲,是一個(gè)固定的馬爾科夫鏈過程,最后圖像也被漸進(jìn)變換為一個(gè)高斯噪聲。而逆向過程則通過去噪一步步恢復(fù)原始圖像,從而實(shí)現(xiàn)圖像的生成。

隨機(jī)輸入一張高斯噪聲顯然不能按照人的意愿生成我們想要的內(nèi)容,我們需要將一些具體的指導(dǎo)融入擴(kuò)散模型中去,如:Classifier Guidance、Semantic Diffusion Guidance、Classifier-Free Guidance。

擴(kuò)散模型在實(shí)現(xiàn)文本生成圖像上大概有以下策略

  • 使用外部模型(分類器 or 廣義的判別器)的輸出作為引導(dǎo)條件來指導(dǎo)擴(kuò)散模型的去噪過程,從而得到我們想要的輸出;
  • 直接把我們想要的引導(dǎo)條件 condition 也作為模型輸入的一部分,從而讓擴(kuò)散模型見到這個(gè)條件后就可以直接生成我們想要的內(nèi)容。
  • 這兩種想法可以將普通擴(kuò)散模型改進(jìn)為引導(dǎo)擴(kuò)散模型(Guided Diffusion),并對(duì)生成的圖像進(jìn)行一定程度上的細(xì)粒度控制。

    1.2、自回歸模型(Autoregressive Model)

    自回歸模型模型利用其強(qiáng)大的注意力機(jī)制已成為序列相關(guān)建模的范例,受GPT模型在自然語(yǔ)言建模中的成功啟發(fā),圖像GPT(iGPT)通過將展平圖像序列視為離散標(biāo)記,采用Transformer進(jìn)行自回歸圖像生成。生成圖像的合理性表明,Transformer模型能夠模擬像素和高級(jí)屬性(紋理、語(yǔ)義和比例)之間的空間關(guān)系。Transformer整體主要分為Encoder和Decoder兩大部分,利用多頭自注意力機(jī)制進(jìn)行編碼和解碼。

    自回歸模型在實(shí)現(xiàn)文本生成圖像上大概有以下策略

  • 和VQ-VAE(矢量量化變分自動(dòng)編碼器)進(jìn)行結(jié)合,首先將文本部分轉(zhuǎn)換成token,利用的是已經(jīng)比較成熟的SentencePiece模型;然后將圖像部分通過一個(gè)離散化的AE(Auto-Encoder)轉(zhuǎn)換為token,將文本token和圖像token拼接到一起,之后輸入到GPT模型中學(xué)習(xí)生成圖像。
  • 和CLIP結(jié)合。首先對(duì)于一幅沒有文本標(biāo)簽的圖像,使用 CLIP 的圖像編碼器,在語(yǔ)言-視覺(language-vision)聯(lián)合嵌入空間中提取圖像的 embedding。接著,將圖像轉(zhuǎn)換為 VQGAN 碼本空間(codebook space)中的一系列離散標(biāo)記(token)。最后,再訓(xùn)練一個(gè)自回歸 Transformer,用它來將圖像標(biāo)記從 Transformer 的語(yǔ)言-視覺統(tǒng)一表示中映射出對(duì)應(yīng)圖像。經(jīng)過這樣的訓(xùn)練后,面對(duì)一串文本描述,Transformer 就可以根據(jù)從 CLIP 的文本編碼器中提取的文本嵌入(text embedding)生成對(duì)應(yīng)的圖像標(biāo)記(image tokens)了。
  • 1.3、生成對(duì)抗網(wǎng)絡(luò)模型(Generative Adversarial Networks)

    生成對(duì)抗網(wǎng)絡(luò)包含一個(gè)生成模型和一個(gè)判別模型。其中,生成模型負(fù)責(zé)捕捉樣本數(shù)據(jù)的分布,而判別模型一般情況下是一個(gè)二分類器,判別輸入是真實(shí)數(shù)據(jù)還是生成的樣本。整個(gè)訓(xùn)練過程都是兩者不斷地進(jìn)行相互博弈和優(yōu)化。生成器不斷得生成圖像的分布不斷接近真實(shí)圖像分布,來達(dá)到欺騙判別器的目的,提高判別器的判別能力。判別器對(duì)真實(shí)圖像和生成圖像進(jìn)行判別,來提高生成器的生成能力。

    生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)文本生成圖像主要分為三大部分:文本編碼器、生成器和鑒別器。文本編碼器由RNN或者Bi-LSTM組成,生成器可以做成堆疊結(jié)構(gòu)或者單階段生成結(jié)構(gòu),主要用于在滿足文本信息語(yǔ)義的基礎(chǔ)上生成圖像,鑒別器用于鑒別生成器生成的圖像是否為真和是否符合文本語(yǔ)義。

    生成對(duì)抗網(wǎng)絡(luò)模型在實(shí)現(xiàn)文本生成圖像上主要有以下策略

  • 多階段生成網(wǎng)絡(luò)。由樹狀結(jié)構(gòu)堆疊的多個(gè)生成器(G)和多個(gè)鑒別器(D)組成。從低分辨率到高分辨率的圖像是從樹的不同分支生成的。在每個(gè)分支上,生成器捕獲該尺度的圖像分布,鑒別器分辨來自該尺度樣本的真假。對(duì)生成器進(jìn)行聯(lián)合訓(xùn)練以逼近多個(gè)分布,并且以交替方式對(duì)生成器和鑒別器進(jìn)行訓(xùn)練。
  • 單級(jí)生成網(wǎng)絡(luò)。拋棄了堆疊結(jié)構(gòu),只使用一個(gè)生成器、一個(gè)鑒別器、一個(gè)預(yù)訓(xùn)練過的文本編碼器。使用一系列包含仿射變換的UPBlock塊學(xué)習(xí)文本與圖像之間的映射關(guān)系,由文本生成圖像特征。
  • 二、三種框架的對(duì)比

    2.1、圖像質(zhì)量

    在生成圖像的質(zhì)量上:擴(kuò)散模型最好,自回歸模型和生成對(duì)抗網(wǎng)絡(luò)其次:

    模型名模型類型FID分?jǐn)?shù)
    KNN-Diffusion擴(kuò)散模型16.66
    Stable Diffusion擴(kuò)散模型12.63
    GLIDE擴(kuò)散模型12.24
    DALL-E 2擴(kuò)散模型10.39
    Imagen擴(kuò)散模型7.27
    Re-Imagen擴(kuò)散模型6.88
    DALL-E自回歸模型28
    CogView自回歸模型27.1
    CogView2自回歸模型24.0
    Parti自回歸模型7.23
    StackGAN++生成對(duì)抗網(wǎng)絡(luò)81.59
    AttnGAN生成對(duì)抗網(wǎng)絡(luò)35.49
    DM-GAN生成對(duì)抗網(wǎng)絡(luò)32.64
    DF-GAN生成對(duì)抗網(wǎng)絡(luò)21.42
    SSA-GAN生成對(duì)抗網(wǎng)絡(luò)19.37

    2.2、參數(shù)量

    在參數(shù)量的比較上,自回歸模型和擴(kuò)散模型參數(shù)量達(dá)到了十億級(jí)別,屬于自回歸模型的Parti甚至達(dá)到了百億級(jí)別的參數(shù)量,而生成對(duì)抗網(wǎng)絡(luò)的模型參數(shù)量一般在千萬(wàn)級(jí)別,明顯輕巧便捷。

    模型名模型類型參數(shù)量(大概)
    GLIDE擴(kuò)散模型35億
    DALLE-2擴(kuò)散模型35億
    Imagen擴(kuò)散模型34億
    Re-Imagen擴(kuò)散模型36億
    DALLE自回歸模型120億
    Cogview自回歸模型40億
    Cogview2自回歸模型60億
    Parti自回歸模型200億
    DFGAN生成對(duì)抗網(wǎng)絡(luò)0.19億

    2.3、易擴(kuò)展性

    在易擴(kuò)展度的比較上,由于訓(xùn)練的計(jì)算成本小,且開源模型較多,生成對(duì)抗網(wǎng)絡(luò)在文本生成圖像的任務(wù)上仍然有很大的優(yōu)勢(shì)。而擴(kuò)散模型和自回歸模型的開源量較少,目前大多數(shù)都是大型公司(谷歌、Meta等)在研究,大型通用模型對(duì)設(shè)備的要求較高,在單張A100 GPU下,DALL-E需要18萬(wàn)小時(shí),擁有200億參數(shù)的 Parti 更是需要超過100萬(wàn)小時(shí),成本高昂。

    個(gè)人總結(jié)來說:

    擴(kuò)散模型自回歸模型生成對(duì)抗網(wǎng)絡(luò)
    圖像質(zhì)量優(yōu)良+
    參數(shù)量優(yōu)
    易擴(kuò)展性優(yōu)
    優(yōu)勢(shì)原因逐漸添加/去除噪聲的性質(zhì),只學(xué)習(xí)大規(guī)模的結(jié)構(gòu),不引入歸納偏差更大的batch size、更多的隱藏層、Transformer的多頭自注意力機(jī)制生成器和判別器動(dòng)態(tài)對(duì)抗的特點(diǎn),避免了馬爾科夫鏈?zhǔn)降膶W(xué)習(xí)機(jī)制,無需在學(xué)習(xí)過程中進(jìn)行推斷
    優(yōu)點(diǎn)更好的可解釋性,生成的質(zhì)量高生成質(zhì)量較高,生成分布更加均勻采樣速度很快,靈活的設(shè)計(jì)框架
    缺點(diǎn)大量擴(kuò)散步驟導(dǎo)致采樣速度慢需要將圖像轉(zhuǎn)為token進(jìn)行自回歸預(yù)測(cè),采樣速度慢可解釋性差,容易模式崩潰

    三、生成性網(wǎng)絡(luò)的三難困境

    目前的生成式學(xué)習(xí)框架還不能同時(shí)滿足三個(gè)關(guān)鍵要求,包括(i)高質(zhì)量樣本,(ii)模式覆蓋和樣本多樣性,(iii)快速和低廉的計(jì)算成本。而這些要求往往是它們?cè)诂F(xiàn)實(shí)問題中廣泛采用所必需的,普遍來說:

  • 擴(kuò)散模型(Diffusion Model)可以生成質(zhì)量比較高的圖片,且具有較強(qiáng)的多樣性,但是其應(yīng)用在實(shí)踐中非常昂貴;(滿足i,ii,難以滿足iii
  • 自回歸模型(Autoregressive Model)可以達(dá)到較好的模式覆蓋和樣本多樣性,但是其先驗(yàn)的學(xué)習(xí)使用的是文本到中間離散表征的映射導(dǎo)致其很難在低廉的計(jì)算成本下生成高質(zhì)量樣本,它們生成的輸出模糊。往往產(chǎn)生不現(xiàn)實(shí)的、模糊的樣本(滿足i,但是難以同時(shí)滿足ii,iii
  • 生成對(duì)抗網(wǎng)絡(luò)(GANs)能夠快速生成高質(zhì)量樣本,但模式覆蓋率較差;(滿足i,iii,但難以滿足ii
  • 參考:
    《TACKLING THE GENERATIVE LEARNING TRILEMMA WITH DENOISING DIFFUSION GANS》
    《Retrieval-Augmented Multimodal Language Modeling》
    https://blog.csdn.net/qq_32275289/article/details/126951463
    https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124641910

    💡 最后

    我們已經(jīng)建立了🏤T2I研學(xué)社群,如果你還有其他疑問或者對(duì)🎓文本生成圖像很感興趣,可以私信我加入社群。

    📝 加入社群 抱團(tuán)學(xué)習(xí):中杯可樂多加冰-采苓AI研習(xí)社

    🔥 限時(shí)免費(fèi)訂閱:文本生成圖像T2I專欄

    🎉 支持我:點(diǎn)贊👍+收藏??+留言📝

    總結(jié)

    以上是生活随笔為你收集整理的文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。