當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【文生图系列】文生图大模型合集与效果对比

發(fā)布時(shí)間：2024/1/18 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了【文生图系列】文生图大模型合集与效果对比小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

- DELL · E
- - DELL · E 1
  - DELL · E 2
- ERNIE-ViLG
- - ERNIE-ViLG 1
  - ERNIE-ViLG 2
  - Paddlehub
- Imagen
- Midjourney
- Stable Diffusion
- AltDiffusion
- eDiff-I
- 阿里通義

DELL · E

DALL·E到目前為止有兩個(gè)版本，2021年1月，OpenAI發(fā)布了DALL·E；2022年,DALL·E 迎來了升級版本-DALL·E 2。與 DALL·E 相比，DALL·E 2 在生成用戶描述的圖像時(shí)具有更高的分辨率和更低的延遲。

DELL · E 1

DALL-E 只開放了使用圖像重建部分 d-VAE 訓(xùn)練的 CNN 編碼器和解碼器部分，而 Transformer 代碼部分還沒有公開。

DALL·E是GPT-3的120億參數(shù)版本，訓(xùn)練文本-圖像對數(shù)據(jù)集從文本描述中生成圖像。與GPT-3一樣，DALL·E也是一個(gè)語言Transformer模型，它接受文本和圖像作為包含1280 tokens的單獨(dú)數(shù)據(jù)流，使用最大似然訓(xùn)練去一個(gè)接一個(gè)地生成所有的tokens。這種訓(xùn)練程序允許DALL·E不僅從頭開始生成圖像，還可以依據(jù)文本提示詞生成存在圖像的任何區(qū)域擴(kuò)展到該圖像的右下角。

一個(gè)token是離散詞匯表里面的任何符號。DALL·E的此匯報(bào)包含文本和圖像概念的tokens。文本詞匯表里的token總數(shù)是16384，每個(gè)圖像標(biāo)題使用最大256 BPE編碼的tokens表示；圖像詞匯表里的token總數(shù)是8192，每個(gè)圖像使用1024個(gè)token表示（1024+256=1280）。

DALL·E訓(xùn)練一個(gè)Transformer，將文本和圖像tokens作為單個(gè)數(shù)據(jù)流進(jìn)行自回歸建模。訓(xùn)練采用了兩個(gè)階段策略。

第一階段：訓(xùn)練一個(gè)離散變分自動(dòng)編碼器（discrete variational autoen coder，dVAE）將每個(gè)256x256大小的RGB圖像壓縮為32x32網(wǎng)格大小的圖像tokens，其中網(wǎng)格中的每一個(gè)元素可假設(shè)有8192個(gè)可能值。這樣就可以將上下文大小減少了192倍（256x256x3=192x32x32）卻不會(huì)導(dǎo)致視覺質(zhì)量大幅下降。

第二階段：合并256 BPE編碼的文本tokens和32x32=1024圖像token，訓(xùn)練一個(gè)自回歸transformer模型建模文本和圖像tokens的聯(lián)合分布。

DELL · E 2

DALL · E 2體驗(yàn)需要有OpenAI的賬號，目前OpenAI對中國地區(qū)不提供服務(wù)，注冊O(shè)penAI需要科學(xué)上網(wǎng)，并且需要驗(yàn)證手機(jī)號。我在淘寶上買了一個(gè)美國的手機(jī)號驗(yàn)證碼，才注冊成功。DALL·E 2需要收費(fèi)，15美元115 credits，一個(gè)credit就是一條成功的請求。

DALL · E 2僅僅具有35億參數(shù)量，但是生成的圖像分辨率卻是DALL · E 的4倍。而且相比于DALL · E，DALL · E 2可以綜合文本描述中給出的概率、屬性與風(fēng)格等三個(gè)元素生成更真實(shí)和更準(zhǔn)確的圖像。

假設(shè)圖像為 $x$ ，與圖像相對應(yīng)的文本為 $y$ ，文本-圖像對為 $\left(x, y \right)$ 。對于給定的圖像 $x$ ， $z_{i}$ 和 $z_{t}$ 分別為此圖像對應(yīng)的CLIP圖像嵌入向量和文本嵌入向量。DALL · E 2從文本生成圖像包含兩個(gè)組件：

先驗(yàn)

P\left( z_{i} | y \right)

輸出給定文本

y

的CLIP圖像嵌入向量

z_{i}

。

解碼器

P\left( x | z_{i}, y \right)

生成以上述圖像嵌入向量為條件的圖像

x

。

ERNIE-ViLG

ERNIE-ViLG是百度文心系列的生成模型，目前已到2.0版本。文心ERNIE-ViLG是全球最大規(guī)模中文跨模態(tài)生成模型。

ERNIE-ViLG 1

文心 ERNIE-ViLG 參數(shù)規(guī)模達(dá)到100億，它構(gòu)建了包含1.45億高質(zhì)量中文文本-圖像對的大規(guī)模跨模態(tài)對齊數(shù)據(jù)集，該模型首次通過自回歸算法將圖像生成和文本生成統(tǒng)一建模，增強(qiáng)模型的跨模態(tài)語義對齊能力，顯著提升圖文生成效果。文心 ERNIE-ViLG模型可以做文本生成圖像任務(wù)、圖像描述（Image Captioning）任務(wù)和生成式視覺問答（Generative VQA）任務(wù)。

ERNIE-ViLG 使用編碼器-解碼器參數(shù)共享的 Transformer 作為自回歸生成的主干網(wǎng)絡(luò)，同時(shí)學(xué)習(xí)文本生成圖像、圖像生成文本兩個(gè)任務(wù)。基于圖像向量量化技術(shù)，文心 ERNIE-ViLG 把圖像表示成離散的序列，從而將文本和圖像進(jìn)行統(tǒng)一的序列自回歸生成建模。在文本生成圖像時(shí)，文心 ERNIE-ViLG 模型的輸入是文本 token 序列，輸出是圖像 token 序列；圖像生成文本時(shí)則根據(jù)輸入的圖像序列預(yù)測文本內(nèi)容。兩個(gè)方向的生成任務(wù)使用同一個(gè) Transformer 模型。視覺和語言兩個(gè)模態(tài)在相同模型參數(shù)下進(jìn)行相同模式的生成，能夠促進(jìn)模型建立更好的跨模態(tài)語義對齊。

ERNIE-ViLG 2

文心 ERNIE-ViLG 2.0 通過視覺、語言等多源知識指引擴(kuò)散模型學(xué)習(xí)，強(qiáng)化文圖生成擴(kuò)散模型對于語義的精確理解，以提升生成圖像的可控性和語義一致性。同時(shí)，ERNIE-ViLG 2.0 首次引入基于時(shí)間步的混合降噪專家模型來提升模型建模能力，讓模型在不同的生成階段選擇不同的“降噪專家”網(wǎng)絡(luò)，從而實(shí)現(xiàn)更加細(xì)致的降噪任務(wù)建模，提升生成圖像的質(zhì)量。

基于語言和圖像知識的知識增強(qiáng)算法。為提升生成圖像的語義一致性和可控性，ERNIE ViLG 2.0 將知識增強(qiáng)算法融入擴(kuò)散模型學(xué)習(xí)，在擴(kuò)散模型學(xué)習(xí)過程中，引入語言、視覺等多源知識指引模型更加關(guān)注文本和圖像中的核心語義元素，同時(shí)針對訓(xùn)練數(shù)據(jù)噪聲帶來的訓(xùn)練圖文樣本語義偏差問題提出了文本語義補(bǔ)全的方法，對圖文的語義一致性進(jìn)行針對性學(xué)習(xí)，進(jìn)而實(shí)現(xiàn)精準(zhǔn)的細(xì)粒度語義控制。
混合降噪專家網(wǎng)絡(luò)。針對模型建模能力不足，導(dǎo)致圖像質(zhì)量不夠好的問題，ERNIE ViLG 2.0 提出了針對不同階段選擇不同網(wǎng)絡(luò)（降噪專家）進(jìn)行建模的框架，有效地解決了不同階段對模型能力要求不一致的問題，減少降噪任務(wù)的互相干擾，提升圖像生成的質(zhì)量。由于每個(gè)生成階段只選取一個(gè)專家進(jìn)行生成，實(shí)現(xiàn)了在不增加模型預(yù)測計(jì)算量的情況下對模型建模能力的擴(kuò)充。

Paddlehub

paddlehub中提供了ERNIE-ViLG的模型API預(yù)測，需要安裝paddlepaddle和paddlehub。

命令行預(yù)測如下所示，事先需要申請API key和Secret key。style參數(shù)可選如下風(fēng)格：古風(fēng)、油畫、水彩、卡通、二次元、浮世繪、蒸汽波藝術(shù)、 low poly、像素風(fēng)格、概念藝術(shù)、未來主義、賽博朋克、寫實(shí)風(fēng)格、洛麗塔風(fēng)格、巴洛克風(fēng)格、超現(xiàn)實(shí)主義、探索無限

hub run ernie_vilg --text_prompts “火焰，鳳凰，少女，未來感，高清，3d，精致面容，cg感，古風(fēng)，唯美，毛發(fā)細(xì)致，上半身立繪” --style “古風(fēng)” --output_dir ernie_vilg_out --ak ‘your API key’ --sk ‘your Secret key’

提示詞生成的圖片1生成的圖片2風(fēng)格

巨狼，飄雪，藍(lán)色大片煙霧，毛發(fā)細(xì)致, 煙霧繚繞，高清，3d，cg感，側(cè) 面照			寫實(shí)風(fēng)格
人間四月芳菲盡，山寺桃花始盛開			古風(fēng)
A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome			寫實(shí)風(fēng)格
火焰，鳳凰，少女，未來感，高清，3d，精致面容，cg感，古風(fēng)，唯美，毛發(fā)細(xì)致，上半身立繪			古風(fēng)

Imagen

Imagen是谷歌推出的，谷歌發(fā)現(xiàn)在純文本預(yù)料庫上預(yù)訓(xùn)練的通用大型語言模型對于文本到圖像的生成人物非常有效。

文本被輸入到一個(gè)凍結(jié)的預(yù)訓(xùn)練Transformer 編碼器，該編碼器輸出向量隊(duì)列（文本編碼）

文本編碼器被傳遞到圖像生成擴(kuò)散模型中，該模型從高斯噪聲逐漸去除噪聲，生成反映文本內(nèi)語義信息的新圖像，該模型的新圖像是一個(gè)64x64大小的圖像。

之后，再使用兩個(gè)擴(kuò)散模型（STM和MTL），以第一步的文本編碼為條件，將圖像超分成一個(gè)1024x1024的圖像。

Imagen的文本編碼器是T5的編碼器。圖像生成器是擴(kuò)散模型。Small-to-Medium（STM）超分模型以64x64的圖像為輸入，超級解析生成256x256的圖像，STM也是一個(gè)擴(kuò)散模型。Medium-to-Large（MTL）超分模型以256x256的圖像為輸入，超級解析生成1024x1024的圖像，MTL和STM模型相似，也是一個(gè)擴(kuò)散模型。

imagen只開源了pytorch版的imagen實(shí)現(xiàn)，但是并沒有公布模型參數(shù)，所以需要自己訓(xùn)練數(shù)據(jù)集生成模型才能夠推理使用。

Midjourney

Midjourney是一個(gè)由Midjourney研究實(shí)驗(yàn)室開發(fā)的人工智能繪圖程序，Midjourney應(yīng)用托管到聊天應(yīng)用Discord，用戶注冊Discode并加入Midjourney的服務(wù)器就可以開始AI創(chuàng)作了。Midjourney在2023年三月已經(jīng)迭代到V5版本，V5版本生成的圖片分辨率更高，寫實(shí)風(fēng)格人物主體塑性更加準(zhǔn)確。

國內(nèi)用戶想要使用Midjourney，一是科學(xué)上網(wǎng)，注冊驗(yàn)證Discord賬號，然后進(jìn)入MidJourney官網(wǎng)找到Join the Beta綁定Discode賬號，接受邀請，進(jìn)入Midjourney社區(qū)。二是需要付費(fèi)。

可在Discode中添加個(gè)人服務(wù)器，再邀請Midjourney機(jī)器人進(jìn)入個(gè)人服務(wù)器即可。在底部對話框中輸入指令/imagine + prompt就可生成圖像。

Midjourney V5版本憑借如下的一張情侶照片"火出圈"，逼真地就像人類拿著攝像機(jī)照出的相片。相比較于V4，V5版本細(xì)節(jié)更加逼真；擁有更多的風(fēng)格；能畫手，在有面部特寫時(shí)，也能搞定各種肌膚紋理以及光影效果；對提示詞更加敏感，用更少更精簡的文本生成更好更有效的圖片。風(fēng)格可以從0-1000中選擇，越靠近1000，越藝術(shù)。

2023年6月底，Midjourney又推出了5.2版本，最令人心動(dòng)的新功能是Zoom out 功能，通過1.5倍、2倍以及自定義縮放，將相機(jī)拉出，并填充所有側(cè)面細(xì)節(jié)，達(dá)到重構(gòu)圖像的效果。

Stable Diffusion

Stable Diffusion，該項(xiàng)目由初創(chuàng)公司 StabilityAI 和慕尼黑大學(xué)機(jī)器視覺學(xué)習(xí)組和 AI 視頻剪輯技術(shù)創(chuàng)業(yè)公司 Runway 合作開發(fā)，并得到了黑客組織 EleutherAI和德國非盈利組織 LAION 的支持。

Stable Diffusion不是一個(gè)整體模型，它由幾個(gè)組件和模型組成。首先是文本理解組件（text-understanding component），將文本信息轉(zhuǎn)換成數(shù)字表示，以捕捉文本中的想法。其次是圖像生成器（image generator），圖像生成器包括兩步，圖像信息創(chuàng)建者（ Image information creator）和圖像解碼器（Image Decoder）。

下圖是stable diffusion的一個(gè)流程圖，包含了上述描述的三個(gè)組件，每個(gè)組件都有相應(yīng)的神經(jīng)網(wǎng)絡(luò)。

文本理解組件：Clip Text為文本編碼器。以77 token為輸入，輸出為77 token 嵌入向量，每個(gè)向量有768維度。

圖像信息創(chuàng)建者：UNet+Scheduler，在潛在空間中逐步處理擴(kuò)散信息。以文本嵌入向量和由噪聲組成的起始多維數(shù)組為輸入，輸出處理的信息數(shù)組。

圖像解碼器：自動(dòng)編碼解碼器，使用處理后的信息數(shù)組繪制最終的圖像。以處理后的維度為4x64x64的信息數(shù)組為輸入，輸出尺寸為3x512x512的圖像。

Stable Diffusionv1-v2版本都已開源，SD模型可微調(diào)，常見的微調(diào)方法：DreamBooth、textual inversion、hypernetwork和LoRA。

Stable Diffusion的圖像生成很吃prompt。本來想所有提示詞都一樣，好對所有模型進(jìn)行一個(gè)效果對比，但是SD的表現(xiàn)太拉跨，所以SD模型只展示有效prompt下生成的最好圖片。

提示詞圖片

In this photography, the rose and mulberry background is set against the backdrop of a misty garden with tiny water droplets glistening on the leaves and petals

a highly detailed and whimsical concept art illustration of a white rabbit cub in a pink and blue school uniform and cute plush hat, sitting on a giant apple made of transparent foam, gl crystals, and cherry blossoms within a magical winter wonderland scene. The rabbit has symmetrical ears, bright big eyes, a sweet smile, and a plump body. The scene has a whimsical and enchanting atmosphere, similar to the art style of Studio Ghibli or Hayao Miyazaki, with soft lighting that creates a magical movie-like atmosphere. The image is rendered in high resolution with Pixar or Unreal Engine rendering software, with exquisite fur details that capture the rabbit’s fluffy texture and realistically recreate the snow-covered landscape.
best quality,extremely detailed CG unity 8k wallpaper, high detailed, a sile view of a giant wolf with fine hair, snowy environment, vast blue smoke
best quality, masterpiece, highly detailed, refined rendering, peach blossom, flowers, tree, petals on waterm floatin petals, full moon in the sky

AltDiffusion

智源研究院首先推出的是雙語AltDiffusion，時(shí)隔不到一周，智源團(tuán)隊(duì)又推出重要升級版 AltDiffusion-m9，全面支持中、英、西、法、日、韓、阿、俄、意等九種不同語言的文圖生成任務(wù)，后來又推出18種語言文生圖模型AltDiffusion-m18。智源團(tuán)隊(duì)使用多語言預(yù)訓(xùn)練模型和 Stable Diffusion 結(jié)合，訓(xùn)練多語言文圖生成模型 —— AltDiffusion-m18，支持18種語言的文圖生成，包括中文、英文、日語、泰語、韓語、印地語、烏克蘭語、阿拉伯語、土耳其語、越南語、波蘭語、荷蘭語、葡萄牙語、意大利語、西班牙語、德語、法語、俄語。

AltDiffusion使用 AltCLIP（雙語CLIP），基于Stable-Diffusion訓(xùn)練了雙語Diffusion模型，訓(xùn)練數(shù)據(jù)來自 WuDao數(shù)據(jù)集和LAION。AltCLIP 則是 AltDiffusion 模型背后的重要訓(xùn)練技術(shù)。利用 OpenAI 發(fā)布的預(yù)訓(xùn)練的多模態(tài)表征模型 CLIP，將其文本編碼器更換為預(yù)訓(xùn)練的多語言文本編碼器 XLM-R（XLM-R是Facebook推出的多語言模型，2.5TB，100種語言，干凈的CommonCrawl數(shù)據(jù)集上訓(xùn)練得到），并通過包含教師學(xué)習(xí)和對比學(xué)習(xí)的兩階段訓(xùn)練模式對語言和圖像表征進(jìn)行對齊。這種方法在第一階段先將其他語言的表征與 CLIP 中的英文表征做對齊，在這個(gè)訓(xùn)練階段不需要多語言的圖文對數(shù)據(jù)，而只需要多語言的平行語料。在第二階段只需要少量的多語言圖文對，就能學(xué)到效果很好的多語言圖文表征，很大程度上減少了多語言多模態(tài)表征模型對于訓(xùn)練數(shù)據(jù)的依賴。

智源提供體驗(yàn)的平臺為flagstudio.，現(xiàn)模型默認(rèn)是AltDiffusion-m18。包括幾十種繪畫風(fēng)格和藝術(shù)家風(fēng)格。AltCLIP-m18模型代碼已經(jīng)在FlagAI/examples/AltCLIP-m18上開源，權(quán)重位于modelshub上，此外還提供了微調(diào)，推理，驗(yàn)證的腳本

提示詞生成的圖片1生成的圖片2風(fēng)格

在飄雪和藍(lán)色大片煙霧的環(huán)境下，一只毛發(fā)細(xì)致的巨狼的側(cè)面照			寫實(shí)風(fēng)格
人間四月芳菲盡，山寺桃花始盛開			國畫+豐子愷
A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome			相機(jī)

eDiff-I

eDiff-I出自NVIDIA，與其他通過迭代去噪進(jìn)行圖像合成的生成式文轉(zhuǎn)圖模型不同，Nvidia的eDiff-I使用一個(gè)專門對生成過程的不同區(qū)間進(jìn)行去噪的強(qiáng)大去噪器集合。

eDiff-I的圖像合成管道是由三個(gè)擴(kuò)散模型組成——一個(gè)低分辨率擴(kuò)散模型，可以合成64 x 64分辨率的樣本，以及兩個(gè)高分辨率擴(kuò)散模型，可以分別將圖像逐步上采樣到256 x 256和1024 x 1024分辨率。eDiff-I用到了兩個(gè)文本編碼器，T5和CLIP，還有CLIP圖像編碼器，對文本和圖像進(jìn)行編碼后，送入級聯(lián)擴(kuò)散模型中，逐漸生成分辨率為1024x1024的圖像。

eDiff-I沒找到開源的GitHub項(xiàng)目，也沒找到可試用的網(wǎng)址或者API，只有youtube上eDiff-I的效果展示video。

阿里通義

阿里文生圖模型名稱為ModelScope，暫不支持pipeline推理、下載和訓(xùn)練。ModelScope整體參數(shù)模型約50億，支持中英雙語輸入，輸入token最大為500，生成圖片尺寸有三種選擇，1024：1024，1280：768和768：1280。

文本到圖像生成擴(kuò)散模型由特征提取、級聯(lián)生成擴(kuò)散模型等模塊組成。通過知識重組與可變維度擴(kuò)散模型加速收斂并提升最終生成效果。ModelScope模型分為文本特征提取（CLIP）、文本特征到圖像特征生成（Transformer）、級聯(lián)擴(kuò)散生成模型（UNet）等子網(wǎng)絡(luò)組成，訓(xùn)練也是分別進(jìn)行。

文本特征提取使用大規(guī)模圖文樣本對數(shù)據(jù)上訓(xùn)練的CLIP的文本分支得到。

文本到圖像特征生成部分采用GPT結(jié)構(gòu)，是一個(gè)width為2048、32個(gè)heads、24個(gè)blocks的Transformer網(wǎng)絡(luò)，利用causal attention mask實(shí)現(xiàn)GPT預(yù)測。

64x64、256x256、1024x1024擴(kuò)散模型均為UNet結(jié)構(gòu)，在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding條件。為降低計(jì)算復(fù)雜度，在256擴(kuò)散模型訓(xùn)練過程中，隨機(jī)64x64 crop、128x128 crop、256x256 crop進(jìn)行了multi-grid訓(xùn)練，來提升生成質(zhì)量；在1024擴(kuò)散模型中，對輸入圖隨機(jī)256x256 crop。

提示詞生成圖片

在飄雪和藍(lán)色大片煙霧的環(huán)境下，一只毛發(fā)細(xì)致的巨狼的側(cè)面照
人間四月芳菲盡，山寺桃花始盛開
A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome

總結(jié)

以上是生活随笔為你收集整理的【文生图系列】文生图大模型合集与效果对比的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： java毕业设计巢院小区疫情管控系统My
下一篇：【讲座笔记】陆奇：数字化进程加速带来的创