日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【文生图系列】文生图大模型合集与效果对比

發布時間:2024/1/18 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【文生图系列】文生图大模型合集与效果对比 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • DELL · E
      • DELL · E 1
      • DELL · E 2
    • ERNIE-ViLG
      • ERNIE-ViLG 1
      • ERNIE-ViLG 2
      • Paddlehub
    • Imagen
    • Midjourney
    • Stable Diffusion
    • AltDiffusion
    • eDiff-I
    • 阿里通義

DELL · E

DALL·E到目前為止有兩個版本,2021年1月,OpenAI發布了DALL·E;2022年,DALL·E 迎來了升級版本-DALL·E 2。與 DALL·E 相比,DALL·E 2 在生成用戶描述的圖像時具有更高的分辨率和更低的延遲。

DELL · E 1

DALL-E 只開放了使用圖像重建部分 d-VAE 訓練的 CNN 編碼器和解碼器部分,而 Transformer 代碼部分還沒有公開。

DALL·E是GPT-3的120億參數版本,訓練文本-圖像對數據集從文本描述中生成圖像。與GPT-3一樣,DALL·E也是一個語言Transformer模型,它接受文本和圖像作為包含1280 tokens的單獨數據流,使用最大似然訓練去一個接一個地生成所有的tokens。這種訓練程序允許DALL·E不僅從頭開始生成圖像,還可以依據文本提示詞生成存在圖像的任何區域擴展到該圖像的右下角。

一個token是離散詞匯表里面的任何符號。DALL·E的此匯報包含文本和圖像概念的tokens。文本詞匯表里的token總數是16384,每個圖像標題使用最大256 BPE編碼的tokens表示;圖像詞匯表里的token總數是8192,每個圖像使用1024個token表示(1024+256=1280)。

DALL·E訓練一個Transformer,將文本和圖像tokens作為單個數據流進行自回歸建模。訓練采用了兩個階段策略。

  • 第一階段:訓練一個離散變分自動編碼器(discrete variational autoen coder,dVAE)將每個256x256大小的RGB圖像壓縮為32x32網格大小的圖像tokens,其中網格中的每一個元素可假設有8192個可能值。這樣就可以將上下文大小減少了192倍(256x256x3=192x32x32)卻不會導致視覺質量大幅下降。
  • 第二階段:合并256 BPE編碼的文本tokens和32x32=1024圖像token,訓練一個自回歸transformer模型建模文本和圖像tokens的聯合分布。
  • DELL · E 2

    DALL · E 2體驗需要有OpenAI的賬號,目前OpenAI對中國地區不提供服務,注冊OpenAI需要科學上網,并且需要驗證手機號。我在淘寶上買了一個美國的手機號驗證碼,才注冊成功。DALL·E 2需要收費,15美元115 credits,一個credit就是一條成功的請求。

    DALL · E 2僅僅具有35億參數量,但是生成的圖像分辨率卻是DALL · E 的4倍。而且相比于DALL · E,DALL · E 2可以綜合文本描述中給出的概率、屬性與風格等三個元素生成更真實和更準確的圖像。

    假設圖像為 x x x,與圖像相對應的文本為 y y y,文本-圖像對為 ( x , y ) \left(x, y \right) (x,y)。對于給定的圖像 x x x z i z_{i} zi? z t z_{t} zt?分別為此圖像對應的CLIP圖像嵌入向量和文本嵌入向量。DALL · E 2從文本生成圖像包含兩個組件:

  • 先驗 P ( z i ∣ y ) P\left( z_{i} | y \right) P(zi?y)輸出給定文本 y y y的CLIP圖像嵌入向量 z i z_{i} zi?
  • 解碼器 P ( x ∣ z i , y ) P\left( x | z_{i}, y \right) P(xzi?,y)生成以上述圖像嵌入向量為條件的圖像 x x x
  • ERNIE-ViLG

    ERNIE-ViLG是百度文心系列的生成模型,目前已到2.0版本。文心ERNIE-ViLG是全球最大規模中文跨模態生成模型。

    ERNIE-ViLG 1

    文心 ERNIE-ViLG 參數規模達到100億,它構建了包含1.45億高質量中文文本-圖像對的大規模跨模態對齊數據集,該模型首次通過自回歸算法將圖像生成和文本生成統一建模,增強模型的跨模態語義對齊能力,顯著提升圖文生成效果。文心 ERNIE-ViLG模型可以做文本生成圖像任務、圖像描述(Image Captioning)任務和生成式視覺問答(Generative VQA)任務。

    ERNIE-ViLG 使用編碼器-解碼器參數共享的 Transformer 作為自回歸生成的主干網絡,同時學習文本生成圖像、圖像生成文本兩個任務。基于圖像向量量化技術,文心 ERNIE-ViLG 把圖像表示成離散的序列,從而將文本和圖像進行統一的序列自回歸生成建模。在文本生成圖像時,文心 ERNIE-ViLG 模型的輸入是文本 token 序列,輸出是圖像 token 序列;圖像生成文本時則根據輸入的圖像序列預測文本內容。兩個方向的生成任務使用同一個 Transformer 模型。視覺和語言兩個模態在相同模型參數下進行相同模式的生成,能夠促進模型建立更好的跨模態語義對齊。

    ERNIE-ViLG 2

    文心 ERNIE-ViLG 2.0 通過視覺、語言等多源知識指引擴散模型學習,強化文圖生成擴散模型對于語義的精確理解,以提升生成圖像的可控性和語義一致性。同時,ERNIE-ViLG 2.0 首次引入基于時間步的混合降噪專家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專家”網絡,從而實現更加細致的降噪任務建模,提升生成圖像的質量。

    基于語言和圖像知識的知識增強算法。 為提升生成圖像的語義一致性和可控性,ERNIE ViLG 2.0 將知識增強算法融入擴散模型學習,在擴散模型學習過程中,引入語言、視覺等多源知識指引模型更加關注文本和圖像中的核心語義元素,同時針對訓練數據噪聲帶來的訓練圖文樣本語義偏差問題提出了文本語義補全的方法,對圖文的語義一致性進行針對性學習,進而實現精準的細粒度語義控制。
    混合降噪專家網絡。 針對模型建模能力不足,導致圖像質量不夠好的問題,ERNIE ViLG 2.0 提出了針對不同階段選擇不同網絡(降噪專家)進行建模的框架,有效地解決了不同階段對模型能力要求不一致的問題,減少降噪任務的互相干擾,提升圖像生成的質量。由于每個生成階段只選取一個專家進行生成,實現了在不增加模型預測計算量的情況下對模型建模能力的擴充。

    Paddlehub

    paddlehub中提供了ERNIE-ViLG的模型API預測,需要安裝paddlepaddle和paddlehub。

    命令行預測如下所示,事先需要申請API key和Secret key。style參數可選如下風格:古風、油畫、水彩、卡通、二次元、浮世繪、蒸汽波藝術、 low poly、像素風格、概念藝術、未來主義、賽博朋克、寫實風格、洛麗塔風格、巴洛克風格、超現實主義、探索無限

    hub run ernie_vilg --text_prompts “火焰,鳳凰,少女,未來感,高清,3d,精致面容,cg感,古風,唯美, 毛發細致,上半身立繪” --style “古風” --output_dir ernie_vilg_out --ak ‘your API key’ --sk ‘your Secret key’

    提示詞生成的圖片1生成的圖片2風格
    巨狼,飄雪,藍色大片煙霧,毛發細致, 煙霧繚繞,高清,3d,cg感,側 面照寫實風格
    人間四月芳菲盡,山寺桃花始盛開古風
    A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome寫實風格
    火焰,鳳凰,少女,未來感,高清,3d,精致面容,cg感,古風,唯美, 毛發細致,上半身立繪古風

    Imagen

    Imagen是谷歌推出的,谷歌發現在純文本預料庫上預訓練的通用大型語言模型對于文本到圖像的生成人物非常有效。

  • 文本被輸入到一個凍結的預訓練Transformer 編碼器,該編碼器輸出向量隊列(文本編碼)
  • 文本編碼器被傳遞到圖像生成擴散模型中,該模型從高斯噪聲逐漸去除噪聲,生成反映文本內語義信息的新圖像,該模型的新圖像是一個64x64大小的圖像。
  • 之后,再使用兩個擴散模型(STM和MTL),以第一步的文本編碼為條件,將圖像超分成一個1024x1024的圖像。
  • Imagen的文本編碼器是T5的編碼器。圖像生成器是擴散模型。Small-to-Medium(STM)超分模型以64x64的圖像為輸入,超級解析生成256x256的圖像,STM也是一個擴散模型。Medium-to-Large(MTL)超分模型以256x256的圖像為輸入,超級解析生成1024x1024的圖像,MTL和STM模型相似,也是一個擴散模型。

    imagen只開源了pytorch版的imagen實現,但是并沒有公布模型參數,所以需要自己訓練數據集生成模型才能夠推理使用。

    Midjourney

    Midjourney是一個由Midjourney研究實驗室開發的人工智能繪圖程序,Midjourney應用托管到聊天應用Discord,用戶注冊Discode并加入Midjourney的服務器就可以開始AI創作了。Midjourney在2023年三月已經迭代到V5版本,V5版本生成的圖片分辨率更高,寫實風格人物主體塑性更加準確。

    國內用戶想要使用Midjourney,一是科學上網,注冊驗證Discord賬號,然后進入MidJourney官網找到Join the Beta綁定Discode賬號,接受邀請,進入Midjourney社區。二是需要付費。

    可在Discode中添加個人服務器,再邀請Midjourney機器人進入個人服務器即可。在底部對話框中輸入指令/imagine + prompt就可生成圖像。

    Midjourney V5版本憑借如下的一張情侶照片"火出圈",逼真地就像人類拿著攝像機照出的相片。相比較于V4,V5版本細節更加逼真;擁有更多的風格;能畫手,在有面部特寫時,也能搞定各種肌膚紋理以及光影效果;對提示詞更加敏感,用更少更精簡的文本生成更好更有效的圖片。風格可以從0-1000中選擇,越靠近1000,越藝術。


    2023年6月底,Midjourney又推出了5.2版本,最令人心動的新功能是Zoom out 功能,通過1.5倍、2倍以及自定義縮放,將相機拉出,并填充所有側面細節,達到重構圖像的效果。

    Stable Diffusion

    Stable Diffusion,該項目由初創公司 StabilityAI 和慕尼黑大學機器視覺學習組和 AI 視頻剪輯技術創業公司 Runway 合作開發,并得到了黑客組織 EleutherAI和德國非盈利組織 LAION 的支持。

    Stable Diffusion不是一個整體模型,它由幾個組件和模型組成。首先是文本理解組件(text-understanding component),將文本信息轉換成數字表示,以捕捉文本中的想法。其次是圖像生成器(image generator),圖像生成器包括兩步,圖像信息創建者( Image information creator)和圖像解碼器(Image Decoder)。

    下圖是stable diffusion的一個流程圖,包含了上述描述的三個組件,每個組件都有相應的神經網絡。

  • 文本理解組件:Clip Text為文本編碼器。以77 token為輸入,輸出為77 token 嵌入向量,每個向量有768維度。
  • 圖像信息創建者:UNet+Scheduler,在潛在空間中逐步處理擴散信息。以文本嵌入向量和由噪聲組成的起始多維數組為輸入,輸出處理的信息數組。
  • 圖像解碼器:自動編碼解碼器,使用處理后的信息數組繪制最終的圖像。以處理后的維度為4x64x64的信息數組為輸入,輸出尺寸為3x512x512的圖像。

  • Stable Diffusionv1-v2版本都已開源,SD模型可微調,常見的微調方法:DreamBooth、textual inversion、hypernetwork和LoRA。

    Stable Diffusion的圖像生成很吃prompt。本來想所有提示詞都一樣,好對所有模型進行一個效果對比,但是SD的表現太拉跨,所以SD模型只展示有效prompt下生成的最好圖片。

    提示詞圖片
    In this photography, the rose and mulberry background is set against the backdrop of a misty garden with tiny water droplets glistening on the leaves and petals
    a highly detailed and whimsical concept art illustration of a white rabbit cub in a pink and blue school uniform and cute plush hat, sitting on a giant apple made of transparent foam, gl crystals, and cherry blossoms within a magical winter wonderland scene. The rabbit has symmetrical ears, bright big eyes, a sweet smile, and a plump body. The scene has a whimsical and enchanting atmosphere, similar to the art style of Studio Ghibli or Hayao Miyazaki, with soft lighting that creates a magical movie-like atmosphere. The image is rendered in high resolution with Pixar or Unreal Engine rendering software, with exquisite fur details that capture the rabbit’s fluffy texture and realistically recreate the snow-covered landscape.
    best quality,extremely detailed CG unity 8k wallpaper, high detailed, a sile view of a giant wolf with fine hair, snowy environment, vast blue smoke
    best quality, masterpiece, highly detailed, refined rendering, peach blossom, flowers, tree, petals on waterm floatin petals, full moon in the sky

    AltDiffusion

    智源研究院首先推出的是雙語AltDiffusion,時隔不到一周,智源團隊又推出重要升級版 AltDiffusion-m9,全面支持中、英、西、法、日、韓、阿、俄、意等九種不同語言的文圖生成任務,后來又推出18種語言文生圖模型AltDiffusion-m18。智源團隊使用多語言預訓練模型和 Stable Diffusion 結合,訓練多語言文圖生成模型 —— AltDiffusion-m18,支持18種語言的文圖生成,包括中文、英文、日語、泰語、韓語、印地語、烏克蘭語、阿拉伯語、土耳其語、越南語、波蘭語、荷蘭語、葡萄牙語、意大利語、西班牙語、德語、法語、俄語。

    AltDiffusion使用 AltCLIP(雙語CLIP),基于Stable-Diffusion訓練了雙語Diffusion模型,訓練數據來自 WuDao數據集和LAION。AltCLIP 則是 AltDiffusion 模型背后的重要訓練技術。利用 OpenAI 發布的預訓練的多模態表征模型 CLIP,將其文本編碼器更換為預訓練的多語言文本編碼器 XLM-R(XLM-R是Facebook推出的多語言模型,2.5TB,100種語言,干凈的CommonCrawl數據集上訓練得到),并通過包含教師學習和對比學習的兩階段訓練模式對語言和圖像表征進行對齊。這種方法在第一階段先將其他語言的表征與 CLIP 中的英文表征做對齊,在這個訓練階段不需要多語言的圖文對數據,而只需要多語言的平行語料。在第二階段只需要少量的多語言圖文對,就能學到效果很好的多語言圖文表征,很大程度上減少了多語言多模態表征模型對于訓練數據的依賴。

    智源提供體驗的平臺為flagstudio.,現模型默認是AltDiffusion-m18。包括幾十種繪畫風格和藝術家風格。AltCLIP-m18模型代碼已經在FlagAI/examples/AltCLIP-m18上開源,權重位于modelshub上,此外還提供了微調,推理,驗證的腳本

    提示詞生成的圖片1生成的圖片2風格
    在飄雪和藍色大片煙霧的環境下,一只毛發細致的巨狼的側面照寫實風格
    人間四月芳菲盡,山寺桃花始盛開國畫+豐子愷
    A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome相機

    eDiff-I

    eDiff-I出自NVIDIA,與其他通過迭代去噪進行圖像合成的生成式文轉圖模型不同,Nvidia的eDiff-I使用一個專門對生成過程的不同區間進行去噪的強大去噪器集合。

    eDiff-I的圖像合成管道是由三個擴散模型組成——一個低分辨率擴散模型,可以合成64 x 64分辨率的樣本,以及兩個高分辨率擴散模型,可以分別將圖像逐步上采樣到256 x 256和1024 x 1024分辨率。eDiff-I用到了兩個文本編碼器,T5和CLIP,還有CLIP圖像編碼器,對文本和圖像進行編碼后,送入級聯擴散模型中,逐漸生成分辨率為1024x1024的圖像。

    eDiff-I沒找到開源的GitHub項目,也沒找到可試用的網址或者API,只有youtube上eDiff-I的效果展示video。

    阿里通義

    阿里文生圖模型名稱為ModelScope,暫不支持pipeline推理、下載和訓練。ModelScope整體參數模型約50億,支持中英雙語輸入,輸入token最大為500,生成圖片尺寸有三種選擇,1024:1024,1280:768和768:1280。

    文本到圖像生成擴散模型由特征提取、級聯生成擴散模型等模塊組成。通過知識重組與可變維度擴散模型加速收斂并提升最終生成效果。ModelScope模型分為文本特征提取(CLIP)、文本特征到圖像特征生成(Transformer)、級聯擴散生成模型(UNet)等子網絡組成,訓練也是分別進行。

  • 文本特征提取使用大規模圖文樣本對數據上訓練的CLIP的文本分支得到。
  • 文本到圖像特征生成部分采用GPT結構,是一個width為2048、32個heads、24個blocks的Transformer網絡,利用causal attention mask實現GPT預測。
  • 64x64、256x256、1024x1024擴散模型均為UNet結構,在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding條件。為降低計算復雜度,在256擴散模型訓練過程中,隨機64x64 crop、128x128 crop、256x256 crop進行了multi-grid訓練,來提升生成質量;在1024擴散模型中,對輸入圖隨機256x256 crop。
  • 提示詞生成圖片
    在飄雪和藍色大片煙霧的環境下,一只毛發細致的巨狼的側面照
    人間四月芳菲盡,山寺桃花始盛開
    A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome

    總結

    以上是生活随笔為你收集整理的【文生图系列】文生图大模型合集与效果对比的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。