Midjourney 危,Stable Diffusion-XL 开启公测:会画手、能写字,再也不用写长 prompt 了
開源、免費的 Stable Diffusion 就能達到 Midjourney 水平!
自從 Midjourney 發布 v5 之后,在生成圖像的人物真實程度、手指細節等方面都有了顯著改善,并且在 prompt 理解的準確性、審美多樣性和語言理解方面也都取得了進步。
相比之下,Stable Diffusion 雖然免費、開源,但每次都要寫一大長串的 prompt,想生成高質量的圖像全靠多次抽卡。
最近 Stability AI 的官宣,正在研發的 Stable Diffusion XL 開始面向公眾測試,目前可以在 Clipdrop 平臺免費試用。
Stability AI 的創始人兼首席執行官 Emad Mostaque 表示,目前該模型仍然處于訓練階段,等參數穩定后將會開源;SD-XL 在「握手」等圖像細節方面會表現更好,幾乎完全可控。
Stable Diffusion XL 也并不是最終發布版的名字,并且也并非是 v3,因為 SD-XL 的架構和 SD-v2 系列的模型架構非常相似。
Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.
簡約的家庭健身房,橡膠地板,壁掛式電視,舉重凳,藥球,啞鈴,瑜伽墊,高科技設備,高細節,組織和效率
下面幾張 SD-XL 官方發布的例圖,可以看出圖像的質量已經非常能打了。
不過有時候 less 并不代表 more,有網友認為 SD-XL 為了擺脫「糟糕的品味」,設定了太多的規則,定制化空間越來越小,不符合大多數人的喜好。目前 v1.5 的 Stable Diffusion 仍然是社區內最流行的基座模型。
網友表示希望新版 SD 能夠和 SD 2.1 版本的嵌入、hypernetworkds 和 Lora 模型保持兼容,再從零開始重訓的話就太難受了。
也有網友認為,SD-XL 的表現和 civit 網站上網友分享的模型差不多,新模型的效果也并不是特別驚艷,也就是平均水平。
SD-XL:開源版 Midjourney
關于 Stable Diffusion XL 模型的具體信息,官方并沒有透露太多,目前只知道是一個與 v2 模型架構相似、但規模和參數量更大的模型。
SD-v2.1 包括 9 億參數,SD-XL 大約有 23 億參數,Emad 表示正式版可能會額外發布一個更小的蒸餾版本。
SD-XL 相比之前版本的改進如下:
-
使用較短的描述性 prompt 即可生成高質量圖像
-
可以生成更貼合 prompt 的圖像
-
圖像中的人體結構更合理
-
與 v2.1 和 v1.5 版本 (程度較輕) 相比,SD-XL 生成的圖片更符合大眾審美
-
負面提示詞(negative prompt)是可選項
-
生成的肖像圖更逼真
-
圖像中的文本更清晰
需要注意的是,SD-XL 可能與之前版本的插件不兼容。
清晰可讀的文字
在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中,并不具備在圖片中生成可讀文本的能力。
雖然 SD-XL 生成的文本信息并不總是準確,但確實得到了巨大的提升。
Photo of a woman sitting in a restaurant holding a menu that says “Menu”
一個女人坐在餐館里拿著寫著「Menu」的菜單
Photo of a man holding a sign that says “Stable Diffusion”
一個男人舉著寫著「Stable Diffusion」的牌子
a young female holding a sign that says “Stable Diffusion”,highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light
一個年輕的女性舉著一個牌子,上面寫著「Stable Diffusion」,頭發高亮,坐在餐廳外面,棕色的眼睛,穿著裙子,側燈
更好的人體結構
Stable Diffusion 在生成人體解剖結構方面一直存在諸多問題,多幾條腿、少個胳膊實在是太常見不過的問題,通常需要使用 inpaint 功能進一步對圖像細節進行修正;或者是使用 ControlNet 的 Open Pose 功能從參考圖像中復制人體的姿態。
比如說 SD-v1.5 生成瑜伽的圖像,經常會出現扭曲的人體。
Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting
一個女人的照片在瑜伽服裝,三角形的姿勢,海灘在晚上,邊緣照明
SD-XL 雖然生成的圖像并不完美,不過在人體姿態方面已經有了顯著的進步。
更有美感(more aesthetic)
比如同樣以屋子為主題,SD-XL 可以生成更對稱、視覺效果更好的照片。
SD-XL 在肖像照片上也有顯著改進。
photo shot of a woman
一個女人的照片
更貼合 prompt 的圖像
SD-XL 可以更好地理解輸入的 prompt,并生成更精確的圖像。
比如以 duotone(雙色)為例,SD-v1.5 只會生成黑白圖像,而 SD-XL 則可以生成具有多種顏色的雙色調圖像。
與 v1 模型相比,理解提示符的能力有所提高。
duotone portrait of a woman
一個女人的雙色調肖像
因為 SD-XL 同屬 v2 系列模型,所以文本模型尺寸更大,可以比 v1 模型更好地理解提示詞。
比如下面的例子中,v1.5 模型始終無法理解圖像中的兩個主題(機器人和人類),但 SD-XL 模型可以生成正常的圖像(雖然機器人還是不夠 big)。
big robot friend sitting next to a human, ghost in the shell style, anime wallpaper
大機器人朋友坐在人類旁邊攻殼機動隊風格的動漫壁紙
a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background
一個年輕人,頭發染得很亮,棕色眼睛,穿著白襯衫和藍色牛仔褲,站在海灘上,背景是一座火山
藝術風格
在藝術風格上,SD-XL 并沒有顯著改進,和之前的版本各有千秋。
比如兩個模型以不同的角度生成了 Edward Hopper 風格的圖像。
New York city by Edward Hopper
Edward Hopper 繪制的紐約
Leonid Afmov 的風格中,SD-v1.5 更準確,SD-XL 缺少了不同顏色的筆刷(unmistakable colorful board brushstrokes)。
New York city by Leonid Afremov
Leonid Afemov 繪制的紐約
William-Adolphe Bouguereau 風格中,V1.5 和 SDXL 都可以生成一些類似的內容,其中 SD-XL 更接近 Bouguereau 創作的經典學院派繪畫,并且面部細節更多。
Portrait of beautiful woman by William-Adolphe Bouguereau
William-Adolphe Bouguereau 繪制的美女肖像
風格轉變問題
在添加一些無關緊要的關鍵字后,模型的風格可能會突然轉變。
比如先生成一張照片風格的圖像。
a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background
一個年輕人,頭發染得很亮,棕色眼睛,穿著白襯衫和藍色牛仔褲,站在海灘上,背景是一座火山
再添加一條黃色的圍巾后,圖像風格就變成了卡通風格。
a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background
一個年輕人,頭發染得很亮,棕色的眼睛,圍著黃色的圍巾,穿著白襯衫和藍色牛仔褲,站在一個火山為背景的海灘上
問題的故障可能源于預覽問題,在正式發布后該問題不知能否得到解決。
參考資料:
-
https://clipdrop.co/stable-diffusion
本文來自微信公眾號:新智元 (ID:AI_era)
總結
以上是生活随笔為你收集整理的Midjourney 危,Stable Diffusion-XL 开启公测:会画手、能写字,再也不用写长 prompt 了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020阅兵仪式什么时候开始 阅兵直播在
- 下一篇: 微信钱包怎么隐藏余额不显示金额