Stability AI 连扔两个王炸,首个开源 RLHF 模型登基,DeepFloyd IF 像素级出图
開源先鋒 StabilityAI 一天扔了兩枚重磅炸彈:發(fā)布史上首個開源 RLHF 大語言模型,以及像素級圖像模型 DeepFloyd IF。開源社區(qū)狂喜!
最近,大名鼎鼎的 Stable Diffusion 背后的公司,一連整了兩個大活。
首先,Stability AI 重磅發(fā)布了世上首個基于 RLHF 的開源 LLM 聊天機器人 ——StableVicuna。
StableVicuna 基于 Vicuna-13B 模型實現(xiàn),是第一個使用人類反饋訓練的大規(guī)模開源聊天機器人。
有網(wǎng)友經(jīng)過實測后表示,StableVicuna 就是目前當之無愧的 13B LLM 之王!
對此,1x exited 創(chuàng)始人表示,這可以看作是自 ChatGPT 推出以來的第二個里程碑。
另外,Stability AI 發(fā)布了開源模型 DeepFloyd IF,這個文本到圖像的級聯(lián)像素擴散模型功能超強,可以巧妙地把文本集成到圖像中。
這個模型的革命性意義在于,它一連解決了文生圖領(lǐng)域的兩大難題:正確生成文字,正確理解空間關(guān)系!
秉持著開源的一貫傳統(tǒng),DeepFloyd IF 在以后會完全開源。
Stailibity AI,果然是開源界當之無愧的扛把子。
StableVicuna
世上首個開源 RLHF LLM 聊天機器人 StableVicuna,由 Stability AI 震撼發(fā)布!
一位 Youtube 主播對 Stable Vicuna 進行了實測,Stable Vicuna 在每一次測試中,都擊敗了前任王者 Vicuna。
所以這位 Youtuber 激動地喊出:Stable Vicuna 就是目前最強大的 13B LLM 模型,是當之無愧的 LLM 模型之王!
StableVicuna 基于小羊駝 Vicuna-13B 模型實現(xiàn),是 Vicuna-13B 的進一步指令微調(diào)和 RLHF 訓練的版本。
而 Vicuna-13B 是 LLaMA-13B 的一個指令微調(diào)模型。
從以下基準測試可以看出,StableVicuna 與類似規(guī)模的開源聊天機器人在整體性能上的比較。
StableVicuna 可以做基礎(chǔ)數(shù)學題。
可以寫代碼。
還能為你講解語法知識。
開源聊天機器人平替狂潮
Stability AI 想做這樣一個開源的聊天機器人,當然也是受了此前 LLaMa 權(quán)重泄露引爆的 ChatGPT 平替狂潮的影響。
從去年春天 Character.ai 的聊天機器人,到后來的 ChatGPT 和 Bard,都引發(fā)了大家對開源平替的強烈興趣。
這些聊天模型的成功,基本都歸功于這兩種訓練范式:指令微調(diào)和人類反饋強化學習 (RLHF)。
這期間,開發(fā)者一直在努力構(gòu)建開源框架幫助訓練這些模型,比如 trlX、trl、DeepSpeed Chat 和 ColossalAI 等,然而,卻并沒有一個開源模型,能夠同時應(yīng)用指令微調(diào)和 RLHF。
大多數(shù)模型都是在沒有 RLHF 的情況下進行指令微調(diào)的,因為這個過程十分復(fù)雜。
最近,Open Assistant、Anthropic 和 Stanford 都開始向公眾提供 RLHF 數(shù)據(jù)集。
Stability AI 把這些數(shù)據(jù)集與 trlX 提供的 RLHF 相結(jié)合,就得到了史上第一個大規(guī)模指令微調(diào)和 RLHF 模型 ——StableVicuna。
訓練過程
為了實現(xiàn) StableVicuna 的強大性能,研究者利用 Vicuna 作為基礎(chǔ)模型,并遵循了一種典型的三級 RLHF 管線。
Vicuna 在 130 億參數(shù) LLaMA 模型的基礎(chǔ)上,使用 Alpaca 進行調(diào)整后得到的。
他們混合了三個數(shù)據(jù)集,訓練出具有監(jiān)督微調(diào) (SFT) 的 Vicuna 基礎(chǔ)模型:
-
OpenAssistant Conversations Dataset (OASST1),一個人工生成的、人工注釋的助理式對話語料庫,包含 161,443 條消息,分布在 66,497 個對話樹中,使用 35 種不同的語言;
-
GPT4 All Prompt Generations,由 GPT-3.5 Turbo 生成的 437,605 個提示和響應(yīng)的數(shù)據(jù)集;
-
Alpaca,這是由 OpenAI 的 text-davinci-003 引擎生成,包含 52,000 條指令和演示的數(shù)據(jù)集。
-
研究者使用 trlx,訓練了一個獎勵模型。在以下這些 RLHF 偏好數(shù)據(jù)集上,研究者得到了 SFT 模型,這是獎勵模型的基礎(chǔ)。
-
OpenAssistant Conversations Dataset (OASST1),包含 7213 個偏好樣本;
-
Anthropic HH-RLHF,一個關(guān)于 AI 助手有用性和無害性的偏好數(shù)據(jù)集,包含 160,800 個人類標簽;
-
斯坦福人類偏好 (SHP),這是一個數(shù)據(jù)集,包含 348,718 個人類對各種不同回答的集體偏好,包括 18 個從烹飪到哲學的不同學科領(lǐng)域。
最后,研究者使用了 trlX,進行近端策略優(yōu)化 (Proximal Policy Optimization, PPO) 強化學習,對 SFT 模型進行了 RLHF 訓練,然后,StableVicuna 就誕生了!
據(jù) Stability AI 稱,會進一步開發(fā) StableVicuna,并且會很快在 Discord 上推出。
另外,Stability AI 還計劃給 StableVicuna 一個聊天界面,目前正在開發(fā)中。
相關(guān)演示已經(jīng)可以在 HuggingFace 上查看了,開發(fā)者也可以在 Hugging Face 上下載模型的權(quán)重,作為原始 LLaMA 模型的增量。
但如果想使用 StableVicuna,還需要獲得原始 LLaMA 模型的訪問權(quán)限。
獲得權(quán)重增量和 LLaMA 權(quán)重后,使用 GitHub 存儲庫中提供的腳本將它們組合起來,就能得到 StableVicuna-13B 了。不過,也是不允許商用的。
DeepFloyd IF
在同一時間,Stability AI 還放出了一個大動作。
你敢信,AI 一直無法正確生成文字這個老大難問題,竟然被解決了?(基本上)
沒錯,下面這張「完美」的招牌,就是由 StabilityAI 全新推出的開源圖像生成模型 ——DeepFloyd IF 制作的。
除此之外,DeepFloyd IF 還能夠生成正確的空間關(guān)系。
模型剛一發(fā)布,網(wǎng)友們已經(jīng)玩瘋了:
prompt: Robot holding a neon sign that says "I can spell".
不過,對于 prompt 中沒有明確說明的文字,DeepFloyd IF 大概率還是會出錯。
prompt:A neon sign of an American motel at night with the sign javilop
官方演示
順便一提,在硬件的需求上,如果想要實現(xiàn)模型所能支持的最大 1,024 x 1,024 像素輸出,建議使用 24GB 的顯存;如果只要 256 x 256 像素,16GB 的顯存即可。
是的,RTX 3060 16G 就能跑。
代碼實現(xiàn):https://gist.github.com/ Stella2211 / ab17625d63aa03e38d82ddc8c1aae151
開源版谷歌 Imagen
2022 年 5 月,谷歌高調(diào)發(fā)布了自家的圖像生成模型 Imagen。
根據(jù)官方演示的效果,Imagen 不僅在質(zhì)量上完勝 OpenAI 最強的 DALL-E 2,更重要的是 —— 它能夠正確地生成文本。
迄今為止,沒有任何一個開源模型能夠穩(wěn)定地實現(xiàn)這一功能。
與其他生成式 AI 模型一樣,Imagen 也依賴于一個凍結(jié)的文本編碼器:先將文本提示轉(zhuǎn)換為嵌入,然后由擴散模型解碼成圖像。但不同的是,Imagen 并沒有使用多模態(tài)訓練的 CLIP,而是使用了大型 T5-XXL 語言模型。
這次,StabilityAI 推出的 DeepFloyd IF 復(fù)刻的正是這一架構(gòu)。
甚至在測試中,DeepFloyd IF 憑借著 COCO 數(shù)據(jù)集上 6.66 的 zero-shot FID 分數(shù),直接超越了谷歌的 Imagen,以及一眾競品(包括自家 Stable Diffusion)。
下一代圖像生成 AI 模型
具體來說,DeepFloyd IF 是一個模塊化、級聯(lián)的像素擴散模型。
模塊化:
DeepFloyd IF 由幾個神經(jīng)模塊組成(可以解決獨立任務(wù)的神經(jīng)網(wǎng)絡(luò)),它們在一個架構(gòu)中相互協(xié)同工作。
級聯(lián):
DeepFloyd IF 以多個模型級聯(lián)的方式實現(xiàn)高分辨率輸出:首先生成一個低分辨率的樣本,然后通過連續(xù)的超分辨率模型進行上采樣,最終得到高分辨率圖像。
擴散:
DeepFloyd IF 的基本模型和超分辨率模型都是擴散模型,其中使用馬爾可夫鏈的步驟將隨機噪聲注入到數(shù)據(jù)中,然后反轉(zhuǎn)該過程從噪聲中生成新的數(shù)據(jù)樣本。
像素:
DeepFloyd IF 在像素空間工作。與潛在擴散模型(如 Stable Diffusion)不同,擴散是在像素級別實現(xiàn)的,其中使用潛在表征。
上面這個流程圖展示的就是,DeepFloyd IF 三個階段的性能:
階段 1:
基本擴散模型將定性文本轉(zhuǎn)換為 64x64 圖像。DeepFloyd 團隊已經(jīng)訓練了三個版本的基本模型,每個版本都有不同的參數(shù):IF-I 400M、IF-I 900M 和 IF-I 4.3B。
階段 2:
為了「放大」圖像,團隊將兩個文本條件超分辨率模型(Efficient U-Net)應(yīng)用于基本模型的輸出。其中之一將 64x64 圖像放大到 256x256 圖像。同樣,這個模型也有幾個版本:IF-II 400M 和 IF-II 1.2B。
階段 3:
應(yīng)用第二個超分辨率擴散模型,生成生動的 1024x1024 圖像。最后的第三階段模型 IF-III 擁有 700M 參數(shù)。
值得注意的是,團隊還沒有正式發(fā)布第三階段的模型,但 DeepFloyd IF 的模塊化特性讓我們可以使用其他上采樣模型 —— 如 Stable Diffusion x4 Upscaler。
團隊表示,這項工作展示了更大的 UNet 架構(gòu)在級聯(lián)擴散模型的第一階段的潛力,從而為文本到圖像合成展示了充滿希望的未來。
數(shù)據(jù)集訓練
DeepFloyd IF 是在一個定制的高質(zhì)量 LAION-A 數(shù)據(jù)集上進行訓練的,該數(shù)據(jù)集包含 10 億(圖像,文本)對。
LAION-A 是 LAION-5B 數(shù)據(jù)集英文部分的一個子集,基于相似度哈希去重后獲得,對原始數(shù)據(jù)集進行了額外的清理和修改。DeepFloyd 的定制過濾器用于刪除水印、NSFW 和其他不適當?shù)膬?nèi)容。
目前,DeepFloyd IF 模型的許可僅限于非商業(yè)目的的研究,在完成反饋的收集之后,DeepFloyd 和 StabilityAI 團隊將發(fā)布一個完全免費的商業(yè)版本。
參考資料:
-
https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot
-
https://stability.ai/blog/deepfloyd-if-text-to-image-model
本文來自微信公眾號:新智元 (ID:AI_era)
總結(jié)
以上是生活随笔為你收集整理的Stability AI 连扔两个王炸,首个开源 RLHF 模型登基,DeepFloyd IF 像素级出图的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SAP UI5里input field
- 下一篇: 华为p30pro耳机型号