CogVLM:智谱AI 新一代多模态大模型
自5月18日發(fā)布并開源 VisualGLM-6B 以來,智譜AI&清華KEG潛心打磨,致力于開發(fā)更加強大的多模態(tài)大模型。
基于對視覺和語言信息之間融合的理解,我們提出了一種新的視覺語言基礎(chǔ)模型 CogVLM。CogVLM 可以在不犧牲任何 NLP 任務性能的情況下,實現(xiàn)視覺語言特征的深度融合。
我們訓練的 CogVLM-17B 是目前多模態(tài)權(quán)威學術(shù)榜單上綜合成績第一的模型,在14個數(shù)據(jù)集上取得了state-of-the-art或者第二名的成績。
我們可以初步體驗 CogVLM 的效果:
在上圖中,CogVLM 能夠準確識別出 4 個房子(3個完整可見,1個只有放大才能看到);作為對比,GPT-4V 僅能識別出其中的 3 個。
為促進多模態(tài)基礎(chǔ)模型領(lǐng)域的研究和工業(yè)應用,我們將 CogVLM-17B 開源出來,且提供了單臺 3090 服務器即可運行的微調(diào)代碼,供大家研究和使用。
Github:https://github.com/THUDM/CogVLM
Huggingface:https://huggingface.co/THUDM/CogVLM
魔搭社區(qū):https://www.modelscope.cn/models/ZhipuAI/CogVLM
Paper:https://github.com/THUDM/CogVLM/blob/main/assets/cogvlm-paper.pdf
一、模型架構(gòu)
CogVLM 之所以能取得效果的提升,最核心的思想是“視覺優(yōu)先”。
之前的多模態(tài)模型通常都是將圖像特征直接對齊到文本特征的輸入空間去,并且圖像特征的編碼器通常規(guī)模較小,這種情況下圖像可以看成是文本的“附庸”,效果自然有限。
而CogVLM在多模態(tài)模型中將視覺理解放在更優(yōu)先的位置,使用5B參數(shù)的視覺編碼器和6B參數(shù)的視覺專家模塊,總共11B參數(shù)建模圖像特征,甚至多于文本的7B參數(shù)量。
CogVLM 的結(jié)構(gòu)如下所示:
模型共包含四個基本組件:ViT 編碼器,MLP 適配器,預訓練大語言模型(GPT-style)和視覺專家模塊。
ViT編碼器:在 CogVLM-17B 中,我們采用預訓練的 EVA2-CLIP-E。
MLP 適配器:MLP 適配器是一個兩層的 MLP(SwiGLU),用于將 ViT 的輸出映射到與詞嵌入的文本特征相同的空間。
預訓練大語言模型:CogVLM 的模型設(shè)計與任何現(xiàn)有的 GPT-style的預訓練大語言模型兼容。具體來說,CogVLM-17B 采用 Vicuna-7B-v1.5 進行進一步訓練;我們也選擇了 GLM 系列模型和 Llama 系列模型做了相應的訓練。
視覺專家模塊:我們在每層添加一個視覺專家模塊,以實現(xiàn)深度的視覺 - 語言特征對齊。具體來說,每層視覺專家模塊由一個 QKV 矩陣和一個 MLP 組成。
模型在15億張圖文對上預訓練了4096個A100*days,并在構(gòu)造的視覺定位(visual grounding)數(shù)據(jù)集上進行二階段預訓練。在對齊階段,CogVLM使用了各類公開的問答對和私有數(shù)據(jù)集進行監(jiān)督微調(diào),使得模型能回答各種不同類型的提問。
二、模型效果
為了更為嚴格地驗證CogVLM的性能和泛化能力,我們在一系列多模態(tài)基準上進行了定量評估。這些基準大致分為三類(共 14 個),包括圖像字幕(Image Captioning)、視覺問答(Visual QA)、視覺定位(Visual Grounding)。
在這些基準當中,CogVLM-17B 在 10 項基準中取得 SOTA性能,而在另外四項(包括 VQAv2, OKVQA, TextVQA, COCO captioning等)取得第二的成績。整體性能超越或匹配谷歌的PaLI-X 55B。
CogVLM 在 10 項評測中取得SOTA效果,4項評測僅次于SOTA。第二張圖為 TDIUC 基準評測效果。
此外,我們可以通過幾個簡單的示例,對比最近比較受關(guān)注的 MiniGPT-4、LLaVA-v1.5,可以看出,CogVLM-17B在圖像理解、模型幻覺以及文本識別方面都具有不錯的效果。
———— 示例 1 ————
GPT-4 vsion中的一個著名例子。目前主流的開源的模型包,括知名的MniGPT-4和最近發(fā)布的 LLAVA 1.5,均不能理解該視覺場景的有趣之處,而CogVLM則精準地說出VGA接口充電不合常理。
———— 示例 2 ————
這張圖片內(nèi)容較為復雜,是日常生活的場景。CogVLM精準地說出來所有的菜肴和餐具的種類,并且判斷出了鏡子(“許多動物甚至不能理解鏡子”)是反射而并非真實,且注意到了角落的人的腿。整個復雜的描述中未出現(xiàn)錯誤與幻覺。相對地,MiniGPT-4和LLaVA-1.5都出現(xiàn)了幻覺現(xiàn)象且不夠全面。
———— 示例 3 ————
帶文字的圖片。CogVLM忠實地描述了場景和相應的文字,而其他模型沒有輸出文字且有大量幻覺。
三、研究者說
問:CogVLM和VisualGLM之間有什么關(guān)聯(lián)和不同?
答:CogVLM延續(xù)了VisualGLM的研究,但進行了較大尺度的改進。首先體現(xiàn)在多模態(tài)融合的技術(shù)上,CogVLM采用了最新的圖像和文本信息融合的方案,在我們文章中已經(jīng)有相關(guān)的說明。其次,VisualGLM 是一個依賴于具體語言模型的多模態(tài)模型,而CogVLM則是一個更廣闊的系列,不僅有基于GLM的雙語模型,也有基于Llama2系列的英文模型。這次開源的 17B 模型就是基于Vicuna-7B 的英文模型。其實我們內(nèi)部也訓練完成了更大的英文模型和基于GLM的雙語模型,后面可能也會開源出來。
問:VisualGLM-6B 模型中視覺相關(guān)的參數(shù)僅為 1.6B,而作為對比,CogVLM-17B 的視覺相關(guān)參數(shù)達到了 11 B(甚至超過了語言模型的 7B 參數(shù))。為什么要采用更大視覺參數(shù)的方式?
答:首先,通過大量的實驗,我們得出一個結(jié)論,即更大的參數(shù)量對視覺多模態(tài)模型很重要。
之前有觀點認為視覺不需要大模型。因為人們在一些傳統(tǒng)的數(shù)據(jù)集(例如ImageNet-1k等)上做的驗證,發(fā)現(xiàn)模型變大對性能的提升似乎并不是很大。但之所以出現(xiàn)這個現(xiàn)象,原因在于傳統(tǒng)數(shù)據(jù)集大部分的測試樣例太簡單了,小的模型足以應對這樣的問題。
然而人類世界中視覺模型需要認識的事物遠遠不止幾千、幾萬類,例如各種品牌商標、名人相貌、地點、動植物品類、商品品類等,小模型不可能記住;同時在這種“開放詞典”的設(shè)定下,由于可能類別增加,出錯的概率也會上升。我們做了一些實驗,發(fā)現(xiàn)對于這些真實場景中的問題,模型變大往往會帶來非常明顯的效果提升。
當然,還有一個原因是,之前的視覺大模型往往都是閉源的,大部分很難真正地體驗模型大小所帶來的性能區(qū)別。也是基于此,雖然 CogVLM在性能上已經(jīng)超過一眾大公司的閉源模型(例如PaLI、PaLM-E、BEiT-3、GIT2等),但我們依然選擇像 VisualGLM一樣,把它開源出來。我們希望能通過開源來進一步地促進多模態(tài)模型在研究和工業(yè)應用方面的發(fā)展。
問:我們在使用圖文理解模型的時候,模型經(jīng)常會給出一些圖片中并沒有包含的信息。請問該如何減少模型的這種幻覺呢?
答:模型有幻覺,根源還是在于模型能力不足。
之前的多模態(tài)模型,無論是MiniGPT-4、VisualGLM-6B還是LLaVA,經(jīng)常會在描述時說一些明顯不存在于圖像中的物體或者錯誤的顏色。本質(zhì)還是模型無法識別某些特別的視覺表示,從而遵循先驗輸出在該場景中的常見物體。
在這方面,我們通過特定的微調(diào),對不確定的物體,模型會輸出“不清楚”,以此來減少幻覺現(xiàn)象,從而提高用戶體驗。當然這并不能徹底消除幻覺,但可以大大降低幻覺出現(xiàn)的頻次。另外一個有效的解決幻覺的方法,就是用更大的參數(shù),以及更多的訓練量。經(jīng)過這兩種方案,CogVLM 的幻覺已經(jīng)降到一個比較低的水平。
問:從CogView、CogVideo到VisualGLM、RDM、CogVLM等,你的工作一直推動圖片理解、視頻理解,圖片生成,視頻生成。你為什么要堅持做多模態(tài)的基座模型呢?
答:無論是現(xiàn)實還是虛擬的界面的感知、交互,主要以視覺等為媒介。現(xiàn)在的大語言模型雖然有智能的涌現(xiàn),但是仍然被關(guān)在“籠子”里,它與這個世界是割裂的。一個完整的智能agent,必然是多模態(tài)的理解。多模態(tài)理解是智能發(fā)展和應用的必由之路。也正是基于同樣的理解,智譜AI,希望能夠在這個方向上趟出一條路來
總結(jié)
以上是生活随笔為你收集整理的CogVLM:智谱AI 新一代多模态大模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 10月19日发布!OPPO Find N
- 下一篇: 京东开启江苏法拍节活动 八大山人、艾轩等