當前位置：首頁 > 运维知识 > MAC >内容正文

MAC

CogVLM：智谱AI 新一代多模态大模型

發(fā)布時間：2023/11/23 MAC 34 博士

生活随笔收集整理的這篇文章主要介紹了 CogVLM：智谱AI 新一代多模态大模型小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

自5月18日發(fā)布并開源 VisualGLM-6B 以來，智譜AI&清華KEG潛心打磨，致力于開發(fā)更加強大的多模態(tài)大模型。

基于對視覺和語言信息之間融合的理解，我們提出了一種新的視覺語言基礎(chǔ)模型 CogVLM。CogVLM 可以在不犧牲任何 NLP 任務性能的情況下，實現(xiàn)視覺語言特征的深度融合。

我們訓練的 CogVLM-17B 是目前多模態(tài)權(quán)威學術(shù)榜單上綜合成績第一的模型，在14個數(shù)據(jù)集上取得了state-of-the-art或者第二名的成績。

我們可以初步體驗 CogVLM 的效果：

在上圖中，CogVLM 能夠準確識別出 4 個房子（3個完整可見，1個只有放大才能看到）；作為對比，GPT-4V 僅能識別出其中的 3 個。

為促進多模態(tài)基礎(chǔ)模型領(lǐng)域的研究和工業(yè)應用，我們將 CogVLM-17B 開源出來，且提供了單臺 3090 服務器即可運行的微調(diào)代碼，供大家研究和使用。

Github：https://github.com/THUDM/CogVLM

Huggingface：https://huggingface.co/THUDM/CogVLM

魔搭社區(qū)：https://www.modelscope.cn/models/ZhipuAI/CogVLM

Paper：https://github.com/THUDM/CogVLM/blob/main/assets/cogvlm-paper.pdf

一、模型架構(gòu)

CogVLM 之所以能取得效果的提升，最核心的思想是“視覺優(yōu)先”。

之前的多模態(tài)模型通常都是將圖像特征直接對齊到文本特征的輸入空間去，并且圖像特征的編碼器通常規(guī)模較小，這種情況下圖像可以看成是文本的“附庸”，效果自然有限。

而CogVLM在多模態(tài)模型中將視覺理解放在更優(yōu)先的位置，使用5B參數(shù)的視覺編碼器和6B參數(shù)的視覺專家模塊，總共11B參數(shù)建模圖像特征，甚至多于文本的7B參數(shù)量。

CogVLM 的結(jié)構(gòu)如下所示：

模型共包含四個基本組件：ViT 編碼器，MLP 適配器，預訓練大語言模型（GPT-style）和視覺專家模塊。

ViT編碼器：在 CogVLM-17B 中，我們采用預訓練的 EVA2-CLIP-E。

MLP 適配器：MLP 適配器是一個兩層的 MLP（SwiGLU），用于將 ViT 的輸出映射到與詞嵌入的文本特征相同的空間。

預訓練大語言模型：CogVLM 的模型設(shè)計與任何現(xiàn)有的 GPT-style的預訓練大語言模型兼容。具體來說，CogVLM-17B 采用 Vicuna-7B-v1.5 進行進一步訓練；我們也選擇了 GLM 系列模型和 Llama 系列模型做了相應的訓練。

視覺專家模塊：我們在每層添加一個視覺專家模塊，以實現(xiàn)深度的視覺 - 語言特征對齊。具體來說，每層視覺專家模塊由一個 QKV 矩陣和一個 MLP 組成。

模型在15億張圖文對上預訓練了4096個A100*days，并在構(gòu)造的視覺定位（visual grounding）數(shù)據(jù)集上進行二階段預訓練。在對齊階段，CogVLM使用了各類公開的問答對和私有數(shù)據(jù)集進行監(jiān)督微調(diào)，使得模型能回答各種不同類型的提問。

二、模型效果

為了更為嚴格地驗證CogVLM的性能和泛化能力，我們在一系列多模態(tài)基準上進行了定量評估。這些基準大致分為三類（共 14 個），包括圖像字幕（Image Captioning）、視覺問答（Visual QA）、視覺定位（Visual Grounding）。

在這些基準當中，CogVLM-17B 在 10 項基準中取得 SOTA性能，而在另外四項（包括 VQAv2, OKVQA, TextVQA, COCO captioning等）取得第二的成績。整體性能超越或匹配谷歌的PaLI-X 55B。

CogVLM 在 10 項評測中取得SOTA效果，4項評測僅次于SOTA。第二張圖為 TDIUC 基準評測效果。

此外，我們可以通過幾個簡單的示例，對比最近比較受關(guān)注的 MiniGPT-4、LLaVA-v1.5，可以看出，CogVLM-17B在圖像理解、模型幻覺以及文本識別方面都具有不錯的效果。

———— 示例 1 ————

GPT-4 vsion中的一個著名例子。目前主流的開源的模型包，括知名的MniGPT-4和最近發(fā)布的 LLAVA 1.5，均不能理解該視覺場景的有趣之處，而CogVLM則精準地說出VGA接口充電不合常理。

———— 示例 2 ————

這張圖片內(nèi)容較為復雜，是日常生活的場景。CogVLM精準地說出來所有的菜肴和餐具的種類，并且判斷出了鏡子（“許多動物甚至不能理解鏡子”）是反射而并非真實，且注意到了角落的人的腿。整個復雜的描述中未出現(xiàn)錯誤與幻覺。相對地，MiniGPT-4和LLaVA-1.5都出現(xiàn)了幻覺現(xiàn)象且不夠全面。

———— 示例 3 ————

帶文字的圖片。CogVLM忠實地描述了場景和相應的文字，而其他模型沒有輸出文字且有大量幻覺。

三、研究者說

問：CogVLM和VisualGLM之間有什么關(guān)聯(lián)和不同？

答：CogVLM延續(xù)了VisualGLM的研究，但進行了較大尺度的改進。首先體現(xiàn)在多模態(tài)融合的技術(shù)上，CogVLM采用了最新的圖像和文本信息融合的方案，在我們文章中已經(jīng)有相關(guān)的說明。其次，VisualGLM 是一個依賴于具體語言模型的多模態(tài)模型，而CogVLM則是一個更廣闊的系列，不僅有基于GLM的雙語模型，也有基于Llama2系列的英文模型。這次開源的 17B 模型就是基于Vicuna-7B 的英文模型。其實我們內(nèi)部也訓練完成了更大的英文模型和基于GLM的雙語模型，后面可能也會開源出來。

問：VisualGLM-6B 模型中視覺相關(guān)的參數(shù)僅為 1.6B，而作為對比，CogVLM-17B 的視覺相關(guān)參數(shù)達到了 11 B（甚至超過了語言模型的 7B 參數(shù)）。為什么要采用更大視覺參數(shù)的方式？

答：首先，通過大量的實驗，我們得出一個結(jié)論，即更大的參數(shù)量對視覺多模態(tài)模型很重要。

之前有觀點認為視覺不需要大模型。因為人們在一些傳統(tǒng)的數(shù)據(jù)集（例如ImageNet-1k等）上做的驗證，發(fā)現(xiàn)模型變大對性能的提升似乎并不是很大。但之所以出現(xiàn)這個現(xiàn)象，原因在于傳統(tǒng)數(shù)據(jù)集大部分的測試樣例太簡單了，小的模型足以應對這樣的問題。

然而人類世界中視覺模型需要認識的事物遠遠不止幾千、幾萬類，例如各種品牌商標、名人相貌、地點、動植物品類、商品品類等，小模型不可能記住；同時在這種“開放詞典”的設(shè)定下，由于可能類別增加，出錯的概率也會上升。我們做了一些實驗，發(fā)現(xiàn)對于這些真實場景中的問題，模型變大往往會帶來非常明顯的效果提升。

當然，還有一個原因是，之前的視覺大模型往往都是閉源的，大部分很難真正地體驗模型大小所帶來的性能區(qū)別。也是基于此，雖然 CogVLM在性能上已經(jīng)超過一眾大公司的閉源模型（例如PaLI、PaLM-E、BEiT-3、GIT2等），但我們依然選擇像 VisualGLM一樣，把它開源出來。我們希望能通過開源來進一步地促進多模態(tài)模型在研究和工業(yè)應用方面的發(fā)展。

問：我們在使用圖文理解模型的時候，模型經(jīng)常會給出一些圖片中并沒有包含的信息。請問該如何減少模型的這種幻覺呢？

答：模型有幻覺，根源還是在于模型能力不足。

之前的多模態(tài)模型，無論是MiniGPT-4、VisualGLM-6B還是LLaVA，經(jīng)常會在描述時說一些明顯不存在于圖像中的物體或者錯誤的顏色。本質(zhì)還是模型無法識別某些特別的視覺表示，從而遵循先驗輸出在該場景中的常見物體。

在這方面，我們通過特定的微調(diào)，對不確定的物體，模型會輸出“不清楚”，以此來減少幻覺現(xiàn)象，從而提高用戶體驗。當然這并不能徹底消除幻覺，但可以大大降低幻覺出現(xiàn)的頻次。另外一個有效的解決幻覺的方法，就是用更大的參數(shù)，以及更多的訓練量。經(jīng)過這兩種方案，CogVLM 的幻覺已經(jīng)降到一個比較低的水平。

問：從CogView、CogVideo到VisualGLM、RDM、CogVLM等，你的工作一直推動圖片理解、視頻理解，圖片生成，視頻生成。你為什么要堅持做多模態(tài)的基座模型呢？

答：無論是現(xiàn)實還是虛擬的界面的感知、交互，主要以視覺等為媒介。現(xiàn)在的大語言模型雖然有智能的涌現(xiàn)，但是仍然被關(guān)在“籠子”里，它與這個世界是割裂的。一個完整的智能agent，必然是多模態(tài)的理解。多模態(tài)理解是智能發(fā)展和應用的必由之路。也正是基于同樣的理解，智譜AI，希望能夠在這個方向上趟出一條路來

總結(jié)

以上是生活随笔為你收集整理的CogVLM：智谱AI 新一代多模态大模型的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 10月19日发布！OPPO Find N
下一篇：京东开启江苏法拍节活动八大山人、艾轩等