日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > MAC >内容正文

MAC

CogVLM:智谱AI 新一代多模态大模型

發(fā)布時間:2023/11/23 MAC 34 博士
生活随笔 收集整理的這篇文章主要介紹了 CogVLM:智谱AI 新一代多模态大模型 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

自5月18日發(fā)布并開源 VisualGLM-6B 以來,智譜AI&清華KEG潛心打磨,致力于開發(fā)更加強大的多模態(tài)大模型。

 

基于對視覺和語言信息之間融合的理解,我們提出了一種新的視覺語言基礎(chǔ)模型 CogVLM。CogVLM 可以在不犧牲任何 NLP 任務性能的情況下,實現(xiàn)視覺語言特征的深度融合。

我們訓練的 CogVLM-17B 是目前多模態(tài)權(quán)威學術(shù)榜單上綜合成績第一的模型,在14個數(shù)據(jù)集上取得了state-of-the-art或者第二名的成績。

我們可以初步體驗 CogVLM 的效果:

在上圖中,CogVLM 能夠準確識別出 4 個房子(3個完整可見,1個只有放大才能看到);作為對比,GPT-4V 僅能識別出其中的 3 個。

為促進多模態(tài)基礎(chǔ)模型領(lǐng)域的研究和工業(yè)應用,我們將 CogVLM-17B 開源出來,且提供了單臺 3090 服務器即可運行的微調(diào)代碼,供大家研究和使用。

Github:https://github.com/THUDM/CogVLM

Huggingface:https://huggingface.co/THUDM/CogVLM

魔搭社區(qū):https://www.modelscope.cn/models/ZhipuAI/CogVLM

Paper:https://github.com/THUDM/CogVLM/blob/main/assets/cogvlm-paper.pdf

一、模型架構(gòu)

CogVLM 之所以能取得效果的提升,最核心的思想是“視覺優(yōu)先”。

之前的多模態(tài)模型通常都是將圖像特征直接對齊到文本特征的輸入空間去,并且圖像特征的編碼器通常規(guī)模較小,這種情況下圖像可以看成是文本的“附庸”,效果自然有限。

而CogVLM在多模態(tài)模型中將視覺理解放在更優(yōu)先的位置,使用5B參數(shù)的視覺編碼器和6B參數(shù)的視覺專家模塊,總共11B參數(shù)建模圖像特征,甚至多于文本的7B參數(shù)量。

CogVLM 的結(jié)構(gòu)如下所示:

模型共包含四個基本組件:ViT 編碼器,MLP 適配器,預訓練大語言模型(GPT-style)和視覺專家模塊。

ViT編碼器:在 CogVLM-17B 中,我們采用預訓練的 EVA2-CLIP-E。

MLP 適配器:MLP 適配器是一個兩層的 MLP(SwiGLU),用于將 ViT 的輸出映射到與詞嵌入的文本特征相同的空間。

預訓練大語言模型:CogVLM 的模型設(shè)計與任何現(xiàn)有的 GPT-style的預訓練大語言模型兼容。具體來說,CogVLM-17B 采用 Vicuna-7B-v1.5 進行進一步訓練;我們也選擇了 GLM 系列模型和 Llama 系列模型做了相應的訓練。

視覺專家模塊:我們在每層添加一個視覺專家模塊,以實現(xiàn)深度的視覺 - 語言特征對齊。具體來說,每層視覺專家模塊由一個 QKV 矩陣和一個 MLP 組成。

模型在15億張圖文對上預訓練了4096個A100*days,并在構(gòu)造的視覺定位(visual grounding)數(shù)據(jù)集上進行二階段預訓練。在對齊階段,CogVLM使用了各類公開的問答對和私有數(shù)據(jù)集進行監(jiān)督微調(diào),使得模型能回答各種不同類型的提問。

二、模型效果

為了更為嚴格地驗證CogVLM的性能和泛化能力,我們在一系列多模態(tài)基準上進行了定量評估。這些基準大致分為三類(共 14 個),包括圖像字幕(Image Captioning)、視覺問答(Visual QA)、視覺定位(Visual Grounding)。

在這些基準當中,CogVLM-17B 在 10 項基準中取得 SOTA性能,而在另外四項(包括 VQAv2, OKVQA, TextVQA, COCO captioning等)取得第二的成績。整體性能超越或匹配谷歌的PaLI-X 55B。

CogVLM 在 10 項評測中取得SOTA效果,4項評測僅次于SOTA。第二張圖為 TDIUC 基準評測效果。

此外,我們可以通過幾個簡單的示例,對比最近比較受關(guān)注的 MiniGPT-4、LLaVA-v1.5,可以看出,CogVLM-17B在圖像理解、模型幻覺以及文本識別方面都具有不錯的效果。

———— 示例 1 ————

GPT-4 vsion中的一個著名例子。目前主流的開源的模型包,括知名的MniGPT-4和最近發(fā)布的 LLAVA 1.5,均不能理解該視覺場景的有趣之處,而CogVLM則精準地說出VGA接口充電不合常理。

———— 示例 2 ————

這張圖片內(nèi)容較為復雜,是日常生活的場景。CogVLM精準地說出來所有的菜肴和餐具的種類,并且判斷出了鏡子(“許多動物甚至不能理解鏡子”)是反射而并非真實,且注意到了角落的人的腿。整個復雜的描述中未出現(xiàn)錯誤與幻覺。相對地,MiniGPT-4和LLaVA-1.5都出現(xiàn)了幻覺現(xiàn)象且不夠全面。

———— 示例 3 ————

帶文字的圖片。CogVLM忠實地描述了場景和相應的文字,而其他模型沒有輸出文字且有大量幻覺。

三、研究者說

問:CogVLM和VisualGLM之間有什么關(guān)聯(lián)和不同?

答:CogVLM延續(xù)了VisualGLM的研究,但進行了較大尺度的改進。首先體現(xiàn)在多模態(tài)融合的技術(shù)上,CogVLM采用了最新的圖像和文本信息融合的方案,在我們文章中已經(jīng)有相關(guān)的說明。其次,VisualGLM 是一個依賴于具體語言模型的多模態(tài)模型,而CogVLM則是一個更廣闊的系列,不僅有基于GLM的雙語模型,也有基于Llama2系列的英文模型。這次開源的 17B 模型就是基于Vicuna-7B 的英文模型。其實我們內(nèi)部也訓練完成了更大的英文模型和基于GLM的雙語模型,后面可能也會開源出來。

問:VisualGLM-6B 模型中視覺相關(guān)的參數(shù)僅為 1.6B,而作為對比,CogVLM-17B 的視覺相關(guān)參數(shù)達到了 11 B(甚至超過了語言模型的 7B 參數(shù))。為什么要采用更大視覺參數(shù)的方式?

答:首先,通過大量的實驗,我們得出一個結(jié)論,即更大的參數(shù)量對視覺多模態(tài)模型很重要。

之前有觀點認為視覺不需要大模型。因為人們在一些傳統(tǒng)的數(shù)據(jù)集(例如ImageNet-1k等)上做的驗證,發(fā)現(xiàn)模型變大對性能的提升似乎并不是很大。但之所以出現(xiàn)這個現(xiàn)象,原因在于傳統(tǒng)數(shù)據(jù)集大部分的測試樣例太簡單了,小的模型足以應對這樣的問題。

然而人類世界中視覺模型需要認識的事物遠遠不止幾千、幾萬類,例如各種品牌商標、名人相貌、地點、動植物品類、商品品類等,小模型不可能記住;同時在這種“開放詞典”的設(shè)定下,由于可能類別增加,出錯的概率也會上升。我們做了一些實驗,發(fā)現(xiàn)對于這些真實場景中的問題,模型變大往往會帶來非常明顯的效果提升。

當然,還有一個原因是,之前的視覺大模型往往都是閉源的,大部分很難真正地體驗模型大小所帶來的性能區(qū)別。也是基于此,雖然 CogVLM在性能上已經(jīng)超過一眾大公司的閉源模型(例如PaLI、PaLM-E、BEiT-3、GIT2等),但我們依然選擇像 VisualGLM一樣,把它開源出來。我們希望能通過開源來進一步地促進多模態(tài)模型在研究和工業(yè)應用方面的發(fā)展。

問:我們在使用圖文理解模型的時候,模型經(jīng)常會給出一些圖片中并沒有包含的信息。請問該如何減少模型的這種幻覺呢?

答:模型有幻覺,根源還是在于模型能力不足。

之前的多模態(tài)模型,無論是MiniGPT-4、VisualGLM-6B還是LLaVA,經(jīng)常會在描述時說一些明顯不存在于圖像中的物體或者錯誤的顏色。本質(zhì)還是模型無法識別某些特別的視覺表示,從而遵循先驗輸出在該場景中的常見物體。

在這方面,我們通過特定的微調(diào),對不確定的物體,模型會輸出“不清楚”,以此來減少幻覺現(xiàn)象,從而提高用戶體驗。當然這并不能徹底消除幻覺,但可以大大降低幻覺出現(xiàn)的頻次。另外一個有效的解決幻覺的方法,就是用更大的參數(shù),以及更多的訓練量。經(jīng)過這兩種方案,CogVLM 的幻覺已經(jīng)降到一個比較低的水平。

問:從CogView、CogVideo到VisualGLM、RDM、CogVLM等,你的工作一直推動圖片理解、視頻理解,圖片生成,視頻生成。你為什么要堅持做多模態(tài)的基座模型呢?

答:無論是現(xiàn)實還是虛擬的界面的感知、交互,主要以視覺等為媒介。現(xiàn)在的大語言模型雖然有智能的涌現(xiàn),但是仍然被關(guān)在“籠子”里,它與這個世界是割裂的。一個完整的智能agent,必然是多模態(tài)的理解。多模態(tài)理解是智能發(fā)展和應用的必由之路。也正是基于同樣的理解,智譜AI,希望能夠在這個方向上趟出一條路來

 

總結(jié)

以上是生活随笔為你收集整理的CogVLM:智谱AI 新一代多模态大模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 无码国产精品久久一区免费 | 成人一级黄色 | 黄色一级网 | 三级毛毛片 | 精品视频日韩 | 免费福利影院 | 精品一区二区三区在线免费观看 | 婷婷导航| 国产老女人精品毛片久久 | 激情宗合网 | 97福利影院| 光棍影院av | 成人免费高清在线观看 | 亚洲а∨天堂久久精品2021 | 一本色道av| 欧美精品久久久久久久多人混战 | 国产精品久久AV无码 | 134vcc影院免费观看 | www.色黄| 91射区| 一本不卡 | 亚洲午夜久久久久 | 体内精视频xxxxx | 亚洲一级精品 | 91美女视频网站 | 国产特黄级aaaaa片免 | 免费无码国产v片在线观看 三级全黄做爰在线观看 | 性综合网 | 成年人免费在线 | 成熟了的熟妇毛茸茸 | jizz自拍| 啪视频网站 | 国产精品99无码一区二区视频 | 2019自拍偷拍 | 999国产精品视频 | 538国产精品一区二区 | 午夜免费在线观看 | 国产午夜大地久久 | www.av72| 夜夜操网站 | 国产亚洲一区二区三区不卡 | 第一页国产 | 久久久久1 | 青青草成人在线观看 | 国产精品久久久99 | 欧美日韩国产一区二区 | 日韩中文电影 | 国产永久免费视频 | 天堂资源中文在线 | 国产人妻精品一区二区三区 | 97超碰免费观看 | 99re9| 高潮毛片无遮挡免费看 | 日韩欧美一区二区视频 | 精品人妻久久久久久888不卡 | 永久免费无码av网站在线观看 | 欧美日韩一级二级 | 中文字幕系列 | h在线免费观看 | 亚洲涩视频 | www.17c.com喷水少妇 | 一本一道久久a久久综合蜜桃 | 天天做天天躁天天躁 | 久久精品人人 | 中文字幕日韩一区二区三区不卡 | 夜夜干天天操 | 人人模人人爽 | 日本黄色精品 | 日韩人妻精品中文字幕 | 国产午夜一级一片免费播放 | 中国特级黄色大片 | 男女国产视频 | 天天弄天天操 | 五月丁香花 | 国产叼嘿视频在线观看 | 色啦啦视频 | 国产xx视频 | 胖女人做爰全过程 | 精品人妻一区二区三区免费 | 欧美午夜理伦三级在线观看 | 三级在线观看 | 性视频在线播放 | 亚洲人精品 | 国产一区二区自拍视频 | 六月婷婷在线 | 99热这里只有精品在线 | 少妇高潮一区二区三区在线 | 91网站在线观看视频 | 日本黄色一区二区 | 日韩欧美第一区 | 色噜噜影院 | 日本天堂免费a | 一级黄色免费观看 | 国产精品午夜无码专区 | 欧美丰满老妇性猛交 | 亚洲精品一区二三区不卡 | 黄网在线观看免费 | 欧美a一级片 | 麻豆精品在线视频 |