當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

紫东太初：自动化所开源图-文-音三模态的预训练大模型

發布時間：2025/3/12 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了紫东太初：自动化所开源图-文-音三模态的预训练大模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

近日，中科院自動化所研發并開源了全球首個圖文音（視覺-文本-語音）三模態預訓練模型，兼具跨模態理解和生成能力，具有了在無監督情況下多任務聯合學習、并快速遷移到不同領域數據的強大能力。自動化所構建了具有業界領先性能的中文預訓練模型、語音預訓練模型、視覺預訓練模型，并開拓性地通過跨模態語義關聯實現了視覺-文本-語音三模態統一表示，構建了三模態預訓練大模型。

中文預訓練模型

模型介紹

文本預訓練模型使用條件語言模型作為自監督目標進行訓練，和GPT一樣，模型根據上文來預測當前詞匯。中文預訓練語言模型(Chinese-GPT)由40層transformer組成，隱藏層維度為2560，包含32個注意力頭，共32億參數。模型結構如下所示：

模型下載與使用示例地址：https://gitee.com/zidongtaichu/multi-modal-models/tree/master/text

應用示例

中文預訓練模型基礎上可以進行微調操作，充分利用少量有監督數據增強模型在下游任務上的表現，如文本分類，對話生成、古詩創作等。

1、文本續寫

2、自動問答

視覺預訓練模型

模型下載與使用示例地址：https://gitee.com/zidongtaichu/multi-modal-models/tree/master/vision

目標檢測結果展示

語義分割結果展示

輕量化圖文預訓練模型

模型介紹

現有的圖文預訓練模型主要針對英文文本描述進行圖像生成，自動化所開源的圖文預訓練模型可以根據中文文本描述實現圖像生成，采用千萬級訓練數據進行自監督訓練，并通過知識蒸餾算法實現了模型的大幅度壓縮，在盡可能保留模型性能的同時，實現了預訓練模型的輕量化。

輕量化圖文預訓練模型由DALL-E和CLIP兩個模型組成，DALL-E模型由8層Transformer組成，隱層維度為512，包含32個注意力頭，約1億參數；CLIP模型由6層Vision Transformer和3層Transformer組成，Vision Transformer的隱層維度為256，包含16個注意力頭，Transformer的隱層維度為192，包含12個注意力頭，約1700萬參數。

模型下載與使用示例地址：https://gitee.com/zidongtaichu/multi-modal-models/tree/master/light_vision_text

圖像檢索

將三模態預訓練大模型倉庫克隆至本地：

git clone https://gitee.com/zidongtaichu/multi-modal-models.git cd multi-modal-models

下載 Light_CLIP 模型文件 model.pt 至 light_vision_text/Light_CLIP 文件夾下：

該示例中，待檢索圖像庫一共有兩張圖片，分別是 dog.jpg 和 cat.jpg：

test.py?實現基于文本的圖像檢索：

輸入文本為：一只可愛的狗狗在草地上奔跑，運行 python test.py，模型輸出圖像庫中各個圖片的概率值：

輸入文本為：一只貓咪躺在沙發上睡覺，運行 python test.py，模型輸出圖像庫中各個圖片的概率值：

圖像生成

(a) 下載 Light_VQGan_Dalle 模型文件dalle_small_model_pre_0924_lr1e-4_new_epoch7_data_point5761440.pt 至 light_vision_text/Light_VQGan_Dalle 文件夾下；

(b) 下載 vqgan 模型文件 vqgan_model.ckpt 至 light_vision_text/Light_VQGan_Dalle/vqgan 文件夾下；

(d) 修改 light_vision_text/Light_VQGan_Dalle/clip 文件夾下的 rank_photo.py 文件，將41和42行修改為：

self.tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')

(e) 修改?light_vision_text/Light_VQGan_Dalle 文件夾下的 generate.sh，將 --fp16 注釋掉：

在 test_dalle.txt 中輸入進行圖像生成的中文文本內容：太陽落山了

運行：

# single-gpu testing ./generate.sh <Light_VQGan_Dalle_model_path> <output_image_folder> <img_number> <generate_batch_size> <text_file_path># for example ./generate.sh ./dalle_small_model_pre_0924_lr1e-4_new_epoch7_data_point5761440.pt ./output_images 128 12 ./test_dalle.txt

生成的圖像存儲在

?light_vision_text/Light_VQGan_Dalle/output_images 文件夾下：

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件

本站qq群851320808，加入微信群請掃碼：

總結

以上是生活随笔為你收集整理的紫东太初：自动化所开源图-文-音三模态的预训练大模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Windows平台RTMP/RTSP播放
下一篇：怎样进入pe重建硬盘