當前位置：首頁 >

史上最大多模态图文数据集发布！

發布時間：2024/7/5 203 豆豆

生活随笔收集整理的這篇文章主要介紹了史上最大多模态图文数据集发布！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 付瑤
編 | 小軼

最近多模態研究圈中出現了一個揚言 “史上最大規?！钡亩嗄B圖文數據集：LAION-400。該數據集在今年8月完全公開，共計公開了 4億圖文對，可以依據不同的用途提供不同大小版本的子數據集。據小編調查，在 LAION-400 出現前，多模態圖像文本對的最大的開放數據集是 DALE 數據集，該數據集的規模在 10M 左右，大概是 LAION-400 的 1/40，其在圖文對檢索等任務中已顯示數據集不夠大導致模型的性能欠缺。

LAION-400M 通過 CommonCrawl 提取出隨機抓取 2014-2021 年的網頁中的圖片、文本內容。通過 OpenAI 的 Clip 計算，去除了原始數據集中文本和圖片嵌入之間預先相似度低于0.3的內容和文本，提供了4億個初篩后的圖像文本對樣本。

數據集下載鏈接：
https://laion.ai/laion-400-open-dataset/

▲LAION-400M 數據樣例

近兩年多模態的研究已經成為了一大熱點。所謂道“工欲善其事，必先利其器”，一個優質的數據集是研究過程中必不可少的裝備。小編在本文整理了一些常見的多模態任務常用的數據集，分享給大家：

任務一：多模態情感分析

在過去的研究中，大多數基于情感分析的研究都是采用單一模態，隨著情感分析算法逐漸成熟，研究者們可以發現在解決單模態的局限性的研究中，可以通過將多種模態通過特征融合、決策融合等策略等方式，使得模態之間互相輔助，互為補充，既保留模態之間的一致性，也利用模態之間的差異性。在多模態情感分析的研究中，主要有以下幾個數據集：

IEMOCAP數據集

該數據集是2008年由南加大SAIL實驗室錄制收集，共包含了5個男演員和5個女演員錄制情感互動過程，錄制時長大約12h。單條數據包括對話者的音頻、視頻、文本、面部和姿勢信息等，情感標簽為憤怒、快樂、悲傷、中立等10個標簽。IEMOCAP是多模態對話情緒識別中最常用的數據集，數據集單條質量較高，但是其數據集的規模較小。

相關論文：
《IEMOCAP: interactive emotional dyadic motion capture database. Lang Resources & Evaluation. 2008.》

數據集下載鏈接：
https://sail.usc.edu/iemocap/

該數據集需要發送申請表提供數據集用途，數據集提供方才會回復下載鏈接

MELD數據集

該數據集于2019年公布，是由從電視劇《老友記》中截取片段構成，模態包括文本信息、視頻，共計1400對對話，總共13000句，包含7中情感，分別是angger、disgust、sadness、joy、Netural、suprise、fear，對每句話有情感注釋positive、negative、neutral。該數據集規模較大，但是其劇情相關背景較為復雜，識別情感的難度增大。

相關論文：
《MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversation》

數據集下載鏈接：
https://affective-meld.github.io/

CH-SIMS數據集

該數據集中包含60個原始視頻，從中文影視作品《西虹市》、《妖貓傳》中剪輯出2281個視頻片段，每個片段長度在1s——10s之間。數據集的情感標注為-1（負向）、0（中性）、1（正向）。除此之外，在論文的實驗中，作者證明了單模態標簽對多模態的改進，該數據集不僅有多模態最終的標簽，還具備各個單模態的情感標簽。

相關論文：
《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》

數據集下載鏈接：
https://drive.google.com/drive/folders/1E5kojBirtd5VbfHsFp6FYWkQunk73Nsv官方提供的google drive鏈接

SEMAINE數據集

該數據集由SEMAINE數據庫收集，構建了4個機器人進行對話，數據集標注的情感維度采用連續模式情感標注，情感維度為：Valence (愉悅度), Arousal (激活度), Expectancy (預期), Power (力量)。其中Valence表示情感積極向的程度，Arousal表示興奮程度，Expectancy表示與預期相符的程度，power表示情感影響力，其中Valence、Arousa和Expectancy為[-1, 1]范圍內的連續值，Power為大于等于0的連續值。SEMAINE是對話情緒識別最常用的連續情感標注的數據集。

相關論文：
《The SEMAINE Database: Annotated Multimodal Records of Emotionally Colored Conversations between a Person and a Limited Agent》

數據集下載鏈接：
https://semaine-db.eu/DailyDialog

除以上三個最具代表性的多模態情感分析數據集之外 CMU 制作的CMU-MOSEI、CMU—MOSI、上海交通大學標注的SEED等數據集結合了視頻、文本、語音等模態，也是多模態情感分析研究任務較為通用的數據集。

任務二：多模態檢索

多模態檢索即不同模態的同類別之間的搜索，例如文搜圖，圖搜文等，融合不同的模態便于檢索，

COCO

COCO數據集是2015年由微軟發布的一個大型物體檢測、分割和字母數據集，包含近20萬個圖像，91類目標、328000影響和2500000個label，標注分為目標點檢測、關鍵點檢測、實例分割、全景分割、圖片標注，COCO數據集主頁還提供了Matlab、Python和Lua的API接口，可以提供完整的數據的加載、parsing和可視化。

相關論文：
《Microsoft COCO Captions Data Collection and Evaluation Server》

數據集下載鏈接：
https://cocodataset.org/#download

IAPR TC-12數據集

IAPR TC-12是圖像模式識別協會來源自2萬張拍攝于世界各地的靜態自然圖像，包括不同的運動和動作的照片，人、動物、城市、風景和當代生活的許多其他方面的照片。每張圖片配對了三種語言英語、德語、西班牙語的標注。

相關論文：
《The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems》

數據集下載鏈接：
https://www.imageclef.org/photodata

Conceptual Captions Dataset

該數據集于2018年出品自GoogleAI，研究者們團隊通過創建自動 pipeline從數十億的網頁中提取和過濾圖片標題，大約有330萬張圖片-文字對。

相關論文：
《Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning》

數據集下載鏈接：
https://github.com/google-research-datasets/conceptual-captions

任務三：多模態對話

大規模多模態對話數據集可以對話中不同的視覺信息融入到對話中，進而生成更高質量的對話。

OpenViDial 數據集

OpenViDial 數據集于2020年創建，通過構建訓練一個OCR模型提取圖片+添加字幕”的形式構造得到。該數據集從影視作品抽取字幕和當前字幕的視頻幀構成（句子、圖片）對，保持數據分布的一致性，經過數據處理和清洗，最終得到一百萬余句子以及對應的圖片信息。

相關論文：
《OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts》

數據集下載鏈接：
https://github.com/ShannonAI/OpenViDial

小結

本文介紹了多模態幾大任務所常用的數據集，我們可以看到主要以下兩種方式來構建多模態情數據集：第一種是來自網絡資源例如從影視資源中截取片段構建的MELD,CH-SIMS數據集。另外一種是基于對特定情感類別進行演繹并錄制，例如IECOMP。除此之外，多模態數據集的模態也可以通過包含模態區分，例如圖文多模態數據集、文本視頻音頻組合數據集、腦電模態數據集等。由于多模態數據集的標注涉及到兩種模態之間的對齊、統一標注標準等問題，相較于單模態的數據集更加復雜耗力，因此除了構建規模更大，數據更優質的數據集，制定更高效的多模態情感數據集的標注策略也是值得關注的問題。

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

總結

以上是生活随笔為你收集整理的史上最大多模态图文数据集发布！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：超硬核 ICML’21 | 如何使自然语
下一篇：别只关注GPT3！细如发丝的模型更具现实