日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

史上最大多模态图文数据集发布!

發布時間:2024/7/5 编程问答 192 豆豆
生活随笔 收集整理的這篇文章主要介紹了 史上最大多模态图文数据集发布! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 付瑤
編 | 小軼

最近多模態研究圈中出現了一個揚言 “史上最大規模”的多模態圖文數據集:LAION-400。該數據集在今年8月完全公開,共計公開了 4億圖文對,可以依據不同的用途提供不同大小版本的子數據集。據小編調查,在 LAION-400 出現前,多模態圖像文本對的最大的開放數據集是 DALE 數據集,該數據集的規模在 10M 左右,大概是 LAION-400 的 1/40,其在圖文對檢索等任務中已顯示數據集不夠大導致模型的性能欠缺。

LAION-400M 通過 CommonCrawl 提取出隨機抓取 2014-2021 年的網頁中的圖片、文本內容。通過 OpenAI 的 Clip 計算,去除了原始數據集中文本和圖片嵌入之間預先相似度低于0.3的內容和文本,提供了4億個初篩后的圖像文本對樣本。

數據集下載鏈接
https://laion.ai/laion-400-open-dataset/

▲LAION-400M 數據樣例

近兩年多模態的研究已經成為了一大熱點。所謂道“工欲善其事,必先利其器”,一個優質的數據集是研究過程中必不可少的裝備。小編在本文整理了一些常見的多模態任務常用的數據集,分享給大家:

任務一:多模態情感分析

在過去的研究中,大多數基于情感分析的研究都是采用單一模態,隨著情感分析算法逐漸成熟,研究者們可以發現在解決單模態的局限性的研究中,可以通過將多種模態通過特征融合、決策融合等策略等方式,使得模態之間互相輔助,互為補充,既保留模態之間的一致性,也利用模態之間的差異性。在多模態情感分析的研究中,主要有以下幾個數據集:

IEMOCAP數據集

該數據集是2008年由南加大SAIL實驗室錄制收集,共包含了5個男演員和5個女演員錄制情感互動過程,錄制時長大約12h。單條數據包括對話者的音頻、視頻、文本、面部和姿勢信息等,情感標簽為憤怒、快樂、悲傷、中立等10個標簽。IEMOCAP是多模態對話情緒識別中最常用的數據集,數據集單條質量較高,但是其數據集的規模較小。

相關論文:
《IEMOCAP: interactive emotional dyadic motion capture database. Lang Resources & Evaluation. 2008.》

數據集下載鏈接:
https://sail.usc.edu/iemocap/

該數據集需要發送申請表提供數據集用途,數據集提供方才會回復下載鏈接

MELD數據集

該數據集于2019年公布,是由從電視劇《老友記》中截取片段構成,模態包括文本信息、視頻,共計1400對對話,總共13000句,包含7中情感,分別是angger、disgust、sadness、joy、Netural、suprise、fear,對每句話有情感注釋positive、negative、neutral。該數據集規模較大,但是其劇情相關背景較為復雜,識別情感的難度增大。

相關論文:
《MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversation》

數據集下載鏈接:
https://affective-meld.github.io/

CH-SIMS數據集

該數據集中包含60個原始視頻,從中文影視作品《西虹市》、《妖貓傳》中剪輯出2281個視頻片段,每個片段長度在1s——10s之間。數據集的情感標注為-1(負向)、0(中性)、1(正向)。除此之外,在論文的實驗中,作者證明了單模態標簽對多模態的改進,該數據集不僅有多模態最終的標簽,還具備各個單模態的情感標簽。

相關論文:
《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》

數據集下載鏈接:
https://drive.google.com/drive/folders/1E5kojBirtd5VbfHsFp6FYWkQunk73Nsv官方提供的google drive鏈接

SEMAINE數據集

該數據集由SEMAINE數據庫收集,構建了4個機器人進行對話,數據集標注的情感維度采用連續模式情感標注,情感維度為:Valence (愉悅度), Arousal (激活度), Expectancy (預期), Power (力量)。其中Valence表示情感積極向的程度,Arousal表示興奮程度,Expectancy表示與預期相符的程度,power表示情感影響力,其中Valence、Arousa和Expectancy為[-1, 1]范圍內的連續值,Power為大于等于0的連續值。SEMAINE是對話情緒識別最常用的連續情感標注的數據集。

相關論文:
《The SEMAINE Database: Annotated Multimodal Records of Emotionally Colored Conversations between a Person and a Limited Agent》

數據集下載鏈接:
https://semaine-db.eu/DailyDialog

除以上三個最具代表性的多模態情感分析數據集之外 CMU 制作的CMU-MOSEI、CMU—MOSI、上海交通大學標注的SEED等數據集結合了視頻、文本、語音等模態,也是多模態情感分析研究任務較為通用的數據集。

任務二:多模態檢索

多模態檢索即不同模態的同類別之間的搜索,例如文搜圖,圖搜文等,融合不同的模態便于檢索,

COCO

COCO數據集是2015年由微軟發布的一個大型物體檢測、分割和字母數據集,包含近20萬個圖像,91類目標、328000影響和2500000個label,標注分為目標點檢測、關鍵點檢測、實例分割、全景分割、圖片標注,COCO數據集主頁還提供了Matlab、Python和Lua的API接口,可以提供完整的數據的加載、parsing和可視化。

相關論文:
《Microsoft COCO Captions Data Collection and Evaluation Server》

數據集下載鏈接:
https://cocodataset.org/#download

IAPR TC-12數據集

IAPR TC-12是圖像模式識別協會來源自2萬張拍攝于世界各地的靜態自然圖像,包括不同的運動和動作的照片,人、動物、城市、風景和當代生活的許多其他方面的照片。每張圖片配對了三種語言英語、德語、西班牙語的標注。

相關論文:
《The IAPR Benchmark: A New Evaluation Resource for Visual Information Systems》

數據集下載鏈接:
https://www.imageclef.org/photodata

Conceptual Captions Dataset

該數據集于2018年出品自GoogleAI,研究者們團隊通過創建自動 pipeline從數十億的網頁中提取和過濾圖片標題,大約有330萬張圖片-文字對。

相關論文:
《Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning》

數據集下載鏈接:
https://github.com/google-research-datasets/conceptual-captions

任務三:多模態對話

大規模多模態對話數據集可以對話中不同的視覺信息融入到對話中,進而生成更高質量的對話。

OpenViDial 數據集

OpenViDial 數據集于2020年創建,通過構建訓練一個OCR模型提取圖片+添加字幕”的形式構造得到。該數據集從影視作品抽取字幕和當前字幕的視頻幀構成(句子、圖片)對,保持數據分布的一致性,經過數據處理和清洗,最終得到一百萬余句子以及對應的圖片信息。

相關論文:
《OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts》

數據集下載鏈接:
https://github.com/ShannonAI/OpenViDial

小結

本文介紹了多模態幾大任務所常用的數據集,我們可以看到主要以下兩種方式來構建多模態情數據集:第一種是來自網絡資源例如從影視資源中截取片段構建的MELD,CH-SIMS數據集。另外一種是基于對特定情感類別進行演繹并錄制,例如IECOMP。除此之外,多模態數據集的模態也可以通過包含模態區分,例如圖文多模態數據集、文本視頻音頻組合數據集、腦電模態數據集等。由于多模態數據集的標注涉及到兩種模態之間的對齊、統一標注標準等問題,相較于單模態的數據集更加復雜耗力,因此除了構建規模更大,數據更優質的數據集,制定更高效的多模態情感數據集的標注策略也是值得關注的問題。

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

總結

以上是生活随笔為你收集整理的史上最大多模态图文数据集发布!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。