當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

读文章笔记（八）：多模态情感分析数据集整理

發(fā)布時(shí)間：2023/12/14 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了读文章笔记（八）：多模态情感分析数据集整理小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

讀文章筆記（八）：多模態(tài)情感分析數(shù)據(jù)集（Multimodal Dataset）整理

雙模態(tài)（一般是文本、圖像和語(yǔ)音的兩兩組合）
三模態(tài)（一般是文本、圖像加語(yǔ)音）

作者：騎著白馬的王子
地址：https://www.zhihu.com/people/pi-pi-57-67
公眾號(hào)：人工智能前沿講習(xí)https://mp.weixin.qq.com/s/rWRJ8taUsIQAZFq3PD1-ng

雙模態(tài)（一般是文本、圖像和語(yǔ)音的兩兩組合）

1.《Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model》–【多模態(tài)諷刺識(shí)別】2019年。
論文中建立的數(shù)據(jù)集，包含文本和圖像兩個(gè)模態(tài)，具體來(lái)說(shuō)是三個(gè)模態(tài)，文本部分包含兩個(gè)方面：一個(gè)是描述（文本模態(tài)），另一個(gè)是圖像的屬性，即圖像包含那些東西，用文字描述（也可以歸類為屬性模態(tài)）。數(shù)據(jù)集較好之處是給出了原始數(shù)據(jù)，即有原始的文本，原始的圖像和屬性描述，可以任意操作成實(shí)驗(yàn)表征。

數(shù)據(jù)集和代碼鏈接是https://github.com/headacheboy/data-of-multimodal-sarcasm-detection

2.《 Making the v in vqa matter: Elevating the role of image understanding in visual question answering》–【多模態(tài)問(wèn)答】2017年。

論文中是VQA數(shù)據(jù)集，包括原始的圖片、問(wèn)答文本等各種屬性。我們簡(jiǎn)單的可以通過(guò)word2vec或者Glove或者bert提取文本的embedding，通過(guò)Resnet來(lái)提取圖片的feature，圖片問(wèn)題和回答三個(gè)方面通過(guò)對(duì)應(yīng)的id來(lái)聯(lián)系。

數(shù)據(jù)集下載鏈接在https://visualqa.org/download.html

3.《Towards Multimodal Sarcasm Detection(An Obviously Perfect Paper)》–【多模態(tài)諷刺】2019年。

論文給的是圖像和文本雙模態(tài)諷刺視頻。其中每個(gè)標(biāo)簽對(duì)應(yīng)的圖像包含多個(gè)，對(duì)應(yīng)的文本是一組對(duì)話，數(shù)據(jù)集鏈接是：https://github.com/soujanyaporia/MUStARD

4.《Microsoft COCO Captions Data Collection and Evaluation Server》–【多模態(tài)圖片字幕】2015年。

論文給出的是經(jīng)典的MS COCO數(shù)據(jù)集，現(xiàn)在還在廣泛使用，數(shù)據(jù)集非常大，大部分設(shè)計(jì)到純CV方面的數(shù)據(jù)集，標(biāo)注一共分為5類：目標(biāo)點(diǎn)檢測(cè)，關(guān)鍵點(diǎn)檢測(cè)，實(shí)例分割，全景分割以及圖片標(biāo)注，前面四個(gè)都是CV領(lǐng)域的，感興趣的同學(xué)可以玩一下，簡(jiǎn)單的多模態(tài)方向只需要最后一個(gè)，當(dāng)然如果你要通過(guò)目標(biāo)檢測(cè)輔助多模態(tài)分析等等方向前面幾個(gè)標(biāo)注也是有用的。簡(jiǎn)單的，我們這里需要的是圖片和字幕兩個(gè)模態(tài)，可以用來(lái)做多模態(tài)匹配之類的任務(wù)。數(shù)據(jù)集包括2014年發(fā)布的以及2017年發(fā)布的，每個(gè)都有超過(guò)幾十萬(wàn)張圖片的標(biāo)注，圖片給出的是原始圖片，標(biāo)注是基于JSON文件給出的，也是原始的文本數(shù)據(jù)，我們只要寫出程序?qū)⒆帜怀槿〕鰜?lái)就可以了，字幕和圖片之間有id對(duì)應(yīng)，非常方便。

數(shù)據(jù)集鏈接是：https://cocodataset.org/#download

三模態(tài)（一般是文本、圖像加語(yǔ)音）

1.《Multimodal Language Analysis in the Wild_ CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph》–【多模態(tài)情感和情緒分析】2018年。

論文中描述的CMU-MOSEI數(shù)據(jù)集規(guī)模最大的三模態(tài)數(shù)據(jù)集，且具有情感和情緒兩個(gè)標(biāo)簽。但是這里要注意，數(shù)據(jù)集是多標(biāo)簽特性，即每一個(gè)樣本對(duì)應(yīng)的情緒可能不止一種，對(duì)應(yīng)情緒的強(qiáng)弱也不同，在[-3~3]之間。數(shù)據(jù)集的原始數(shù)據(jù)給出了，但是過(guò)于原始，即給出的是文本，音頻和視頻文件，圖像還得自己去以固定頻率捕獲并且和文本語(yǔ)音對(duì)其還是比較麻煩的。大多實(shí)驗(yàn)都使用處理好的實(shí)驗(yàn)數(shù)據(jù)。

數(shù)據(jù)集的鏈接是：http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/

2.《UR-FUNNY: A Multimodal Language Dataset for Understanding Humor》–【多模態(tài)幽默分析】2019年。

論文中描述的是UR-FUNNY數(shù)據(jù)集，包含文本語(yǔ)音圖像三個(gè)模態(tài)來(lái)分析幽默情感。具體目前沒(méi)用到?jīng)]有細(xì)看，日后再補(bǔ)充。

數(shù)據(jù)集和代碼鏈接是：https://github.com/ROC-HCI/UR-FUNNY

3.《MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos》–【多模態(tài)情緒分析】。

論文中描述的是CMU-MOSI數(shù)據(jù)集，跟上述的CMU-MOSEI數(shù)據(jù)集名字很像，但是發(fā)布較早，規(guī)模小且只有情緒的標(biāo)簽。數(shù)據(jù)集跟MOSEI一樣，有處理好的實(shí)驗(yàn)數(shù)據(jù)，但是也有部分原始數(shù)據(jù)，video部分依然是視頻不是已經(jīng)捕獲好的圖像。

數(shù)據(jù)集的鏈接是：http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/

4.《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》–【中文多模態(tài)情緒】2020年。

論文中給出常規(guī)的文本、圖片和語(yǔ)音的數(shù)據(jù)進(jìn)行多模態(tài)情緒分類，其中標(biāo)簽更加細(xì)致，不僅有最終的標(biāo)簽，還有各個(gè)模態(tài)的標(biāo)簽。

具體如圖所示。論文以及數(shù)據(jù)集具體我還沒(méi)看，日后需要我將修改更仔細(xì)。

數(shù)據(jù)集鏈接是：https://github.com/thuiar/MMSA

總結(jié)

以上是生活随笔為你收集整理的读文章笔记（八）：多模态情感分析数据集整理的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：外文翻译之 Removing Camer
下一篇：【Chaos混沌】基于Simulink的