读文章笔记(八):多模态情感分析数据集整理
讀文章筆記(八):多模態(tài)情感分析數(shù)據(jù)集(Multimodal Dataset)整理
- 雙模態(tài)(一般是文本、圖像和語(yǔ)音的兩兩組合)
- 三模態(tài)(一般是文本、圖像加語(yǔ)音)
作者:騎著白馬的王子
地址:https://www.zhihu.com/people/pi-pi-57-67
公眾號(hào):人工智能前沿講習(xí)https://mp.weixin.qq.com/s/rWRJ8taUsIQAZFq3PD1-ng
雙模態(tài)(一般是文本、圖像和語(yǔ)音的兩兩組合)
1.《Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model》–【多模態(tài)諷刺識(shí)別】2019年。
論文中建立的數(shù)據(jù)集,包含文本和圖像兩個(gè)模態(tài),具體來(lái)說(shuō)是三個(gè)模態(tài),文本部分包含兩個(gè)方面:一個(gè)是描述(文本模態(tài)),另一個(gè)是圖像的屬性,即圖像包含那些東西,用文字描述(也可以歸類為屬性模態(tài))。數(shù)據(jù)集較好之處是給出了原始數(shù)據(jù),即有原始的文本,原始的圖像和屬性描述,可以任意操作成實(shí)驗(yàn)表征。
數(shù)據(jù)集和代碼鏈接是https://github.com/headacheboy/data-of-multimodal-sarcasm-detection
2.《 Making the v in vqa matter: Elevating the role of image understanding in visual question answering》–【多模態(tài)問(wèn)答】2017年。
論文中是VQA數(shù)據(jù)集,包括原始的圖片、問(wèn)答文本等各種屬性。我們簡(jiǎn)單的可以通過(guò)word2vec或者Glove或者bert提取文本的embedding,通過(guò)Resnet來(lái)提取圖片的feature,圖片問(wèn)題和回答三個(gè)方面通過(guò)對(duì)應(yīng)的id來(lái)聯(lián)系。
數(shù)據(jù)集下載鏈接在https://visualqa.org/download.html
3.《Towards Multimodal Sarcasm Detection(An Obviously Perfect Paper)》–【多模態(tài)諷刺】2019年。
論文給的是圖像和文本雙模態(tài)諷刺視頻。其中每個(gè)標(biāo)簽對(duì)應(yīng)的圖像包含多個(gè),對(duì)應(yīng)的文本是一組對(duì)話,數(shù)據(jù)集鏈接是:https://github.com/soujanyaporia/MUStARD
4.《Microsoft COCO Captions Data Collection and Evaluation Server》–【多模態(tài)圖片字幕】2015年。
論文給出的是經(jīng)典的MS COCO數(shù)據(jù)集,現(xiàn)在還在廣泛使用,數(shù)據(jù)集非常大,大部分設(shè)計(jì)到純CV方面的數(shù)據(jù)集,標(biāo)注一共分為5類:目標(biāo)點(diǎn)檢測(cè),關(guān)鍵點(diǎn)檢測(cè),實(shí)例分割,全景分割以及圖片標(biāo)注,前面四個(gè)都是CV領(lǐng)域的,感興趣的同學(xué)可以玩一下,簡(jiǎn)單的多模態(tài)方向只需要最后一個(gè),當(dāng)然如果你要通過(guò)目標(biāo)檢測(cè)輔助多模態(tài)分析等等方向前面幾個(gè)標(biāo)注也是有用的。簡(jiǎn)單的,我們這里需要的是圖片和字幕兩個(gè)模態(tài),可以用來(lái)做多模態(tài)匹配之類的任務(wù)。數(shù)據(jù)集包括2014年發(fā)布的以及2017年發(fā)布的,每個(gè)都有超過(guò)幾十萬(wàn)張圖片的標(biāo)注,圖片給出的是原始圖片,標(biāo)注是基于JSON文件給出的,也是原始的文本數(shù)據(jù),我們只要寫出程序?qū)⒆帜怀槿〕鰜?lái)就可以了,字幕和圖片之間有id對(duì)應(yīng),非常方便。
數(shù)據(jù)集鏈接是:https://cocodataset.org/#download
三模態(tài)(一般是文本、圖像加語(yǔ)音)
1.《Multimodal Language Analysis in the Wild_ CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph》–【多模態(tài)情感和情緒分析】2018年。
論文中描述的CMU-MOSEI數(shù)據(jù)集規(guī)模最大的三模態(tài)數(shù)據(jù)集,且具有情感和情緒兩個(gè)標(biāo)簽。但是這里要注意,數(shù)據(jù)集是多標(biāo)簽特性,即每一個(gè)樣本對(duì)應(yīng)的情緒可能不止一種,對(duì)應(yīng)情緒的強(qiáng)弱也不同,在[-3~3]之間。數(shù)據(jù)集的原始數(shù)據(jù)給出了,但是過(guò)于原始,即給出的是文本,音頻和視頻文件,圖像還得自己去以固定頻率捕獲并且和文本語(yǔ)音對(duì)其還是比較麻煩的。大多實(shí)驗(yàn)都使用處理好的實(shí)驗(yàn)數(shù)據(jù)。
數(shù)據(jù)集的鏈接是:http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/
2.《UR-FUNNY: A Multimodal Language Dataset for Understanding Humor》–【多模態(tài)幽默分析】2019年。
論文中描述的是UR-FUNNY數(shù)據(jù)集,包含文本語(yǔ)音圖像三個(gè)模態(tài)來(lái)分析幽默情感。具體目前沒(méi)用到?jīng)]有細(xì)看,日后再補(bǔ)充。
數(shù)據(jù)集和代碼鏈接是:https://github.com/ROC-HCI/UR-FUNNY
3.《MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos》–【多模態(tài)情緒分析】。
論文中描述的是CMU-MOSI數(shù)據(jù)集,跟上述的CMU-MOSEI數(shù)據(jù)集名字很像,但是發(fā)布較早,規(guī)模小且只有情緒的標(biāo)簽。數(shù)據(jù)集跟MOSEI一樣,有處理好的實(shí)驗(yàn)數(shù)據(jù),但是也有部分原始數(shù)據(jù),video部分依然是視頻不是已經(jīng)捕獲好的圖像。
數(shù)據(jù)集的鏈接是:http://immortal.multicomp.cs.cmu.edu/raw_datasets/processed_data/
4.《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》–【中文多模態(tài)情緒】2020年。
論文中給出常規(guī)的文本、圖片和語(yǔ)音的數(shù)據(jù)進(jìn)行多模態(tài)情緒分類,其中標(biāo)簽更加細(xì)致,不僅有最終的標(biāo)簽,還有各個(gè)模態(tài)的標(biāo)簽。
具體如圖所示。論文以及數(shù)據(jù)集具體我還沒(méi)看,日后需要我將修改更仔細(xì)。
數(shù)據(jù)集鏈接是:https://github.com/thuiar/MMSA
總結(jié)
以上是生活随笔為你收集整理的读文章笔记(八):多模态情感分析数据集整理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 外文翻译之 Removing Camer
- 下一篇: 【Chaos混沌】基于Simulink的