开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/melbench
GitHub地址:https://github.com/seukgcode/MELBench
開放許可協(xié)議:CC BY-SA 4.0 (署名相似共享)
貢獻(xiàn)者:東南大學(xué)(汪鵬、周星辰、鄧臻凱、李國(guó)正、謝佳鋒、吳江恒)
1. 摘要
多模態(tài)實(shí)體鏈接是多模態(tài)數(shù)據(jù)處理的基礎(chǔ)任務(wù)之一,旨在將多模態(tài)數(shù)據(jù)中的實(shí)體鏈接到知識(shí)圖譜中,在多模態(tài)數(shù)據(jù)理解、多模態(tài)知識(shí)圖譜、多模態(tài)問答中具有廣泛應(yīng)用意義。然而,目前開源和能重現(xiàn)的多模態(tài)實(shí)體鏈接數(shù)據(jù)集還很少,一定程度上制約著相關(guān)工作的研究。
東南大學(xué)團(tuán)隊(duì)發(fā)布的多模態(tài)實(shí)體鏈接數(shù)據(jù)集MELBench包含3個(gè)任務(wù):Weibo-MEL、Wikidata-MEL和Richpedia-MEL數(shù)據(jù)集,數(shù)據(jù)源分別包含來自社交媒體、百科知識(shí)和多模態(tài)知識(shí)圖譜等領(lǐng)域,分別包含2.5萬(wàn)、1.8萬(wàn)和1.7萬(wàn)條多模態(tài)實(shí)體鏈接數(shù)據(jù),每條數(shù)據(jù)均為人工標(biāo)注,包含與目標(biāo)實(shí)體相關(guān)的文本信息和視覺信息。該數(shù)據(jù)集能夠?yàn)槎嗄B(tài)實(shí)體鏈接(MEL)任務(wù)提供基準(zhǔn)數(shù)據(jù)支持。
2. 多模態(tài)實(shí)體鏈接(MEL)
實(shí)體鏈接(EL)是將實(shí)體描述映射到知識(shí)圖譜中相應(yīng)實(shí)體的任務(wù),在語(yǔ)義檢索、推薦系統(tǒng)和問答系統(tǒng)等任務(wù)中起到重要的作用。現(xiàn)有的方法主要利用文本信息進(jìn)行實(shí)體鏈接。然而,一方面,通過簡(jiǎn)短粗略的文本獲取相應(yīng)的實(shí)體具有很大的挑戰(zhàn)性。另一方面,在現(xiàn)實(shí)世界的數(shù)據(jù)中,例如社交媒體、百科知識(shí)和多模態(tài)知識(shí)圖譜等領(lǐng)域數(shù)據(jù),通常同時(shí)使用文本和視覺信息描述相應(yīng)實(shí)體。因此,有必要結(jié)合多模態(tài)信息解決EL問題,這一任務(wù)也被稱為多模態(tài)實(shí)體鏈接(MEL)。
3.?數(shù)據(jù)集構(gòu)建
為了構(gòu)建大規(guī)模MEL數(shù)據(jù)集,促進(jìn)相關(guān)研究,我們提出了一種MEL數(shù)據(jù)集構(gòu)建方法,包括五個(gè)階段,如下圖所示。在多模態(tài)信息抽取階段,我們選擇不同的現(xiàn)實(shí)世界多模態(tài)數(shù)據(jù)源,提取文本和視覺信息;在提及抽取階段,我們從文本信息中獲取提及,并保留可能存在相應(yīng)實(shí)體的提及;在實(shí)體抽取階段,我們用上一階段保留的提及查詢知識(shí)圖譜,收集相關(guān)實(shí)體列表,并保留提及相應(yīng)的實(shí)體;在三元組構(gòu)建階段,我們將相應(yīng)的提及和實(shí)體合并為提及-實(shí)體對(duì),并將它們與多模態(tài)信息抽取階段獲取的文本和視覺信息合并為MEL三元組;最后,在數(shù)據(jù)集構(gòu)建階段,我們按照7:1:2的比例,將數(shù)據(jù)分為訓(xùn)練集,驗(yàn)證集和測(cè)試集。
4.?數(shù)據(jù)集詳情
基于上述的MEL數(shù)據(jù)集構(gòu)建方法,我們完成了三個(gè)MEL數(shù)據(jù)集構(gòu)建:
Weibo-MEL 采用微博作為多模態(tài)數(shù)據(jù)源,并采用 CN-DBpedia 作為知識(shí)圖譜。數(shù)據(jù)集包含 25,602 個(gè)樣本,對(duì)應(yīng) 31,516 個(gè)提及-實(shí)體對(duì)。
Wikidata-MEL 采用 Wikidata 和 Wikipedia 作為多模態(tài)數(shù)據(jù)源,并采用 Wikidata 作為知識(shí)圖譜。數(shù)據(jù)集包含 18,880 個(gè)樣本,對(duì)應(yīng) 22,534 個(gè)提及-實(shí)體對(duì)。
Richpedia-MEL 采用 Richpedia 和 Wikipedia 作為多模態(tài)數(shù)據(jù)源,同樣采用 Wikidata 作為知識(shí)圖譜。數(shù)據(jù)集包含 17,806 個(gè)樣本,對(duì)應(yīng) 20,752 個(gè)提及-實(shí)體對(duì)。
此外,我們統(tǒng)計(jì)了數(shù)據(jù)集的文本長(zhǎng)度和提及數(shù)量,如下圖所示,三個(gè)數(shù)據(jù)集具有較大差異,體現(xiàn)了不同領(lǐng)域的數(shù)據(jù)特征。
5. 致謝
數(shù)據(jù)集由東南大學(xué)KGCODE實(shí)驗(yàn)室的周星辰、鄧臻凱、李國(guó)正、謝佳鋒、吳江恒等同學(xué)完成,指導(dǎo)老師汪鵬。
?
?
OpenKG
OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的开源开放 | 多模态实体链接数据集MELBench(CCKS2021)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ICLR2021 | 从信
- 下一篇: 论文浅尝 | Data Intellig