日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

开源开放 | 多模态实体链接数据集MELBench(CCKS2021)

發(fā)布時(shí)間:2024/7/5 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 开源开放 | 多模态实体链接数据集MELBench(CCKS2021) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

OpenKG地址:http://openkg.cn/dataset/melbench

GitHub地址:https://github.com/seukgcode/MELBench

開放許可協(xié)議:CC BY-SA 4.0 (署名相似共享)

貢獻(xiàn)者:東南大學(xué)(汪鵬、周星辰、鄧臻凱、李國(guó)正、謝佳鋒、吳江恒)


1. 摘要

多模態(tài)實(shí)體鏈接是多模態(tài)數(shù)據(jù)處理的基礎(chǔ)任務(wù)之一,旨在將多模態(tài)數(shù)據(jù)中的實(shí)體鏈接到知識(shí)圖譜中,在多模態(tài)數(shù)據(jù)理解、多模態(tài)知識(shí)圖譜、多模態(tài)問答中具有廣泛應(yīng)用意義。然而,目前開源和能重現(xiàn)的多模態(tài)實(shí)體鏈接數(shù)據(jù)集還很少,一定程度上制約著相關(guān)工作的研究。

東南大學(xué)團(tuán)隊(duì)發(fā)布的多模態(tài)實(shí)體鏈接數(shù)據(jù)集MELBench包含3個(gè)任務(wù):Weibo-MEL、Wikidata-MEL和Richpedia-MEL數(shù)據(jù)集,數(shù)據(jù)源分別包含來自社交媒體、百科知識(shí)和多模態(tài)知識(shí)圖譜等領(lǐng)域,分別包含2.5萬(wàn)、1.8萬(wàn)和1.7萬(wàn)條多模態(tài)實(shí)體鏈接數(shù)據(jù),每條數(shù)據(jù)均為人工標(biāo)注,包含與目標(biāo)實(shí)體相關(guān)的文本信息和視覺信息。該數(shù)據(jù)集能夠?yàn)槎嗄B(tài)實(shí)體鏈接(MEL)任務(wù)提供基準(zhǔn)數(shù)據(jù)支持。

2. 多模態(tài)實(shí)體鏈接(MEL)

實(shí)體鏈接(EL)是將實(shí)體描述映射到知識(shí)圖譜中相應(yīng)實(shí)體的任務(wù),在語(yǔ)義檢索、推薦系統(tǒng)和問答系統(tǒng)等任務(wù)中起到重要的作用。現(xiàn)有的方法主要利用文本信息進(jìn)行實(shí)體鏈接。然而,一方面,通過簡(jiǎn)短粗略的文本獲取相應(yīng)的實(shí)體具有很大的挑戰(zhàn)性。另一方面,在現(xiàn)實(shí)世界的數(shù)據(jù)中,例如社交媒體、百科知識(shí)和多模態(tài)知識(shí)圖譜等領(lǐng)域數(shù)據(jù),通常同時(shí)使用文本和視覺信息描述相應(yīng)實(shí)體。因此,有必要結(jié)合多模態(tài)信息解決EL問題,這一任務(wù)也被稱為多模態(tài)實(shí)體鏈接(MEL)。

3.?數(shù)據(jù)集構(gòu)建

為了構(gòu)建大規(guī)模MEL數(shù)據(jù)集,促進(jìn)相關(guān)研究,我們提出了一種MEL數(shù)據(jù)集構(gòu)建方法,包括五個(gè)階段,如下圖所示。在多模態(tài)信息抽取階段,我們選擇不同的現(xiàn)實(shí)世界多模態(tài)數(shù)據(jù)源,提取文本和視覺信息;在提及抽取階段,我們從文本信息中獲取提及,并保留可能存在相應(yīng)實(shí)體的提及;在實(shí)體抽取階段,我們用上一階段保留的提及查詢知識(shí)圖譜,收集相關(guān)實(shí)體列表,并保留提及相應(yīng)的實(shí)體;在三元組構(gòu)建階段,我們將相應(yīng)的提及和實(shí)體合并為提及-實(shí)體對(duì),并將它們與多模態(tài)信息抽取階段獲取的文本和視覺信息合并為MEL三元組;最后,在數(shù)據(jù)集構(gòu)建階段,我們按照7:1:2的比例,將數(shù)據(jù)分為訓(xùn)練集,驗(yàn)證集和測(cè)試集。

4.?數(shù)據(jù)集詳情

基于上述的MEL數(shù)據(jù)集構(gòu)建方法,我們完成了三個(gè)MEL數(shù)據(jù)集構(gòu)建:

  • Weibo-MEL 采用微博作為多模態(tài)數(shù)據(jù)源,并采用 CN-DBpedia 作為知識(shí)圖譜。數(shù)據(jù)集包含 25,602 個(gè)樣本,對(duì)應(yīng) 31,516 個(gè)提及-實(shí)體對(duì)。

  • Wikidata-MEL 采用 Wikidata 和 Wikipedia 作為多模態(tài)數(shù)據(jù)源,并采用 Wikidata 作為知識(shí)圖譜。數(shù)據(jù)集包含 18,880 個(gè)樣本,對(duì)應(yīng) 22,534 個(gè)提及-實(shí)體對(duì)。

  • Richpedia-MEL 采用 Richpedia 和 Wikipedia 作為多模態(tài)數(shù)據(jù)源,同樣采用 Wikidata 作為知識(shí)圖譜。數(shù)據(jù)集包含 17,806 個(gè)樣本,對(duì)應(yīng) 20,752 個(gè)提及-實(shí)體對(duì)。

此外,我們統(tǒng)計(jì)了數(shù)據(jù)集的文本長(zhǎng)度和提及數(shù)量,如下圖所示,三個(gè)數(shù)據(jù)集具有較大差異,體現(xiàn)了不同領(lǐng)域的數(shù)據(jù)特征。

5. 致謝

數(shù)據(jù)集由東南大學(xué)KGCODE實(shí)驗(yàn)室的周星辰、鄧臻凱、李國(guó)正、謝佳鋒、吳江恒等同學(xué)完成,指導(dǎo)老師汪鵬。

?


?

OpenKG

OpenKG(中文開放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開源開放。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的开源开放 | 多模态实体链接数据集MELBench(CCKS2021)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。