论文浅尝 | Data Intelligence - 多篇语义资源论文
本文轉(zhuǎn)載自公眾號:DI數(shù)據(jù)智能 。?
? ? ? ? ? ? ??
編者按:Data Intelligence最新發(fā)表一組語義資源論文,包括世界著名語義網(wǎng)技術(shù)專家荷蘭阿姆斯特丹自由大學(xué)計(jì)算機(jī)科學(xué)系Frank van Harmelen教授團(tuán)隊(duì)的Constructing and Cleaning Identity Graphs in the LOD Cloud,人工智能和語義網(wǎng)研究領(lǐng)域國際知名學(xué)者、美國倫斯勒理工學(xué)院Deborah McGuinness教授團(tuán)隊(duì)的The Semantic Data Dictionary – An Approach for Describing and Annotating Data,英國開放大學(xué)研究者團(tuán)隊(duì)的The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas,美國堪薩斯州立大學(xué)著名語義網(wǎng)技術(shù)專家Pascal Hitzler教授團(tuán)隊(duì)的GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology以及意大利Cefriel公司知識技術(shù)團(tuán)隊(duì)專家的文章:Refining Linked Data with Games with a Purpose 。
論文1
Constructing and Cleaning Identity Graphs in the LOD Cloud(在關(guān)聯(lián)開放數(shù)據(jù)云上構(gòu)建并清理等價(jià)關(guān)系圖譜)
引用本文:J. Raad, W. Beek, F. van Harmelen, J. Wielemaker, N. Pernelle & F.Sa?s. Constructing and cleaning identity graphs in the LOD cloud. Data Intelligence 2(2020), 323–352. https://doi.org/10.1162/dint_a_00057
摘要:因?yàn)槿鄙賯€(gè)體命名的權(quán)威機(jī)構(gòu),所以在語義網(wǎng)上普遍存在著不同數(shù)據(jù)集用不同名稱指代同一個(gè)體的現(xiàn)象。當(dāng)使用多個(gè)名稱表示同一個(gè)體時(shí),我們需要使用 owl:sameAs 語句來關(guān)聯(lián)數(shù)據(jù),并促進(jìn)重用。2009年開始就有研究指出使用 owl:sameAs 屬性時(shí)有時(shí)會(huì)產(chǎn)生錯(cuò)誤。我們之前的工作展示過一張包含超過5億條明確含有 owl:sameAs語句和350億條暗含owl:sameAs語句的等價(jià)關(guān)系圖譜(identity graph)。我們提出了一個(gè)可擴(kuò)展的方法,可自動(dòng)計(jì)算每一條等價(jià)語句的錯(cuò)誤程度。在本文中,我們生成了整張等價(jià)關(guān)系圖譜的子圖,這些子圖都包含一定程度的錯(cuò)誤數(shù)據(jù)。本文結(jié)論是盡管語義網(wǎng)中包含了許多錯(cuò)誤的owl:sameAs語句,但語義網(wǎng)上的數(shù)據(jù)仍是可用的,同時(shí)我們可把因錯(cuò)誤使用owl:sameAs語句帶來的負(fù)面影響降到最低。
?? 閱讀全文,請掃描二維碼
論文 2
The Semantic Data Dictionary – An Approach for Describing and Annotating Data(語義數(shù)據(jù)字典——一種描述和注釋數(shù)據(jù)的方法)
引用本文:S.M. Rashid, J.P. McCusker, P. Pinheiro, M.P. Bax, H. Santos, J.A.Stingone, A.K. Das & D.L. McGuinness. The semantic data dictionary – an approach for describing and annotating data. Data Intelligence 2(2020), 443–486. https://doi.org/10.1162/dint_a_00058
摘要:數(shù)據(jù)集提供者在以數(shù)據(jù)字典的形式發(fā)布數(shù)據(jù)時(shí),通常會(huì)為字典表里每列數(shù)據(jù)提供文本描述。雖然這些本文描述有助于用戶正確理解數(shù)據(jù)集中每列數(shù)據(jù)的含義,但并不適合機(jī)讀,也沒有遵循統(tǒng)一的標(biāo)準(zhǔn)規(guī)范。已有研究指出語義數(shù)據(jù)字典可彌補(bǔ)現(xiàn)有數(shù)據(jù)字典的缺陷。語義數(shù)據(jù)字典,規(guī)定了數(shù)據(jù)的語義表示規(guī)范,可使各種不同數(shù)據(jù)集的數(shù)據(jù)表達(dá)規(guī)范化。本研究的語義數(shù)據(jù)字典基于生物醫(yī)學(xué)數(shù)據(jù)構(gòu)建,但實(shí)際上這種方法可以、并已被用于不同的學(xué)科領(lǐng)域。利用語義數(shù)據(jù)字典可促進(jìn)數(shù)據(jù)的被發(fā)現(xiàn)、互操作、可重用,可溯源和可再現(xiàn)。本文展示了可公開獲取的美國國家健康與營養(yǎng)檢驗(yàn)調(diào)查數(shù)據(jù)集的語義標(biāo)注的實(shí)例,討論了數(shù)據(jù)建模的挑戰(zhàn),描述了研究者利用語義數(shù)據(jù)字典方法進(jìn)行的工作,包括美國國立衛(wèi)生研究院資助的大型健康數(shù)據(jù)網(wǎng)站和倫斯勒理工學(xué)院和IBM合作的“分析、學(xué)習(xí)和語義”健康賦能項(xiàng)目。在評測部分,研究者們設(shè)計(jì)了四個(gè)指標(biāo):數(shù)據(jù)、語義、FAIR原則和普適性,分別對比了語義數(shù)據(jù)字典、傳統(tǒng)數(shù)據(jù)字典、映射語言和數(shù)據(jù)集成工具在這四個(gè)指標(biāo)上的得分。研究者們也對該方法的局限性進(jìn)行了討論并對未來研究方向進(jìn)行了展望。
?? 閱讀全文,請掃描二維碼
論文 3
The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas(計(jì)算機(jī)科學(xué)本體:自動(dòng)生成對研究領(lǐng)域的全面分類)
引用本文:A. Salatino, T. Thanapalasingam, A. Mannocci, A. Birukou, F. Osborne & E. Motta. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00055
摘要:研究領(lǐng)域本體是用來描繪某個(gè)研究領(lǐng)域特征,探索和分析該領(lǐng)域的重要工具。有一些研究領(lǐng)域已經(jīng)編制出能夠全面描繪本領(lǐng)域的大型主題詞表,例如生物醫(yī)學(xué)領(lǐng)域的MeSH醫(yī)學(xué)主題詞表,物理學(xué)領(lǐng)域的PhySHC主題詞表。相比之下,計(jì)算機(jī)科學(xué)領(lǐng)域的主題詞表粒度粗,而且發(fā)展緩慢。例如,ACM分類系統(tǒng)只包括2,000個(gè)研究主題,而且最近的版本還是2012年發(fā)布的。在本文中,我們介紹了能自動(dòng)對研究領(lǐng)域進(jìn)行分類的大型計(jì)算機(jī)科學(xué)本體( Computer Science Ontology,CSO),它包括1,400個(gè)主題和162,000條語義關(guān)系。該本體是通過在一個(gè)包含1,600萬篇科技文章的大型數(shù)據(jù)集上運(yùn)用 Klink-2算法而建立的。
?CSO的優(yōu)勢體現(xiàn)在:1)本體中的大量主題沒有在其他分類體系中出現(xiàn)過;2)通過在最近出版的文章數(shù)據(jù)集上運(yùn)行Klink-2算法可自動(dòng)升級CSO。在CSO基礎(chǔ)上開發(fā)的幾款工具已被Springer Nature編輯團(tuán)隊(duì)采用,而且CSO已經(jīng)被用來作為解決方案,例如對科研出版物進(jìn)行分類,發(fā)現(xiàn)新的研究社區(qū),預(yù)測研究趨勢等。為推廣CSO的應(yīng)用,我們也發(fā)布了可用來自動(dòng)分類研究論文的CSO分類器,可幫助用戶下載和研究CSO、提供對CSO的細(xì)粒度反饋的CSO門戶網(wǎng)站。用戶可以使用此網(wǎng)站進(jìn)行導(dǎo)航,對本體的各個(gè)部分進(jìn)行可視化,對主題和語義關(guān)系給出評分,提出需要補(bǔ)充哪些主題和語義關(guān)系的建議。
??? 此外,CSO主體數(shù)據(jù)已在Data Intelligence期刊數(shù)據(jù)平臺上與論文關(guān)聯(lián)發(fā)布,歡迎大家下載使用。
論文全文地址為:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00055
數(shù)據(jù)下載地址為:http://www.en.scidb.cn/journalDetail?dataSetId=662664481360314368&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal#(需先注冊后下載)
閱讀全文,請掃描二維碼
論文 4
GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology (GeoLink數(shù)據(jù)集:基于真實(shí)數(shù)據(jù)的復(fù)雜本體匹配研究基準(zhǔn)數(shù)據(jù)集)
引用本文:L. Zhou, M. Cheatham, A. Krisnadhi& P.Hitzler. GeoLink data set: A complex alignment benchmark from real-worldontology. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00054
摘要:本體對齊的研究已經(jīng)有十多年的歷史,研究人員已經(jīng)提出了很多方法,并開發(fā)了系統(tǒng)來發(fā)現(xiàn)兩個(gè)本體之間一對一的匹配關(guān)系。但是,很少有本體對齊系統(tǒng)的研究關(guān)注本體間復(fù)雜的匹配關(guān)系。這其中的原因可能是目前并沒有廣泛接受的包含復(fù)雜關(guān)系的本體對齊基準(zhǔn)數(shù)據(jù)集。本文基于GeoLink項(xiàng)目構(gòu)建了一個(gè)真實(shí)世界數(shù)據(jù)集,可作為復(fù)雜本體匹配的基準(zhǔn)數(shù)據(jù)集。本數(shù)據(jù)集包括兩個(gè)本體,GeoLink基本本體(GeoLink Base Ontology, GBO) 和GeoLink模塊本體(GeoLink Modular Ontology, GMO), 以及一個(gè)在咨詢各學(xué)院領(lǐng)域?qū)<液笫止?gòu)建的校驗(yàn)參考數(shù)據(jù)集。
?本數(shù)據(jù)集實(shí)體對齊包括一對一、一對多、多對多三種類型,使用EDOAL語言(即Expressive and Declarative Ontology Alignment Language,本體匹配表達(dá)及聲明語言)和規(guī)則語法來描述實(shí)體對應(yīng)屬性關(guān)系。基準(zhǔn)數(shù)據(jù)集的最初版本已經(jīng)進(jìn)行了擴(kuò)充,現(xiàn)在的版本包括由七位地球科學(xué)家提供的真實(shí)世界實(shí)例數(shù)據(jù),而且兩個(gè)本體的數(shù)據(jù)集都已經(jīng)發(fā)布。此基準(zhǔn)數(shù)據(jù)集可用在對齊系統(tǒng)中,或已經(jīng)有訓(xùn)練數(shù)據(jù)的系統(tǒng)。此外,此數(shù)據(jù)集已經(jīng)被用于本體對齊競賽(Ontology Alignment Evaluation Initiative, OAEI)中的復(fù)雜本體匹配的比賽中,幫助研究者們測試他們的自動(dòng)對齊系統(tǒng)和算法。本文也分析了復(fù)雜本體對齊工作面臨的挑戰(zhàn),并提供了未來研究工作的路線圖。
?該論文描述的數(shù)據(jù)集已在Data Intelligence期刊數(shù)據(jù)平臺在線發(fā)布,敬請大家下載。
論文全文地址為:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00054
數(shù)據(jù)下載地址為:http://www.en.scidb.cn/journalDetail?dataSetId=662677835797757952&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal(需先注冊后下載)
閱讀全文,請掃描二維碼
論文 5
Refining Linked Data with Games with a Purpose(用有目的的游戲優(yōu)化關(guān)聯(lián)數(shù)據(jù))
引用本文:I. Celino, G. Re Calegari & A. Fiano. Refining linked data with games with a purpose. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00056。
摘要:隨著關(guān)聯(lián)數(shù)據(jù)和知識圖譜的興起,我們迫切需要更多的數(shù)據(jù)集以及更準(zhǔn)確的數(shù)據(jù)來補(bǔ)充缺失的知識,發(fā)現(xiàn)和改正已有數(shù)據(jù)的錯(cuò)誤。研究人員已經(jīng)提出了一些解決方案,這些方案大多依賴機(jī)器學(xué)習(xí)和自然語言處理技術(shù),通常也需要一種“黃金標(biāo)準(zhǔn)”,即“參考標(biāo)準(zhǔn)數(shù)據(jù)”來訓(xùn)練自動(dòng)分類模型。“黃金標(biāo)準(zhǔn)”是人工構(gòu)建的,或通過邀請領(lǐng)域?qū)<覅⑴c構(gòu)建,或采用眾包和人力計(jì)算的解決方案構(gòu)建。本文提出了一種開源軟件框架,通過激勵(lì)措施啟發(fā)用戶參加網(wǎng)上游戲,我們稱之為“有目的的游戲”(Games with a Purpose, GWAP),來優(yōu)化關(guān)聯(lián)數(shù)據(jù),也就是說通過眾包的方式得到部分“參考標(biāo)準(zhǔn)數(shù)據(jù)”。本框架支持的關(guān)聯(lián)數(shù)據(jù)的功能包括創(chuàng)建數(shù)據(jù)鏈接,給鏈接評分和校驗(yàn)鏈接。通過介紹本框架的支持功能和定義每個(gè)眾包任務(wù)是如何幫助實(shí)現(xiàn)這些功能,我們展示了本文提出的框架方法所具有的現(xiàn)實(shí)意義。
???文中介紹了利用“有目的的游戲”(GWAP)玩家貢獻(xiàn)的數(shù)據(jù)推斷“參考標(biāo)準(zhǔn)數(shù)據(jù)”的方法。通過對比GWAP和傳統(tǒng)眾包方法來說明本文方法的必要性,本文解釋并描述了方法過程,通過與目前最先進(jìn)的方法對比顯示本文方法的先進(jìn)性。本文提出的方法有多種用途:文中描述了基于本方法的不同應(yīng)用來展示它的可重用性和可擴(kuò)展的潛力。文中也提供了本文方法的參考資料,包括整個(gè)教程,讓新手在幾個(gè)小時(shí)內(nèi)可以學(xué)會(huì)使用本框架方法拓展新的應(yīng)用案列。
???????? 論文全文地址為:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00056
?? 閱讀全文,請掃描二維碼
?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | Data Intelligence - 多篇语义资源论文的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源开放 | 多模态实体链接数据集MEL
- 下一篇: 论文浅尝 - ICML2020 | 跨域