當(dāng)前位置：首頁 >

论文浅尝 | Data Intelligence - 多篇语义资源论文

發(fā)布時(shí)間：2024/7/5 39 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | Data Intelligence - 多篇语义资源论文小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載自公眾號：DI數(shù)據(jù)智能 。?

? ? ? ? ? ? ??

編者按：Data Intelligence最新發(fā)表一組語義資源論文，包括世界著名語義網(wǎng)技術(shù)專家荷蘭阿姆斯特丹自由大學(xué)計(jì)算機(jī)科學(xué)系Frank van Harmelen教授團(tuán)隊(duì)的Constructing and Cleaning Identity Graphs in the LOD Cloud，人工智能和語義網(wǎng)研究領(lǐng)域國際知名學(xué)者、美國倫斯勒理工學(xué)院Deborah McGuinness教授團(tuán)隊(duì)的The Semantic Data Dictionary – An Approach for Describing and Annotating Data，英國開放大學(xué)研究者團(tuán)隊(duì)的The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas，美國堪薩斯州立大學(xué)著名語義網(wǎng)技術(shù)專家Pascal Hitzler教授團(tuán)隊(duì)的GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology以及意大利Cefriel公司知識技術(shù)團(tuán)隊(duì)專家的文章：Refining Linked Data with Games with a Purpose 。

論文1

Constructing and Cleaning Identity Graphs in the LOD Cloud（在關(guān)聯(lián)開放數(shù)據(jù)云上構(gòu)建并清理等價(jià)關(guān)系圖譜）

引用本文：J. Raad, W. Beek, F. van Harmelen, J. Wielemaker, N. Pernelle & F.Sa?s. Constructing and cleaning identity graphs in the LOD cloud. Data Intelligence 2(2020), 323–352. https://doi.org/10.1162/dint_a_00057

摘要：因?yàn)槿鄙賯€(gè)體命名的權(quán)威機(jī)構(gòu)，所以在語義網(wǎng)上普遍存在著不同數(shù)據(jù)集用不同名稱指代同一個(gè)體的現(xiàn)象。當(dāng)使用多個(gè)名稱表示同一個(gè)體時(shí)，我們需要使用 owl:sameAs 語句來關(guān)聯(lián)數(shù)據(jù)，并促進(jìn)重用。2009年開始就有研究指出使用 owl:sameAs 屬性時(shí)有時(shí)會(huì)產(chǎn)生錯(cuò)誤。我們之前的工作展示過一張包含超過5億條明確含有 owl:sameAs語句和350億條暗含owl:sameAs語句的等價(jià)關(guān)系圖譜（identity graph）。我們提出了一個(gè)可擴(kuò)展的方法，可自動(dòng)計(jì)算每一條等價(jià)語句的錯(cuò)誤程度。在本文中，我們生成了整張等價(jià)關(guān)系圖譜的子圖，這些子圖都包含一定程度的錯(cuò)誤數(shù)據(jù)。本文結(jié)論是盡管語義網(wǎng)中包含了許多錯(cuò)誤的owl:sameAs語句，但語義網(wǎng)上的數(shù)據(jù)仍是可用的，同時(shí)我們可把因錯(cuò)誤使用owl:sameAs語句帶來的負(fù)面影響降到最低。

?? 閱讀全文，請掃描二維碼

論文 2

The Semantic Data Dictionary – An Approach for Describing and Annotating Data（語義數(shù)據(jù)字典——一種描述和注釋數(shù)據(jù)的方法）

引用本文：S.M. Rashid, J.P. McCusker, P. Pinheiro, M.P. Bax, H. Santos, J.A.Stingone, A.K. Das & D.L. McGuinness. The semantic data dictionary – an approach for describing and annotating data. Data Intelligence 2(2020), 443–486. https://doi.org/10.1162/dint_a_00058

摘要：數(shù)據(jù)集提供者在以數(shù)據(jù)字典的形式發(fā)布數(shù)據(jù)時(shí)，通常會(huì)為字典表里每列數(shù)據(jù)提供文本描述。雖然這些本文描述有助于用戶正確理解數(shù)據(jù)集中每列數(shù)據(jù)的含義，但并不適合機(jī)讀，也沒有遵循統(tǒng)一的標(biāo)準(zhǔn)規(guī)范。已有研究指出語義數(shù)據(jù)字典可彌補(bǔ)現(xiàn)有數(shù)據(jù)字典的缺陷。語義數(shù)據(jù)字典，規(guī)定了數(shù)據(jù)的語義表示規(guī)范，可使各種不同數(shù)據(jù)集的數(shù)據(jù)表達(dá)規(guī)范化。本研究的語義數(shù)據(jù)字典基于生物醫(yī)學(xué)數(shù)據(jù)構(gòu)建，但實(shí)際上這種方法可以、并已被用于不同的學(xué)科領(lǐng)域。利用語義數(shù)據(jù)字典可促進(jìn)數(shù)據(jù)的被發(fā)現(xiàn)、互操作、可重用，可溯源和可再現(xiàn)。本文展示了可公開獲取的美國國家健康與營養(yǎng)檢驗(yàn)調(diào)查數(shù)據(jù)集的語義標(biāo)注的實(shí)例，討論了數(shù)據(jù)建模的挑戰(zhàn)，描述了研究者利用語義數(shù)據(jù)字典方法進(jìn)行的工作，包括美國國立衛(wèi)生研究院資助的大型健康數(shù)據(jù)網(wǎng)站和倫斯勒理工學(xué)院和IBM合作的“分析、學(xué)習(xí)和語義”健康賦能項(xiàng)目。在評測部分，研究者們設(shè)計(jì)了四個(gè)指標(biāo)：數(shù)據(jù)、語義、FAIR原則和普適性，分別對比了語義數(shù)據(jù)字典、傳統(tǒng)數(shù)據(jù)字典、映射語言和數(shù)據(jù)集成工具在這四個(gè)指標(biāo)上的得分。研究者們也對該方法的局限性進(jìn)行了討論并對未來研究方向進(jìn)行了展望。

?? 閱讀全文，請掃描二維碼

論文 3

The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas（計(jì)算機(jī)科學(xué)本體：自動(dòng)生成對研究領(lǐng)域的全面分類）

引用本文：A. Salatino, T. Thanapalasingam, A. Mannocci, A. Birukou, F. Osborne & E. Motta. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00055

摘要：研究領(lǐng)域本體是用來描繪某個(gè)研究領(lǐng)域特征，探索和分析該領(lǐng)域的重要工具。有一些研究領(lǐng)域已經(jīng)編制出能夠全面描繪本領(lǐng)域的大型主題詞表，例如生物醫(yī)學(xué)領(lǐng)域的MeSH醫(yī)學(xué)主題詞表，物理學(xué)領(lǐng)域的PhySHC主題詞表。相比之下，計(jì)算機(jī)科學(xué)領(lǐng)域的主題詞表粒度粗，而且發(fā)展緩慢。例如，ACM分類系統(tǒng)只包括2,000個(gè)研究主題，而且最近的版本還是2012年發(fā)布的。在本文中，我們介紹了能自動(dòng)對研究領(lǐng)域進(jìn)行分類的大型計(jì)算機(jī)科學(xué)本體（ Computer Science Ontology，CSO），它包括1,400個(gè)主題和162,000條語義關(guān)系。該本體是通過在一個(gè)包含1,600萬篇科技文章的大型數(shù)據(jù)集上運(yùn)用 Klink-2算法而建立的。

?CSO的優(yōu)勢體現(xiàn)在：1）本體中的大量主題沒有在其他分類體系中出現(xiàn)過；2）通過在最近出版的文章數(shù)據(jù)集上運(yùn)行Klink-2算法可自動(dòng)升級CSO。在CSO基礎(chǔ)上開發(fā)的幾款工具已被Springer Nature編輯團(tuán)隊(duì)采用，而且CSO已經(jīng)被用來作為解決方案，例如對科研出版物進(jìn)行分類，發(fā)現(xiàn)新的研究社區(qū)，預(yù)測研究趨勢等。為推廣CSO的應(yīng)用，我們也發(fā)布了可用來自動(dòng)分類研究論文的CSO分類器，可幫助用戶下載和研究CSO、提供對CSO的細(xì)粒度反饋的CSO門戶網(wǎng)站。用戶可以使用此網(wǎng)站進(jìn)行導(dǎo)航，對本體的各個(gè)部分進(jìn)行可視化，對主題和語義關(guān)系給出評分，提出需要補(bǔ)充哪些主題和語義關(guān)系的建議。

??? 此外，CSO主體數(shù)據(jù)已在Data Intelligence期刊數(shù)據(jù)平臺上與論文關(guān)聯(lián)發(fā)布，歡迎大家下載使用。

論文全文地址為：https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00055

數(shù)據(jù)下載地址為：http://www.en.scidb.cn/journalDetail?dataSetId=662664481360314368&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal#（需先注冊后下載）

閱讀全文，請掃描二維碼

論文 4

GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology （GeoLink數(shù)據(jù)集：基于真實(shí)數(shù)據(jù)的復(fù)雜本體匹配研究基準(zhǔn)數(shù)據(jù)集）

引用本文：L. Zhou, M. Cheatham, A. Krisnadhi& P.Hitzler. GeoLink data set: A complex alignment benchmark from real-worldontology. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00054

摘要：本體對齊的研究已經(jīng)有十多年的歷史，研究人員已經(jīng)提出了很多方法，并開發(fā)了系統(tǒng)來發(fā)現(xiàn)兩個(gè)本體之間一對一的匹配關(guān)系。但是，很少有本體對齊系統(tǒng)的研究關(guān)注本體間復(fù)雜的匹配關(guān)系。這其中的原因可能是目前并沒有廣泛接受的包含復(fù)雜關(guān)系的本體對齊基準(zhǔn)數(shù)據(jù)集。本文基于GeoLink項(xiàng)目構(gòu)建了一個(gè)真實(shí)世界數(shù)據(jù)集，可作為復(fù)雜本體匹配的基準(zhǔn)數(shù)據(jù)集。本數(shù)據(jù)集包括兩個(gè)本體，GeoLink基本本體（GeoLink Base Ontology, GBO) 和GeoLink模塊本體（GeoLink Modular Ontology, GMO), 以及一個(gè)在咨詢各學(xué)院領(lǐng)域?qū)＜液笫止?gòu)建的校驗(yàn)參考數(shù)據(jù)集。

?本數(shù)據(jù)集實(shí)體對齊包括一對一、一對多、多對多三種類型，使用EDOAL語言（即Expressive and Declarative Ontology Alignment Language，本體匹配表達(dá)及聲明語言）和規(guī)則語法來描述實(shí)體對應(yīng)屬性關(guān)系。基準(zhǔn)數(shù)據(jù)集的最初版本已經(jīng)進(jìn)行了擴(kuò)充，現(xiàn)在的版本包括由七位地球科學(xué)家提供的真實(shí)世界實(shí)例數(shù)據(jù)，而且兩個(gè)本體的數(shù)據(jù)集都已經(jīng)發(fā)布。此基準(zhǔn)數(shù)據(jù)集可用在對齊系統(tǒng)中，或已經(jīng)有訓(xùn)練數(shù)據(jù)的系統(tǒng)。此外，此數(shù)據(jù)集已經(jīng)被用于本體對齊競賽（Ontology Alignment Evaluation Initiative, OAEI）中的復(fù)雜本體匹配的比賽中，幫助研究者們測試他們的自動(dòng)對齊系統(tǒng)和算法。本文也分析了復(fù)雜本體對齊工作面臨的挑戰(zhàn)，并提供了未來研究工作的路線圖。

?該論文描述的數(shù)據(jù)集已在Data Intelligence期刊數(shù)據(jù)平臺在線發(fā)布，敬請大家下載。

論文全文地址為：https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00054

數(shù)據(jù)下載地址為：http://www.en.scidb.cn/journalDetail?dataSetId=662677835797757952&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal（需先注冊后下載）

閱讀全文，請掃描二維碼

論文 5

Refining Linked Data with Games with a Purpose（用有目的的游戲優(yōu)化關(guān)聯(lián)數(shù)據(jù)）

引用本文：I. Celino, G. Re Calegari & A. Fiano. Refining linked data with games with a purpose. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00056。

摘要：隨著關(guān)聯(lián)數(shù)據(jù)和知識圖譜的興起，我們迫切需要更多的數(shù)據(jù)集以及更準(zhǔn)確的數(shù)據(jù)來補(bǔ)充缺失的知識，發(fā)現(xiàn)和改正已有數(shù)據(jù)的錯(cuò)誤。研究人員已經(jīng)提出了一些解決方案，這些方案大多依賴機(jī)器學(xué)習(xí)和自然語言處理技術(shù)，通常也需要一種“黃金標(biāo)準(zhǔn)”，即“參考標(biāo)準(zhǔn)數(shù)據(jù)”來訓(xùn)練自動(dòng)分類模型。“黃金標(biāo)準(zhǔn)”是人工構(gòu)建的，或通過邀請領(lǐng)域?qū)＜覅⑴c構(gòu)建，或采用眾包和人力計(jì)算的解決方案構(gòu)建。本文提出了一種開源軟件框架，通過激勵(lì)措施啟發(fā)用戶參加網(wǎng)上游戲，我們稱之為“有目的的游戲”（Games with a Purpose, GWAP），來優(yōu)化關(guān)聯(lián)數(shù)據(jù)，也就是說通過眾包的方式得到部分“參考標(biāo)準(zhǔn)數(shù)據(jù)”。本框架支持的關(guān)聯(lián)數(shù)據(jù)的功能包括創(chuàng)建數(shù)據(jù)鏈接，給鏈接評分和校驗(yàn)鏈接。通過介紹本框架的支持功能和定義每個(gè)眾包任務(wù)是如何幫助實(shí)現(xiàn)這些功能，我們展示了本文提出的框架方法所具有的現(xiàn)實(shí)意義。

???文中介紹了利用“有目的的游戲”（GWAP）玩家貢獻(xiàn)的數(shù)據(jù)推斷“參考標(biāo)準(zhǔn)數(shù)據(jù)”的方法。通過對比GWAP和傳統(tǒng)眾包方法來說明本文方法的必要性，本文解釋并描述了方法過程，通過與目前最先進(jìn)的方法對比顯示本文方法的先進(jìn)性。本文提出的方法有多種用途：文中描述了基于本方法的不同應(yīng)用來展示它的可重用性和可擴(kuò)展的潛力。文中也提供了本文方法的參考資料，包括整個(gè)教程，讓新手在幾個(gè)小時(shí)內(nèi)可以學(xué)會(huì)使用本框架方法拓展新的應(yīng)用案列。

???????? 論文全文地址為：https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00056

?? 閱讀全文，請掃描二維碼

?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | Data Intelligence - 多篇语义资源论文的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：开源开放 | 多模态实体链接数据集MEL
下一篇：论文浅尝 - ICML2020 | 跨域

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

论文浅尝 | Data Intelligence - 多篇语义资源论文

GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology （GeoLink數(shù)據(jù)集：基于真實(shí)數(shù)據(jù)的復(fù)雜本體匹配研究基準(zhǔn)數(shù)據(jù)集）

Refining Linked Data with Games with a Purpose（用有目的的游戲優(yōu)化關(guān)聯(lián)數(shù)據(jù)）

總結(jié)