技术动态 | 知识图谱的策展
作者:Jiaoyan Chen, Senior Researcher, Department of Computer Science, University of Oxford, Research interests: Knowledge Base, Knowledge-based Learning, Machine Learning Explanation.
知識圖譜在眾多的領域中發揮了重要作用,比如聊天機器人,自然語言理解,常識推理,數據分析,機器學習等。然而,目前主流的常識知識圖譜,如Wikidata和DBpedia,都存在質量管理,維護更新,一致性等方面的挑戰。作為從多知識圖譜的知識來源,維基百科的知識本身就存在2.8%的錯誤率 [1];而知識的提取、轉化和創建過程也存在出現錯誤的可能。隨著時間的推移和不同知識的融合,知識需要不斷更新和維護,以確保知識的覆蓋率,準確性和一致性。類似于數據策展 [8],知識圖譜的策展(Knowledge GraphCuration)旨在知識圖譜(知識庫)的管理和維護,解決包括知識的填充(Population),知識的標準化(Canonicalization),錯誤知識的檢測(Detection)和修復(Repair),知識的一致性(Consistency)維護等問題。
?
牛津大學知識表達和推理實驗室 [2],聯合倫敦圖靈實驗室AIDA項目組 [3]和挪威Sirius可擴展數據獲取研究中心[4],提出了一些知識圖譜策展方面的特定問題,并且結合各自在知識表達,推理,機器學習和語義網等方面的優勢,進行了深入地研究。
?
問題一:知識圖譜的文本標準化(Literal Canonicalization)[7]。該工作面向基于本體的知識圖譜,旨在將那些通過屬性任意標注的文本和對應的語義類型與實體進行關聯。研究的對象類似如下三元組事實<River_Thames,passesArea, “Port? Meadow, Oxford”>。在這個例子中,賓語是一個文本”Port Meadow, Oxford”,它應該和對應的實體關聯,或者成為一個新的實體(如果不存在),并且標注語義類型如Park和Place,以使得它具有更多的語義信息,獲得更大的使用價值。這樣的文本在那些從維基中提取的知識圖譜,如DBpedia和LinkedGeoData中大量存在(事實上,我們發現Yago直接刪除了這樣的事實而不是對它們進行修復)。與此同時,在多個知識圖譜的整合對齊時,在知識圖譜演化過程中,甚至在知識貢獻者編輯知識的時候,也會出現這樣的問題或者有類似的需求。不同于現有的Open IE中的實體鏈接和聚類問題,上述文本的上下文語境存在重要差異,現有的機器學習方法很難直接應用,并且往往依賴于大量人工標注而忽略知識圖譜(知識庫)的本體限制。
?
在文本標注化過程中,我們采用下圖所示的自動化框架,首先對文本所表示的實體進行類別標注。我們首先通過文本檢索提取與文本接近的實體,和關系屬性的所有對象實體。這些實體被稱為上下文實體,而它們的類別(包括祖先類)則組成了用于標注的備選類。在這些上下文實體和備選類的基礎上,我們進一步利用知識圖譜的實體,事實和知識圖譜的本體限制(如 class disjointness)進行高質量的正采樣和負采樣。然后我們利用一種基于自相關神經網絡的語言模型訓練分類器,預測出各個備選類的分數,并結合類與類之間的不相交性等本體限制進行類別標注。基于這些標注的類,我們判斷是否存在關聯實體,并且找出最有可能關聯的實體(如果存在)。
?
?
問題二:表格語義標注(Semantic Annotation for Tabular Data)。ColNet [5]是另一項我們正在研究的方法,它能對表格的列進行自動化知識圖譜類型標注。類似于谷歌利用網頁表格(Web Table)對其知識圖譜進行擴展 [6],我們可以利用ColNet的類型標注,及其后續其它語義信息標注,進行知識圖譜填充。ColNet不依賴于表格數據的元數據,并且自動從現有的知識圖譜中學習一種基于卷積的深度學習模型,對給出的列預測出層次化的類。基于列的類型標注,我們可以進一步標注表格元素對應的實體和表格列之間的語義關系,從而利用這些表格數據對知識圖譜實體進行填充。
?
?
[1] Gabriel Weaver, Barbara Strickland, and Gregory Crane.2006. Quantifying the accuracy of relational statements in wikipedia: amethodology. In JCDL, Vol. 6. Citeseer, 358–358
[2] https://www.cs.ox.ac.uk/isg/krr/
[3] https://www.turing.ac.uk/research/research-projects/artificial-intelligence-data-analytics-aida
[4] https://sirius-labs.no/
[5] Jiaoyan Chen, Ernesto Jiménez-Ruiz, IanHorrocks, and Charles Sutton. "ColNet: Embedding the Semantics of WebTables for Column Type Prediction." AAAI 2019
[6] Cafarella, Michael, et al. "Ten years ofwebtables."?Proceedings of the VLDB Endowment?11.12 (2018):2140-2149.
[7] Jiaoyan Chen, Ernesto Jiménez-Ruiz, IanHorrocks. “Canonicalizing Knowledge Base Literals”. International Semantic WebConference (ISWC), 2019.
[8] https://en.wikipedia.org/wiki/Data_curation
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的技术动态 | 知识图谱的策展的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 通过学习中间步骤的监督信号
- 下一篇: 开源开放 | 中国近代历史人物知识图谱