综述 | 知识图谱发展概述
作者丨姜天文
學校丨哈工大SCIR博士生
本文經授權轉載自公眾號「哈工大SCIR」。
“知識圖譜(Knowledge Graph)”的概念由 Google 公司在 2012 年提出[1],是指其用于提升搜索引擎性能的知識庫。與近年來其他學者相同,本文中的“知識圖譜”泛指知識庫項目,而非特指 Google 的知識圖譜項目。
知識圖譜的出現是人工智能對知識需求所導致的必然結果,但其發展又得益于很多其他的研究領域,涉及專家系統、語言學、語義網、數據庫,以及信息抽取等眾多領域,是交叉融合的產物而非一脈相承。
△ 圖1: 多領域共同促進知識圖譜發展??
知識圖譜的早期發展
早在上個世紀?70?年代,專家系統(Expert Systems)作為人工智能的重要分支,是指利用知識和推理過程來解決那些借助人類專家知識才能得已解決的問題的計算機程序[2]。八十年代,專家系統的發展激增,日本的五代機項目就是在這期間開始的,專家系統是其核心部分。專家系統一般由兩部分組成:知識庫與推理引擎。人類專家提供知識,再將這種顯式的知識映射并存儲到知識庫中用來推理。
Cyc?是這一期間較為出色的項目[3],由?Douglas Lenat?在?1984?年設立,旨在收集生活中常識知識并將其編碼集成到一個全面的本體知識庫。Cyc?知識庫中的知識使用專門設計的?CycL?進行表示。同其他專家系統一樣,Cyc?不僅包括知識,而且提供了非常多的推理引擎,支持演繹推理和歸納推理。目前?Cyc?知識庫涉及?50?萬條概念的?500?萬條常識知識。OpenCyc?是其開放出來免費供大眾使用的部分知識,包括?24?萬條概念的約?240?萬條常識知識。
對詞匯的理解是解讀自然語言的關鍵,語言學家所創造的詞典為人類而非機器的閱讀提供了便利,雖然有電子詞典的存在,但機器仍無法很好的從中獲取詞匯含義。
1985?年,普林斯頓大學認識科學實驗室在心理學教授喬治·A·米勒的指導下開始建立和維護名為?WordNet?的英語字典[4],旨在為詞典信息和現代計算提供更加有效的結合,為計算機程序提供可讀性較強的在線詞匯數據庫。
在?WordNet?中,名詞、動詞、形容詞以及副詞被按照認知上的同義詞分組,稱為?synsets,每一個?synset?表征一個確定的概念。synset?之間通過概念語義以及詞匯關系鏈接。在漢語中,類似的典型代表有《同義詞詞林》[15]及其擴展版[16]、知網(HowNet)[17]等,都是從語言學的角度,以概念為最基本的語義單元構建起來的可以被計算機處理的漢語詞典。
這些早期的知識圖譜都是利用相關領域專家進行人工構建,具有很高的準確率和利用價值,但是其構建過程耗時耗力而且存在覆蓋性較低的問題。
鏈接數據與基于百科知識的知識圖譜構建
1989?年萬維網的出現,為知識的獲取提供了極大的方便,1998?年,萬維網之父蒂姆·伯納斯·李再次提出語義網(Semantic Web),其初衷是讓機器也同人類一樣可以很好地獲取并使用知識[5,6,7]。
不同于人工智能中訓練機器使之擁有和人類一樣的認知能力,語義網直接向機器提供可直接用于程序處理的知識表示[5]。但語義網是一個較為宏觀的設想并且其設計模型是“自頂向下”的,導致其很難落地,學者們逐漸將焦點轉向數據本身。
2006?年,伯納斯·李提出鏈接數據(Linked Data)的概念,鼓勵大家將數據公開并遵循一定的原則(2006?年提出?4?條原則,2009?年精簡為?3?條原則)將其發布在互聯網中[8,9],鏈接數據的宗旨是希望數據不僅僅發布于語義網中,而需要建立起數據之間的鏈接從而形成一張巨大的鏈接數據網。其中,最具代表性的當屬?2007?年開始運行的?DBpedia?項目[10],是目前已知的第一個大規模開放域鏈接數據。
DBpdia?項目最初是由柏林自由大學和萊比錫大學的學者發起的,其初衷是緩解語義網當時面臨的窘境,第一份公開數據集在?2007?年時發布,通過自由授權的方式允許他人使用。Leipzig?等學者[10]認為在大規模網絡信息的環境下傳統“自上而下”地在數據之前設計本體是不切實際的,數據及其元數據應當隨著信息的增加而不斷完善。
數據的增加和完善可以通過社區成員合作的方式進行,但這種方式涉及數據的一致性、不確定性,以及隱式知識的統一表示等諸多問題。Leipzig?等人[10]認為探尋這些問題最首要并高效的方式就是提供一個內容豐富的多元數據語料,有了這樣的語料便可以極大推動諸如知識推理、數據的不確定管理技術,以及開發面向語義網的運營系統。
朝著鏈接數據的構想,DBpedia?知識庫利用語義網技術,如資源描述框架(RDF)[18],與眾多知識庫(如?WordNet、Cyc?等)建立鏈接關系,構建了一個規模巨大的鏈接數據網絡。
△ 圖2:以DBpedia為核心的鏈接數據網絡
2001 年,一個名為維基百科(Wikipedia)的全球性多語言百科全書協作計劃開啟[11],其宗旨是為全人類提供自由的百科全書,在短短幾年的時間里利用全球用戶的協作完成數十萬詞條(至今擁有上百萬詞條)知識。維基百科的出現推動了很多基于維基百科的結構化知識的知識庫的構建,DBpedia[10]、Yago[12]等都屬于這一類知識庫。
Yago?是由德國馬普研究所于?2007?年開始的項目,針對當時的應用僅使用單一源背景知識的情況,建立了一個高質量、高覆蓋的多源背景知識的知識庫。前面介紹的專家構建的?WordNet?擁有極高的準確率的本體知識,但知識覆蓋度僅限于一些常見的概念或實體;相比之下,維基百科蘊含豐富的實體知識,但維基百科多提供的概念的層次結構類似標簽結構并不精確,直接用于本體構建并不適合。
Yago?的主要思路是將?WordNet?與維基百科二者的知識結合,即利用?WordNet?的本體知識補充維基百科中實體的上位詞知識,從而獲取大規模高質量、高覆蓋的知識庫。截至目前,Yago?擁有超過?1?千萬實體的?1.2?億條事實知識,同時近些年也構建起了與其他知識庫的鏈接關系。
DBpedia?主要通過社區成員來定義和撰寫準確的抽取模版,從維基百科中抽取結構化信息(如?infobox)構建大規模知識庫,另外本體(即知識庫的元數據、schema)的構建也是通過社區成員合作完成的。
由于維基百科是社區撰寫,其知識表達難免有不一致的情況,DBpedia?利用?mapping?技術與抽取模版來實現知識描述的統一與一致性。另外,為了實現知識的更新與擴增,DBpedia?開發?DBpediaLive?來保持與維基百科的同步。在?2016?年發行的版本中,DBpedia?擁有超過?6?百萬實體及其數十億事實知識,其中人工構建的本體庫包含?760?種類別信息。同時,DBpedia?擁有大量的跨語言知識,共擁有除英語外的?66?億其他語言事實知識。
2007?年,Freebase[13]開始構建,類似維基百科,其內容主要來自其社區成員的貢獻,但與維基百科最大的不同之處在于?Freebase?中都是結構化的知識,在維基百科中人們編輯的是文章,而在?Freebase?中編輯的是知識。
在?Freebase?中,用戶是其主要核心,除了對實體的編輯,用戶也參與本體庫的構建、知識的校對,以及與其他知識庫的鏈接工作。除人工輸入知識,Freebase?也主動導入知識,如維基百科的結構化知識。Freebase?擁有大約?2?千萬實體,目前被?Google?公司收購,Freebase?的?API?服務已經關閉但仍提供數據的下載。
2012?年,考慮到維基百科中大部分的知識都是非結構組織起來的,帶來諸多問題(如:無法對知識進行有效的搜索與分析,進而知識無法得到很好的重用,甚至存在知識的不一致性的現象),維基媒體基金會推出?Wikidata?項目[14],一個類似于?Freebase?的大規模社區成員合作知識哭,旨在用一種全新的方式管理知識以克服以上的存在于維基百科中的問題。
以上所介紹的知識圖譜都是基于英文語言的,即使是多語言知識圖譜也是以英文為主語言,其他語言知識是用過跨語言知識(如:語言間鏈接(ILLs)、三元組對齊(TWA))鏈接得到。
近些年,國內推出了大量以中文為主語言的知識圖譜,它們主要都是基于百度百科和維基百科的結構化信息構建起來的。如上海交通大學的zhishi.me[19]、清華大學的XLore[20]、復旦大學的CN-pedia[21]。2017?年,由國內多所高校發起?cnSchema.org?項目[23],旨在利用社區力量維護開放域知識圖譜的?Schema?標準。
基于自由文本的開放域知識圖譜構建
上述介紹的知識圖譜的構建方式包括人工編輯和自動抽取,但自動抽取方法主要是基于在線百科中結構化信息而忽略了非結構化文本,而互聯網中大部分的信息恰恰是以非結構化的自由文本形式呈現。與鏈接數據發展的同期,很多基于信息抽取技術的知識獲取方法被提出,用以構建基于自由文本的開放域知識圖譜。
2007?年,華盛頓大學?Banko?等人[24]率先提出開放域信息抽取(OIE),直接從大規模自由文本中直接抽取實體關系三元組,即頭實體、關系指示詞,以及尾實體三部分,類似于語義網中?RDF?規范的?SPO?結構。
在?OIE?提出之前,也有很多面向自由文本的信息抽取被提出,但這些方法主要的思路都是為每個目標關系訓練相應的抽取器。這類傳統的信息抽取方法在面對互聯網文本中海量的關系類別時無法高效工作,即為每個目標關系訓練抽取器時不現實的,更為嚴重的是很多情況下面對海量的網絡文本我們無法事先明確關系的類型。
OIE?通過直接識別關系詞組(relation phrases)也稱關系指示詞,即顯式表證實體關系的詞組,來抽取實體關系。基于?OIE?的指導思想,華盛頓大學陸續推出TextRunner[24]、Reverb[25]、OLLIE[26]等基于自由文本的開放域三元組抽取系統;以及卡耐基梅隆大學的?NELL?系統[27,29]、德國馬普研究中心的?PATTY?等[28]。
這些系統有的需要自動構造標注的訓練語料,進而從中提取關系模版或訓練分類器;有的則依據語法或句法特征直接從分析結果中抽取關系三元組。接下來,本文將簡要介紹下具有代表性的?Reverb?和?NELL?系統的實現思想。
Reverb?針對之前的?OIE?系統中存在的兩個問題:不連貫抽取與信息缺失抽取,提出句法約束:對于多詞語關系詞組,必須以動詞開頭、以介詞結束,并且是由句子中毗鄰的單詞組成。該約束可以有效緩解以上兩個問題造成的抽取失敗。進一步,為了避免由句法約束帶來的冗長的并且過于明確的關系指示詞,Reverb?引入了啟發式的詞法約束。
總的來說,Reverb?提出了兩個簡單卻高效的約束,在面向英文自由文本的開放域知識抽取中取得了不錯的效果,很具啟發意義。
never-ending learning?被定義為是一種不同于傳統的機器學習方式[29],通過不斷地閱讀獲取知識,并不斷提升學習知識的能力以及利用所學知識進行推理等邏輯思維。NELL?就是一種這樣的智能體,其任務是學習如何閱讀網頁以獲取知識。
NELL?的輸入有:
·?定義了類別和二元關系的初始本體庫;
·?對于每個類別和關系的訓練種子數據;
·?網頁數據(從預先準備好的網頁集合中獲取、每天從?Google?搜索?API?獲取);
·?偶爾的人工干預。
NELL?每天?24?小時不停歇的進行如下操作:
·?從網頁中閱讀(抽取)知識事實用以填充知識庫,并移除之前存在于知識庫中不正確知識事實,每個知識具有一定的置信度以及參考來源;
·?學習如何比前一天更好地閱讀(抽取)知識事實。
NELL?從?2010?年?1?月開始進行上述閱讀過程,目前所產生的知識庫已經擁有超過?8?千萬的相互鏈接的事實,以及上百萬學習到的短語。
△ 圖3:NELL knowledge fragment
自動構建的開放域中文實體知識圖譜——《大詞林》
上述所介紹的?OIE?系統大多專注于對開放域實體關系三元組的抽取,但忽略了對于知識圖譜不可或缺的同時也是至關重要的本體庫的構建,即知識圖譜元數據或稱為?Schema?的構建,是為三元組賦以語義的關鍵。
2014?年,由哈爾濱工業大學社會計算與信息檢索研究中心發起的《大詞林》項目,面向包括自由文本的多信息源對實體的類別信息進行自動抽取并層次化,進而實現對實體上下位關系體系的自動構建,而上下位關系體系正是本體庫的核心組成之一。
《大詞林》的構建不需要領域專家的參與,而是基于多信息源自動獲取實體類別并對可能的多個類別進行層次化,從而達到知識庫自動構建的效果。同時也正是由于《大詞林》具有自動構建能力,其數據規模可以隨著互聯網中實體詞的更新而擴大,很好地解決了以往的人工構建知識庫對開放域實體的覆蓋程度極為有限的問題。
另外,相比以往的類別體系知識庫,《大詞林》中類別體系的結構也更加靈活。如《同義詞詞林(擴展版)》中每個實體具有具備五層結構,其中第四層僅有代碼表示,其余四層由代碼和詞語表示,而《大詞林》中類別體系結構的層數不固定,依據實體詞的不同而動態變化,如“哈工大”一詞有?7?層之多,而“中國”一詞有?4?層;另外,《大詞林》中的每一層都是用類別詞或實體詞表示。
△ 圖4:《大詞林》中“哈工大”的類別體系圖(左)和“中國”的類別體系圖(右)
自?2014?年?11?月?27?日上線,《大詞林》不斷添加中文實體及其層次化類別信息,自動構建開放域實體知識庫。目前,《大詞林》中包括約?900?萬實體、約?17?萬類別;平均每個命名實體有?1.77?個不同粒度的優質類別;上下位關系超過?1?千萬對,其中實體與上位詞之間的上下位關系與上位詞之間的上下位關系準確率均達到?90%?以上。
《大詞林》(http://www.bigcilin.com/)系統網站支持用戶查詢任意實體,并以有向圖的形式展現實體的層次化類別,同時支持以目錄方式供用戶瀏覽部分公開的知識庫。
人工智能中關鍵的一步是知識的獲取與構建,《大詞林》作為基于上下位關系的中文知識庫,隨著互聯網中實體詞的增加不斷擴充其數據規模,并即將加入實體間關系、實體屬性等網狀關系結構,這對于基于知識庫的智能系統無疑是一筆巨大的寶藏。
參考文獻
[1] Singhal A. Introducing the knowledgegraph: things, not strings[J]. Official google blog, 2012.
[2] Feigenbaum E A. Expert systems in the1980s[J]. State of the art report on machine intelligence.Maidenhead:Pergamon-Infotech,1981.
[3] Lenat D B, Prakash M, Shepherd M. CYC:Using common sense knowledge to overcome brittleness and knowledge acquisition bottlenecks[J]. AI magazine, 1985, 6(4): 65.
[4] Miller G A. WordNet: a dictionary browser[J]. Information in Data, 1985: 25-28.
[5] Berners-Lee T. Semantic web roadmap[J]. 1998.
[6] Berners-Lee T, Hendler J, Lassila O.The semantic web[J]. Scientific american, 2001, 284(5): 28-37.
[7] Shadbolt N, Berners-Lee T, Hall W. Thesemantic web revisited[J]. IEEE intelligent systems, 2006, 21(3): 96-101.
[8]Berners-Lee T.Linked data-designissues[J]. http://www.w3.org/DesignIssues/LinkedData.html, 2006.
[9] Berners-Lee T. The next web[J]. TED.com, 2009.
[10] Auer S, Bizer C, Kobilarov G, et al.Dbpedia: A nucleus for a web of open data[J]. The semantic web, 2007: 722-735.
[11] Wales J, Sanger L. Wikipedia: The free encyclopedia[J]. Accessed via?
http://en.wikipedia.org/wiki/Main_Page (27 November 2011), 2001.
[12] Suchanek F M, Kasneci G, Weikum G.Yago: a core of semantic knowledge[C] //Proceedings of the 16th international conference on World Wide Web. ACM, 2007: 697-706.
[13] Bollacker K, Cook R, Tufts P.Freebase: A shared database of structured general human knowledge[C]//AAAI.2007, 7: 1962-1963.
[14] Vrande?i? D. Wikidata: a new platformfor collaborative data collection[C] //Proceedings of the 21st International Conference on World Wide Web. ACM, 2012: 1063-1064.
[15]?梅家駒.?同義詞詞林[M].?上海辭書出版社,1983.
[16]?《同義詞詞林(擴展版)》:https://www.ltp-cloud.com/download/
[17]?董振東,?董強.?知網簡介[J].1999-09-23.[2004-03-06]. http://www.keenage.com, 1999.
[18] Swick R R. Resource Description Framework (RDF) Model and Syntax Specification W3C Recommendation[J]. W3c Recommendation World Wide Web Consortium, 1999.
[19] Niu, X.; Sun, X.; Wang, H.; Rong, S.;Qi, G.; and Yu, Y. 2011. Zhishi. me-weaving chinese linking open data. TheSemantic Web–ISWC 2011 205–220.
[20] Wang, Z.; Li, J.; Wang, Z.; Li, S.;Li, M.; Zhang, D.; Shi, Y.; Liu, Y.; Zhang, P.; and Tang, J. 2013. Xlore: Alarge- scale english-chinese bilingual knowledge graph. In Pro- ceedings of the 2013th International Conference on Posters & Demonstrations Track-Volume1035, 121–124. CEUR- WS. org.
[21] Xu, B.; Xu, Y.; Liang, J.; Xie, C.;Liang, B.; Cui, W.; and Xiao, Y. 2017. Cn-dbpedia: A never-ending chinese knowledge extraction system. In International Conference on In- dustrial,Engineering and Other Applications of Applied In- telligent Systems, 428–438.Springer.
[22]?《大詞林》項目官網:http://www.bigcilin.com
[23] cnSchema官網:http://cnschema.org
[24] Michele Banko, Michael J Cafarella,Stephen Soderland, Matthew Broadhead, and Oren Etzioni. Open information extraction from the web. In IJCAI, volume 7, pages 2670– 2676, 2007.
[25] Anthony Fader, Stephen Soderland, andOren Etzioni. Identifying relations for open information extraction. InProceedings of the Conference on Empirical Methods in Natural Language Processing, pages 1535–1545. Association for Computational Linguistics, 2011.
[26] Michael Schmitz, Robert Bart, Stephen Soderland, Oren Etzioni, et al. Open language learning for information extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages523–534. Association for Computational Linguistics, 2012.
[27] Andrew Carlson, Justin Betteridge,Bryan Kisiel, Burr Settles, Estevam R Hruschka Jr, and Tom M Mitchell. Towardan architecture for never-ending language learning. In AAAI, volume 5, page 3,2010.
[28] Ndapandula Nakashole, Gerhard Weikum,and Fabian Suchanek. Patty: a taxonomy of relational patterns with semantictypes. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages1135–1145. Association for Computational Linguistics, 2012.
[29] T. Mitchell, W. Cohen, E. Hruschka, P.Talukdar, J. Betteridge, A. Carlson, B. Dalvi, M. Gardner, B. Kisiel, J.Krishnamurthy, N. Lao, K. Mazaitis, T. Mohamed, N. Nakashole, E. Platanios, A.Ritter, M. Samadi, B. Settles, R. Wang, D. Wijaya, A. Gupta, X. Chen, A.Saparov, M. Greaves, J. Welling. In Proceedings of the Conference on Artificial Intelligence (AAAI), 2015.
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看最新論文推薦
總結
以上是生活随笔為你收集整理的综述 | 知识图谱发展概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 14 篇论文为你呈现「迁移学习」研究全貌
- 下一篇: 深到骨子里的自律,是每周坚持刷几篇最新论