知识图谱发展的三个时期以及事理图谱概念辨析
一、知識圖譜發展三個周期
? ?? ?知識圖譜,從2012年谷歌正式將這一概念應用到工業界之后,到現在已經逐步走過了將近7年的時間,在這七年的時間里,知識圖譜逐步經歷了從概念興起、概念泛化、技術掙扎與落地尷尬三個環節。
1、 知識圖譜的概念興起——起于谷歌,興于搜索
? ?? ?知識圖譜,真正以一種新鮮事物進入公眾視野的時間大概是谷歌于2012年提出的knowledge graph,國內學者直接意譯為“知識圖譜”。(當然之前有科學知識圖譜、語義網,不在此文討論范圍之內)。從字面意義上來說,知識圖譜的核心包括兩個,一個是knowledge,另一個是graph。Knowledge充當的是數據的類型角色,所刻畫和描述的數據被稱作是知識,graph充當的是數據組織和存儲結構的角色,即圖結構。數據這個點決定了知識圖譜所能涵蓋和刻畫的領域和范圍,圖結構決定了數據的使用方式和應用方向。
? ?? ?2012年,谷歌首先拋出了知識圖譜這個概念,并將其應用于提升搜索服務,在搜索效果上的直觀體現主要還是集中于實體級別的搜索,通過內部實體之間的關聯信息以及實體的屬性等信息,在用戶在進行實體搜索時,通過關聯查詢,以知識卡片的形式同時提供實體本身以及關聯實體的信息,從而在給出什么是什么的情況下,再一度地給出此外還有什么的問題。簡單的來說,這種搜索體驗大致可以歸為2點,一是搜索結果的目的簡潔性,是一個實體或者實體屬性,形式上更為確定,而非一個網頁。而是搜索結果的上下文擴展,這里所說的上下文指的是實體的關聯信息,這些關聯信息能夠在讓用戶知道多一點的情況下可進一步提升用戶的點擊興趣。事實證明,谷歌這一做法是奏效的,新的搜索方式引領了一步新的潮流,并且隨后被國內外同行爭相跟進,如yahoo,Microsoft,facebook,百度,搜狗,阿里巴巴先后提出了自己的知識圖譜并快速產品化。這類產品主要還是集中于搜索領域,歸結的來說,即知識圖譜起于谷歌,興于搜索。
2、 知識圖譜概念的泛化——雖有嘗試,亦存跟風
? ?? ?當知識圖譜起于谷歌,興于搜索之后,借著搜索的東風以及搜索本身作為一種信息傳播的工具,知識圖譜這一概念開始經歷第二個時期,即快速傳播時期。主要傳播的方式包括三個途徑,一種是文字上的傳播,關于大量知識圖譜的報道,軟文介紹在互聯網上大規模傳播,“知識圖譜”、“knowledge graph”等關鍵詞充斥于各個技術文章當中。二是視覺上的傳播,“兩個圓圈一條邊,邊上幾個文字懸”的知識圖譜形象化展示圖片被大量生產出來,這似乎固化了知識圖譜在大眾心目中的物化形象,即知識圖譜就是一張網,就是網中的可視化。三是聽覺上的傳播,如ccks為主要代表的會議,線上以及線下知識圖譜講座、課程使得“zhi shi tu pu”這個名詞在人群中廣為傳播。這三種方式一同發力,直接將知識圖譜這一概念的流行度推向高峰。而一旦一個名詞性概念被廣為流傳和熟知之后,如ai一般,知識圖譜恐怕難逃“知識圖譜+”這樣的命運,這里的“知識圖譜+”與“互聯網+”以及“ai+”一樣,成為互聯網創業中的基本標配,越來越多的項目向知識圖譜靠攏,形式上,知識圖譜在各個領域的快速應用,醫療知識圖譜、法律知識圖譜、食品知識圖譜、農業知識圖譜、金融知識圖譜、產業鏈知識圖譜、教育知識圖譜等等,如雨后春筍般涌現。這些知識圖譜的大量出現,歸結的來說,雖有嘗試,亦存跟風。知識圖譜可以作為一個技術本身而存在,而不同的業務場景,不同的需求是否真正需要使用知識圖譜從而完成所需目標就另當別論了。
3、 知識圖譜概念的落地——躊躇滿志,艱難不止
? ?? ?當一個新鮮事物被廣為流傳之時,即到達了一個頂峰之后,就必然不能停留在想象之中,想象中,很不同,與現實場景有很大不同,即現實場景下,就到了概念到實際應用的轉化了。說到這,自然而然就要說到知識圖譜本身的技術問題了。第一節說到,知識圖譜核心包括數據-知識,結構-圖譜,數據是最為重要的一點,目前運用數據進行產品研發和應用落地的重要前提就是數據的靠譜性,所謂的數據靠譜,主要體現在知識的準確性、實時性以及小眾性三個方面。其中準確性是首要前提,錯誤的數據會導致錯誤的結論;實時性主要是尊重知識的客觀屬性,即動態性,社會是不斷動態變化的,知識是不斷動態實時更新的,舊的落后的數據無法保持得到的結論是可靠的;小眾性主要是從知識的價值大小來說,“物以希為貴”這條定理很好的說明了這個問題,大眾的知識是你有我有全都有的知識,這大眾已知的知識對于后期的應用以及公司的競爭力來說,沒有太大的意義。而如法律知識、軍事知識、交易數據等私密或者只有少部分人能夠獲取的知識,才真正大有可為。因此,要真正意義上把握這三點,將知識圖譜做好,其實是個“躊躇滿志,艱難不止”的事情。在知識圖本身技術上的局限性,從知識抽取-知識融合-知識更新這一長條知識工程pipeline上,知識圖譜這一塊的骨頭可謂是相當難啃。
二、從實體到事件
? ?? ?當知識圖譜作為一項技術和名詞性概念進行發展之時,新的變體就會必然出現。知識圖譜的基本組成單位,<實體,實體關系,實體>中,我們進行成分替換之后可以得到多種不同的類型,例如,我們將實體單位換成是一個事件,實體之間的關系換成是事件的關系,那么就可以得到以“事件”為核心的event knowledge graph。然而,目前關于event knowledge graph,概念不統一,因此,接下來可以展開論述。概念不統一,本質在于對event knowledge的界定不同,什么是事件知識,而事件又是什么?本身關于事件(event)的界定都不明確。目前關于事件的界定有很多,如目前ACE、TDT、chambers在做narrative event chain或者scripts中的事件,這些事件都給出了不同的解釋。而從計算機處理事件來說,應該從以下幾個方面去考慮一個事件:
1、事件的外部表示界定
? ?? ?知識圖譜中的實體和實體關系都有唯一的一個表現形式進行表示,如名詞性的“劉煥勇”,動詞性的“畢業于”,形容詞性的“美麗”等,這種唯一的表現形式提供了節點表示的可能。而如果要將節點替換成事件,用一種特定的字符串序列來表示事件,會出現什么情況?一個事件是一個名詞還是動詞,還是一個短語,還是一個主謂或動賓二元組,還是一個主謂賓三元組,還是一句描述,還是囊括更多信息的N元組?這些都是需要考慮的問題。目前廣泛應用于scripts以及narrative chain中的以動詞作為事件的表示方式往往太過于抽象,往往一些名詞也可以充當事件,這個放在兼類現象嚴重的中文中問題更大。事實上,事件在外部形式上的表現方式,直接決定了事件在圖譜中的組織方式和管理機制。
2、事件的內部信息表示界定
? ?? ?單純以一個詞來表示事件的方式往往太過于單薄和抽象,而一個事件之所以能夠成為事件,那么最好的方式是能夠使用盡可能少量的字符或者字段表達盡可能多的事件相關信息。在這個方面,ACE定義了8類事件,以及幾十個小類的事件類型,人工地針對每個事件小類定義了槽即slot的概念,從不同的側面圍繞一個特定的事件觸發詞trigger words來進行事件描述。由于這種事件結構定義不具備普適性和拓展性,遷移成本特別高,因此,后期有人考慮使用framenet以及verbnet來解決這個問題,但依舊有限,而且這都是屬于英文領域,對于中文,又會遇到“巧婦難為無米之炊”的問題。目前,關于事件的info-schema,可以自行搜索關于eventschema相關的框架,主要代表性的有國內上海大學的5元組事件表示,國外的semevent本體表示框架。
3、事件之間關系的表示界定
? ?? ?靜態性的知識數量規模巨大,這決定了實體關系類型的豐富性,而相對于實體而言,事件之間的關系則相對較少,從大的方面來說,事件之間的關系主要包括空間關系和時間關系兩個大類,兩個大類底下能夠繼續下分,形成不同的子空間關系和子時間關系??臻g關系和時間關系又可進一步聚類形成邏輯關系,不同的空間和時間關系組合決定了不同的邏輯關系。
三、事件類圖譜的幾個類別
? ?? ?根據事件外部表示以及關系的不同,事件類知識圖譜主要有以下幾種概念形式(此處為個人總結):
1、 事件知識圖譜(event knowledge graph)
? ?? ?事件知識圖譜,在這里,我更傾向于認為這個圖譜本身更傾向于為一個事件知識庫,而非知識圖譜。事件知識圖譜的工作主要圍繞事件知識本身進行展開,關注點在于事件內部信息,如ACE中的8大類事件,將這幾類事件中的信息進行抽取和填充就能夠得到一個以特定事件類型作為分類標準的事件知識庫,如婚姻事件庫、爆炸事件庫等。最近的工作包括自動化所關于金融事件知識圖譜的工作,集中于資產凍結等少數幾個特定事件的事件知識圖譜。這種事件知識圖譜中的事件由特定的事件類型及其槽構成,內部關系主要考慮包括事件論元之間的關聯,對于外部事件之間的關聯關注較少。
2、 抽象事理圖譜(abstract event evolutionary graph)
? ?? ?抽象事理圖譜,最早由哈工大信息檢索實驗室在narrative chain的基礎上提出,目標是揭示事件之間的演化性,關系上主要考慮順承和因果兩種,在事件節點的設置上傾向于事件的抽象性,以原文短句的形式作為字符串表示,這種抽象性質決定了該事件不具備更為細致的內部事件信息,形式上很為簡潔。但存在的挑戰很多,例如如何抽象,以原文短句作為事件外部表示似乎看不到抽象的成分在,抽象的力度如何控制,不同的抽象粒度會得到不同的抽象結果。
3、 事件邏輯知識圖譜(event logic knowledge graph)
? ?? ?事件邏輯知識圖譜,是綜合事件知識圖譜和抽象事理圖譜之間的一種知識圖譜類型,該知識圖譜既保留了事件知識圖譜中事件內部信息的完備性,又保留了抽象事理圖譜中外部事件表示的抽象性,具有完備性和抽象性雙重特征。不過,事件邏輯知識圖譜與事件圖譜不同,事件邏輯知識圖譜規避了事件知識圖譜的領域特征,而采用統一的事件槽,即通用的事件N個論元組對事件表示,其中論元的設置綜合考慮了回答5個W,1個H的問題的同時,更考慮事件的情緒、確定性、完成性、主觀性、權威性等信息,并通過領域實體的增加與替換來達到對不同領域的適配。本質上來說,事件邏輯知識圖譜的核心在于邏輯,而這種邏輯的本質特性是抽象性,因此事件之間的邏輯關系需要從底層的事件進行高度抽象而成,這種抽象主要體現在事件邏輯知識庫中事件外部形式的表示上。與抽象事理圖譜不同,由于有了底層具有豐富內部屬性的實例事件作為支撐,可用于事件抽象的信息更多,在事件融合方面帶來了極大的便利,另外在事件之間的關系上,進一步進行擴展,可以形成對立、條件、部分與整體等多種邏輯網絡。
四、事件類圖譜的幾個重要問題
? ?? ?在實際的理論研究和生產過程當中,我們發現,以下幾個方面的問題需要急需解決。
1、事件關系語料庫的構建與融合。目前關于這方面的英文語料庫主要有timebank以及propbank,中文的有突發事件cec語料庫以及哈工大的篇章關系語料庫等,這些語料庫一方面在分布上較為分散,另外,在事件的標注上,還是局限于動詞性詞語作為事件表示。因此,更多類型的事件關系語料庫需要構建,在標注的形式和規范上需要從詞級別進一步轉換成句子級別等。
2、事件關系抽取的任務規則轉變。目前,時序事件評測以及因果事件評測任務大多轉換成了一個序列標注任務或者文本分類問題來做,而這基于一個重要的前提,即數據集中明確標注了事件本身,我認為這樣的任務與其說是抽取,不如說是分類,因為沒有事件抽取的概念在。這樣的評測任務,直接會造成在實際應用場景下無法直接使用。識別出事件這一個步驟需要提上日程,而不是在已標注好的事件上,做事件關系的判定之類的刷榜游戲,實際落地應用價值不是特別大。
3、事件類知識圖譜的評估。這個問題是我們在工作過程當中,包括與別人討論時必問的一個問題,即準確率的評估問題。事件邏輯知識圖譜是目前我們工作的重點,我們在通用事件論元表示,抽象性事件關聯抽取上做了一些工作??偨Y的來說,事件邏輯知識圖譜從零到有,包括因果、順承、對立等事件的抽取,事件內部論元的識別,事件的抽象與融合,事件的動態等一系列環節,組成一個具有誤差傳播的pipeline,每一個環節的準確率都需要進行評估。此外,在構建好的事件邏輯知識圖譜當中,如何應用進行輔助決策,在應用層也需要進行準確性的量化。這些評估問題在標準數據集的構建以及評估方法上面臨著諸多挑戰,這是我們目前遇到以及正在解決的問題,可以關注我們的工作。
五、總結
? ?? ?知識圖譜目前已經發展了近7年的時間,在這7年的時間里,知識圖譜從興起走向泛化,目前正處于從概念到落地的環節,還存在諸多挑戰。正如知識圖譜一樣,事理圖譜提的多了,大家對該概念的理解就會出現偏差,也就會對事件類圖譜有不同的認識,本文介紹了我們在實際過程中對事件類圖譜的認識,可以幫助大家掃掃盲區。另外,也正如知識圖譜一樣,事理圖譜目前到了落地應用的環節,技術上存在多種問題需要解決,本文也提出了幾個需要解決的問題,如事件關系語料庫的構建、事件關系抽取任務規則的轉變、事件類知識圖譜的評估,大家也可以多想想關注此類問題。
? ?? ?如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯系我:
1、劉煥勇,中科院軟件所,lhy_in_blcu@126.com
2、我的github項目介紹:https://liuhuanyong.github.io
3、我的csdn博客:https://blog.csdn.net/lhy2014
4、我的公眾號:老劉說NLP
總結
以上是生活随笔為你收集整理的知识图谱发展的三个时期以及事理图谱概念辨析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Tensorflow】小白入门实战基础
- 下一篇: Pycharm使用远程服务器运行代码