當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

知识图谱发展概述

發(fā)布時間：2023/12/20 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了知识图谱发展概述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

（摘自《知識圖譜發(fā)展報告2018》）

1. 知識圖譜的研究目標與意義

知識圖譜（Knowledge Graph）以結構化的形式描述客觀世界中概念、實體及其關系，將互聯(lián)網的信息表達成更接近人類認知世界的形式，提供了一種更好地組織、管理和理解互聯(lián)網海量信息的能力。知識圖譜給互聯(lián)網語義搜索帶來了活力，同時也在智能問答中顯示出強大威力，已經成為互聯(lián)網知識驅動的智能應用的基礎設施。知識圖譜與大數(shù)據(jù)和深度學習一起，成為推動互聯(lián)網和人工智能發(fā)展的核心驅動力之一。

知識圖譜技術是指知識圖譜建立和應用的技術，是融合認知計算、知識表示與推理、信息檢索與抽取、自然語言處理與語義 Web、數(shù)據(jù)挖掘與機器學習等方向的交叉研究。知識圖譜于 2012 年由谷歌提出并成功應用于搜索引擎，知識圖譜屬于人工智能重要研究領域——知識工程的研究范疇，是利用知識工程建立大規(guī)模知識資源的一個殺手锏應用。94 年圖靈獎獲得者、知識工程的建立者費根鮑姆給出的知識工程定義——將知識集成到計算機系統(tǒng)從而完成只有特定領域專家才能完成的復雜任務。在大數(shù)據(jù)時代，知識工程是從大數(shù)據(jù)中自動或半自動獲取知識，建立基于知識的系統(tǒng)，以提供互聯(lián)網智能知識服務。大數(shù)據(jù)對智能服務的需求，已經從單純的搜集獲取信息，轉變?yōu)樽詣踊闹R服務。我們需要利用知識工程為大數(shù)據(jù)添加語義/知識，使數(shù)據(jù)產生智慧（smart data），完成從數(shù)據(jù)到信息到知識，最終到智能應用的轉變過程，從而實現(xiàn)對大數(shù)據(jù)的洞察、提供用戶關心問題的答案、為決策提供支持、改進用戶體驗等目標。知識圖譜在下面應用中已經凸顯出越來越重要的應用價值：

- 知識融合：當前互聯(lián)網大數(shù)據(jù)具有分布異構的特點，通過知識圖譜可以對這些數(shù)據(jù)資源進行語義標注和鏈接，建立以知識為中心的資源語義集成服務；

- 語義搜索和推薦：知識圖譜可以將用戶搜索輸入的關鍵詞，映射為知識圖譜中客觀世界的概念和實體，搜索結果直接顯示出滿足用戶需求的結構化信息內容，而不是互聯(lián)網網頁；

- 問答和對話系統(tǒng)：基于知識的問答系統(tǒng)將知識圖譜看成一個大規(guī)模知識庫，通過理解將用戶的問題轉化為對知識圖譜的查詢，直接得到用戶關心問題的答案；

- 大數(shù)據(jù)分析與決策：知識圖譜通過語義鏈接可以幫助理解大數(shù)據(jù)，獲得對大數(shù)據(jù)的洞察，提供決策支持。

2. 知識工程的發(fā)展歷程

知識圖譜的發(fā)展是人工智能重要分支知識工程在大數(shù)據(jù)環(huán)境中的成功應用?；仡欀R工程四十年來發(fā)展歷程，總結知識工程的演進過程和技術進展，體會知識工程為人工智能所做出的貢獻和未來面臨的挑戰(zhàn)，可以將知識工程分成五個標志性的階段，前知識工程時期、專家系統(tǒng)時期、萬維網 1.0 時期，群體智能時期以及知識圖譜時期。

圖 1. 知識工程發(fā)展歷程

1950-1970 時期：圖靈測試

人工智能旨在讓機器能夠像人一樣解決復雜問題，圖靈測試是評測智能的是手段。這一階段主要有兩個方法：符號主義和連結主義。符號主義認為物理符號系統(tǒng)是智能行為的充要條件，連結主義則認為大腦（神經元及其連接機制）是一切智能活動的基礎。這一階段具有代表性的工作是通用問題求解程序（GPS）：將問題進行形式化表達，通過搜索，從問題初始狀態(tài)，結合規(guī)則或表示得到目標狀態(tài)。其中最成功應用是博弈論和機器定理證明等。這一時期的知識表示方法主要有邏輯知識表示、產生式規(guī)則、語義網絡等。這一時代人工智能和知識工程的先驅 Minsky，Mccarthy 和 Newell 以 Simon 四位學者因為他們在感知機、人工智能語言和通用問題求解和形式化語言方面的杰出工作分別獲得了 1969 年、1971年、1975 年的圖靈獎。

1970-1990 時期：專家系統(tǒng)

通用問題求解強調利用人的求解問題的能力建立智能系統(tǒng)，而忽略了知識對智能的支持，使人工智能難以在實際應用中發(fā)揮作用。70 年開始，人工智能開始轉向建立基于知識的系統(tǒng)，通過知識庫+推理機實現(xiàn)智能，這一時期涌現(xiàn)出很多成功的限定領域專家系統(tǒng)，如 MYCIN 醫(yī)療診斷專家系統(tǒng)、識別分子結構的DENRAL 專家系統(tǒng)以及計算機故障診斷 XCON 專家系統(tǒng)等。94 年圖靈獎獲得者Feigenbaum 教授在 70 年代提出知識工程的定義，確立了知識工程在人工智能中的核心地位。這一時期知識表示方法有新的演進，包括框架和腳本等。80 年代后期出現(xiàn)很多專家系統(tǒng)的開發(fā)平臺，可以幫助將專家的領域知識轉變成計算機可以處理的知識。

1990-2000 時期：萬維網 Web 1.0

在 1990 年代到 2000 年，出現(xiàn)了很多人工構建大規(guī)模知識庫，包括廣泛應用的英文 WordNet, 采用一階謂詞邏輯知識表示的 Cyc 常識知識庫，以及中文的Hownet。Web1.0 萬維網的產生為人們提供了一個開放平臺，使用 HTML 定義文本的內容，通過超鏈接把文本連接起來，使得大眾可以共享信息。W3C 提出的可擴展標記語言 XML，實現(xiàn)對互聯(lián)網文檔內容的結構通過定義標簽進行標記，為互聯(lián)網環(huán)境下大規(guī)模知識表示和共享奠定了基礎。這一時期還提出了本體的知識表示方法。

2000-2006 時期：群體智能 Web 2.0

Web1.0 萬維網的出現(xiàn)使得知識從封閉知識走向開放知識，從集中知識成為分布知識。原來專家系統(tǒng)是系統(tǒng)內部定義的知識，現(xiàn)在可以實現(xiàn)知識源之間相互鏈接，可以通過關聯(lián)來產生更多的知識而非完全由固定人生產。這個過程中出現(xiàn)了群體智能，最典型的代表就是維基百科，實際上是用戶去建立知識，體現(xiàn)了互聯(lián)網大眾用戶對知識的貢獻，成為今天大規(guī)模結構化知識圖譜的重要基礎。也是在 2001 年，萬維網發(fā)明人、2016 年圖靈獎獲得者 Tim Berners-Lee 提出語義 Web的概念，旨在對互聯(lián)網內容進行結構化語義表示，并提出互聯(lián)網上語義標識語言RDF（資源描述框架）和 OWL（萬維網本體表述語言），利用本體描述互聯(lián)網內容的語義結構，通過對網頁進行語義標識得到網頁語義信息，從而獲得網頁內容的語義信息，使人和機器能夠更好地協(xié)同工作。

2006 年至今：知識圖譜

“知識就是力量”，將萬維網內容轉化為能夠為智能應用提供動力的機器可理解和計算的知識是這一時期的目標。從 2006 年開始，大規(guī)模維基百科類富結構知識資源的出現(xiàn)和網絡規(guī)模信息提取方法的進步，使得大規(guī)模知識獲取方法取得了巨大進展。與 Cyc、WordNet 和 HowNet 等手工研制的知識庫和本體的開創(chuàng)性項目不同，這一時期知識獲取是自動化的，并且在網絡規(guī)模下運行。當前自動構建的知識庫已成為語義搜索、大數(shù)據(jù)分析、智能推薦和數(shù)據(jù)集成的強大資產，在大型行業(yè)和領域中正在得到廣泛使用。典型的例子是谷歌收購 Freebase 后在2012 年推出的知識圖譜（Knowledge Graph），Facebook 的圖譜搜索，Microsoft?Satori 以及商業(yè)、金融、生命科學等領域特定的知識庫。最具代表性大規(guī)模網絡知識獲取的工作包括 DBpedia，Freebase，KnowItAll，WikiTaxonomy 和 YAGO，以及 BabelNet，ConceptNet，DeepDive，NELL，Probase，Wikidata，XLore，Zhishi.me 等。這些知識圖譜遵循 RDF 數(shù)據(jù)模型，包含數(shù)以千萬級或者億級規(guī)模的實體，以及數(shù)十億或百億事實（即屬性值和與其他實體的關系），并且這些實體被組織在成千上萬的由語義類體現(xiàn)的客觀世界的概念結構中。

現(xiàn)在我們看知識圖譜的發(fā)展和應用狀況，除了通用的大規(guī)模知識圖譜，各行業(yè)也在建立行業(yè)和領域的知識圖譜，當前知識圖譜的應用包括語義搜索、問答系統(tǒng)與聊天、大數(shù)據(jù)語義分析以及智能知識服務等，在智能客服、商業(yè)智能等真實場景體現(xiàn)出廣泛的應用價值，而更多知識圖譜的創(chuàng)新應用還有待開發(fā)。

3. 知識圖譜技術

人們通過概念掌握對客觀世界的理解，概念是對客觀世界事物的抽象，是將人們對世界認知聯(lián)系在一起的紐帶。知識圖譜以結構化的形式描述客觀世界中概念、實體及其關系。實體是客觀世界中的事物，概念是對具有相同屬性的事物的概括和抽象。本體是知識圖譜的知識表示基礎，可以形式化表示為，O={C，H，P，A，I}，C 為概念集合，如事物性概念和事件類概念，H 是概念的上下位關系集合，也稱為 Taxonomy 知識，P 是屬性集合，描述概念所具有的特征，A 是規(guī)則集合，描述領域規(guī)則，I 是實例集合，用來描述實例-屬性-值。Google 于 2012年提出知識圖譜，并在語義搜索中取得成功應用。知識圖譜可以看做是本體知識表示的一個大規(guī)模應用，Google 知識圖譜的知識表示結構主要描述客觀存在實體和實體的關系，對于每個概念都有確定的描述這個概念的屬性集合。

知識圖譜技術是知識圖譜建立和應用的技術，是語義 Web、自然語言處理和機器學習等的交叉學科。我們將知識圖譜技術分為三個部分 : 知識圖譜構建技術、知識圖譜查詢和推理技術，以及知識圖譜應用。在大數(shù)據(jù)環(huán)境下，從互聯(lián)網開放環(huán)境的大數(shù)據(jù)中獲得知識，用這些知識提供智能服務互聯(lián)網/行業(yè)，同時通過互聯(lián)網可以獲得更多的知識。這是一個迭代的相互增強過程，可以實現(xiàn)從互聯(lián)網信息服務到智能知識服務的躍遷。

3.1 知識圖譜構建

知識表示與建模

知識表示將現(xiàn)實世界中的各類知識表達成計算機可存儲和計算的結構。機器必須要掌握大量的知識，特別是常識知識才能實現(xiàn)真正類人的智能。從有人工智能的歷史開始，就有了知識表示的研究。知識圖譜的知識表示以結構化的形式描述客觀世界中概念、實體及其關系，將互聯(lián)網的信息表達成更接近人類認知世界的形式，為理解互聯(lián)網內容提供了基礎支撐。

知識表示學習

隨著以深度學習為代表的表示學習的發(fā)展,面向知識圖譜中實體和關系的表示學習也取得了重要的進展。知識表示學習將實體和關系表示為稠密的低維向量,實現(xiàn)了對實體和關系的分布式表示，可以高效地對實體和關系進行計算,、緩解知識稀疏、有助于實現(xiàn)知識融合，已經成為知識圖譜語義鏈接預測和知識補全的重要方法。由于知識表示學習能夠顯著提升計算效率，有效緩解數(shù)據(jù)稀疏，實現(xiàn)異質信息融合，因此對于知識庫的構建、推理和應用具有重要意義，值得廣受關注、深入研究。

實體識別與鏈接

實體是客觀世界的事物，是構成知識圖譜的基本單位（這里實體指個體或者實例）。實體分為限定類別的實體（如常用的人名、地名、組織機構等）以及開放類別實體（如藥物名稱、疾病等名稱）。實體識別是識別文本中指定類別的實體。實體鏈接是識別出文本中提及實體的詞或者短語（稱為實體提及），并與知識庫中對應實體進行鏈接。實體識別與鏈接是知識圖譜構建、知識補全與知識應用的核心技術。實體識別技術可以檢測文本中的新實體，并將其加入到現(xiàn)有知識庫中。實體鏈接技術通過發(fā)現(xiàn)現(xiàn)有實體在文本中的不同出現(xiàn)，可以針對性的發(fā)現(xiàn)關于特定實體的新知識。實體識別與鏈接的研究將為計算機類人推理和自然語言理解提供知識基礎。

實體關系學習

實體關系描述客觀存在的事物之間的關聯(lián)關系，定義為兩個或多個實體之間的某種聯(lián)系，實體關系學習就是自動從文本中檢測和識別出實體之間具有的某種語義關系，也稱為關系抽取。實體關系抽取分類預定義關系抽取和開放關系抽取。預定義關系抽取是指系統(tǒng)所抽取的關系是預先定義好的，比如知識圖譜中定義好的關系類別，如上下位關系、國家—首都關系等。開放式關系抽取。開放式關系抽取不預先定義抽取的關系類別，由系統(tǒng)自動從文本中發(fā)現(xiàn)并抽取關系。實體關系識別是知識圖譜自動構建和自然語言理解的基礎。

事件知識學習

事件是促使事物狀態(tài)和關系改變的條件，是動態(tài)的、結構化的知識。目前已存在的知識資源（如谷歌知識圖譜）所描述多是實體以及實體之間的關系，缺乏對事件知識的描述。針對不同領域的不同應用，事件有不同的描述范疇。一種將事件定義為發(fā)生在某個特定的時間點或時間段、某個特定的地域范圍內，由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態(tài)的改變。一種將事件認為是細化了的主題，是由某些原因、條件引起，發(fā)生在特定時間、地點，涉及某些對象，并可能伴隨某些必然結果的事情。事件知識學習，即將非結構化文本文本中自然語言所表達的事件以結構化的形式呈現(xiàn)，對于知識表示、理解、計算和應用意義重大。

知識圖譜中的事件知識隱含互聯(lián)網資源中，包括已有的結構化的語義知識、數(shù)據(jù)庫的結構化信息、半結構化的信息資源以及非結構化資源，不同性質的資源有不同的知識獲取方法。

3.2 知識圖譜查詢和推理計算

知識存儲和查詢

知識圖譜以圖（Graph）的方式來展現(xiàn)實體、事件及其之間的關系。知識圖譜存儲和查詢研究如何設計有效的存儲模式支持對大規(guī)模圖數(shù)據(jù)的有效管理，實現(xiàn)對知識圖譜中知識高效查詢。因為知識圖譜的結構是復雜的圖結構，給知識圖譜的存儲和查詢帶來了挑戰(zhàn)。當前目前知識圖譜多以三元存在的 RDF 形式進行存儲管理，對知識圖譜的查詢支持 SPARQL 查詢。

知識推理

知識推理從給定的知識圖譜推導出新的實體跟實體之間的關系。知識圖譜推理可以分為基于符號的推理和基于統(tǒng)計的推理。在人工智能的研究中，基于符號的推理一般是基于經典邏輯(一階謂詞邏輯或者命題邏輯)或者經典邏輯的變異(比如說缺省邏輯)?；诜柕耐评砜梢詮囊粋€已有的知識圖譜推理出新的實體間關系，可用于建立新知識或者對知識圖譜進行邏輯的沖突檢測。基于統(tǒng)計的方法一般指關系機器學習方法，即通過統(tǒng)計規(guī)律從知識圖譜中學習到新的實體間關系。知識推理在知識計算中具有重要作用，如知識分類、知識校驗、知識鏈接預測與知識補全等。

3.3 知識圖譜應用

通用和領域知識圖譜

知識圖譜分為通用知識圖譜與領域知識圖譜兩類，兩類圖譜本質相同，其區(qū)別主要體現(xiàn)在覆蓋范圍與使用方式上。通用知識圖譜可以形象地看成一個面向通用領域的結構化的百科知識庫，其中包含了大量的現(xiàn)實世界中的常識性知識，覆蓋面廣。領域知識圖譜又叫行業(yè)知識圖譜或垂直知識圖譜，通常面向某一特定領域，可看成是一個基于語義技術的行業(yè)知識庫，因其基于行業(yè)數(shù)據(jù)構建，有著嚴格而豐富的數(shù)據(jù)模式，所以對該領域知識的深度、知識準確性有著更高的要求。

語義集成

語義集成的目標就是將不同知識圖譜融合為一個統(tǒng)一、一致、簡潔的形式,為使用不同知識圖譜的應用程序間的交互提供語義互操作性。常用技術方法包括本體匹配(也稱為本體映射)、實例匹配(也稱為實體對齊、對象共指消解)以及知識融合等。語義集成是知識圖譜研究中的一個核心問題，對于鏈接數(shù)據(jù)和知識融合至關重要。語義集成研究對于提升基于知識圖譜的信息服務水平和智能化程度，推動語義網以及人工智能、數(shù)據(jù)庫、自然語言處理等相關領域的研究發(fā)展，具有重要的理論價值和廣泛的應用前景,可以創(chuàng)造巨大的社會和經濟效。

語義搜索

知識圖譜是對客觀世界認識的形式化表示，將字符串映射為客觀事件的事務（實體、事件以及之間的關系）。當前基于關鍵詞的搜索技術在知識圖譜的知識支持下可以上升到基于實體和關系的檢索，稱之為語義搜索。語義搜索利用知識圖譜可以準確地捕捉用戶搜索意圖，借助于知識圖譜，直接給出滿足用戶搜索意圖的答案，而不是包含關鍵詞的相關網頁的鏈接。

基于知識的問答

問答系統(tǒng)(Question Answering, QA)是指讓計算機自動回答用戶所提出的問題，是信息服務的一種高級形式。不同于現(xiàn)有的搜索引擎,問答系統(tǒng)返回用戶的不再是基于關鍵詞匹配的相關文檔排序,而是精準的自然語言形式的答案。華盛頓大學圖靈中心主任 Etzioni 教授 2011 年曾在 Nature 上發(fā)表文章《Search Needs a Shake-Up》,其中明確指出：“以直接而準確的方式回答用戶自然語言提問的自動問答系統(tǒng)將構成下一代搜索引擎的基本形態(tài)”[Etzioni O., 2011]。因此,問答系統(tǒng)被看做是未來信息服務的顛覆性技術之一，被認為是機器具備語言理解能力的主要驗證手段之一。

總結

以上是生活随笔為你收集整理的知识图谱发展概述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：安装双系统时进行多重引导，最好先安装Wi
下一篇： Could not initialize