日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

第二章 知识图谱——机器大脑中的知识库

發布時間:2025/7/25 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 第二章 知识图谱——机器大脑中的知识库 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
原文: ? http://book.thunlp.org/knowledge_graph/ ?


第二章 知識圖譜——機器大腦中的知識庫

Published by??liuzy?on?July 6, 2015

作者:劉知遠(清華大學);整理:林穎(RPI)

版權所有,轉載請注明出處

知識就是力量。——[英]弗蘭西斯·培根

1 什么是知識圖譜

在互聯網時代,搜索引擎是人們在線獲取信息和知識的重要工具。當用戶輸入一個查詢詞,搜索引擎會返回它認為與這個關鍵詞最相關的網頁。從誕生之日起,搜索引擎就是這樣的模式,直到2012年5月,搜索引擎巨頭谷歌在它的搜索頁面中首次引入“知識圖譜”:用戶除了得到搜索網頁鏈接外,還將看到與查詢詞有關的更加智能化的答-案。如下圖所示,當用戶輸入“Marie Curie”(瑪麗·居里)這個查詢詞,谷歌會在右側提供了居里夫人的詳細信息,如個人簡介、出生地點、生卒年月等,甚至還包括一些與居里夫人有關的歷史人物,例如愛因斯坦、皮埃爾·居里(居里夫人的丈夫)等。

圖1-1 谷歌搜索引擎知識圖譜

谷歌知識圖譜一出激起千層浪,美國的微軟必應,中國的百度、搜狗等搜索引擎公司在短短的一年內紛紛宣布了各自的“知識圖譜”產品,如百度“知心“、搜狗“知立方“等。為什么這些搜索引擎巨頭紛紛跟進知識圖譜,在這上面一擲千金,甚至把它視為搜索引擎的未來呢?這就需要從傳統搜索引擎的原理講起。以百度為例,在過去當我們想知道“泰山”的相關信息的時候,我們會在百度上搜索“泰山”,它會嘗試將這個字符串與百度抓取的大規模網頁做比對,根據網頁與這個查詢詞的相關程度,以及網頁本身的重要性,對網頁進行排序,作為搜索結果返回給用戶。而用戶所需的與“泰山”相關的信息,就還要他們自己動手,去訪問這些網頁來找了。

當然,與搜索引擎出現之前相比,搜索引擎由于大大縮小了用戶查找信息的范圍,隨著網絡信息的爆炸式增長,日益成為人們遨游信息海洋的不可或缺的工具。但是,傳統搜索引擎的工作方式表明,它只是機械地比對查詢詞和網頁之間的匹配關系,并沒有真正理解用戶要查詢的到底是什么,遠遠不夠“聰明”,當然經常會被用戶嫌棄了。

而知識圖譜則會將“泰山”理解為一個“實體”(entity),也就是一個現實世界中的事物。這樣,搜索引擎會在搜索結果的右側顯示它的基本資料,例如地理位置、海拔高度、別名,以及百科鏈接等等,此外甚至還會告訴你一些相關的“實體”,如嵩山、華山、衡山和恒山等其他三山五岳等。當然,用戶輸入的查詢詞并不見得只對應一個實體,例如當在谷歌中查詢“apple”(蘋果)時,谷歌不止展示IT巨頭“Apple-Corporation”(蘋果公司)的相關信息,還會在其下方列出“apple-plant”(蘋果-植物)的另外一種實體的信息。

從雜亂的網頁到結構化的實體知識,搜索引擎利用知識圖譜能夠為用戶提供更具條理的信息,甚至順著知識圖譜可以探索更深入、廣泛和完整的知識體系,讓用戶發現他們意想不到的知識。谷歌高級副總裁艾米特·辛格博士一語道破知識圖譜的重要意義所在:“構成這個世界的是實體,而非字符串(things, not strings)”。

很明顯,以谷歌為代表的搜索引擎公司希望利用知識圖譜為查詢詞賦予豐富的語義信息,建立與現實世界實體的關系,從而幫助用戶更快找到所需的信息。谷歌知識圖譜不僅從 Freebase和維基百科等知識庫中獲取專業信息,同時還通過分析大規模網頁內容抽取知識。現在谷歌的這幅知識圖譜已經將5億個實體編織其中,建立了35 億個屬性和相互關系,并在不斷高速擴充。

谷歌知識圖譜正在不斷融入其各大產品中服務廣大用戶。最近,谷歌在Google Play Store的Google Play Movies & TV應用中添加了一個新的功能,當用戶使用安卓系統觀看視頻時,暫停播放,視頻旁邊就會自動彈出該屏幕上人物或者配樂的信息。這些信息就是來自谷歌知識圖譜。谷歌會圈出播放器窗口所有人物的臉部,用戶可以點擊每一個人物的臉來查看相關信息。此前,Google Books 已經應用此功能。

圖1-2 Google利用知識圖譜標示視頻中的人物和音樂信息

?

2 知識圖譜的構建

最初知識圖譜是谷歌推出的產品名稱,與Facebook提出的社交圖譜(Social Graph)異曲同工。由于其表意形象,現在知識圖譜已經被用來泛指各種大規模知識庫。

我們應當如何構建知識圖譜呢?首先,我們先了解一下,知識圖譜的數據來源都有哪些。知識圖譜的最重要的數據來源之一是以維基百科、百度百科為代表的大規模知識庫,在這些由網民協同編輯構建的知識庫中,包含了大量結構化的知識,可以高效地轉化到知識圖譜中。此外,互聯網的海量網頁中也蘊藏了海量知識,雖然相對知識庫而言這些知識更顯雜亂,但通過自動化技術,也可以將其抽取出來構建知識圖譜。接下來,我們分別詳細介紹這些識圖譜數據來源。

2.1 大規模知識庫

大規模知識庫以詞條作為基本組織單位,每個詞條對應現實世界的某個概念,由世界各地的編輯者義務協同編纂內容。隨著互聯網的普及和Web 2.0理念深入人心,這類協同構建的知識庫,無論是數量、質量還是更新速度,都早已超越傳統由專家編輯的百科全書,成為人們獲取知識的主要來源之一。目前,維基百科已經收錄了超過2200萬詞條,而僅英文版就收錄了超過400萬條,遠超過英文百科全書中最權威的大英百科全書的50萬條,是全球瀏覽人數排名第6的網站。值得一提的是,2012年大英百科全書宣布停止印刷版發行,全面轉向電子化。這也從一個側面說明在線大規模知識庫的影響力。人們在知識庫中貢獻了大量結構化的知識。如下圖所示,是維基百科關于“清華大學”的詞條內容。可以看到,在右側有一個列表,標注了與清華有關的各類重要信息,如校訓、創建時間、校慶日、學校類型、校長,等等。在維基百科中,這個列表被稱為信息框(infobox),是由編輯者們共同編輯而成。信息框中的結構化信息是知識圖譜的直接數據來源。

除了維基百科等大規模在線百科外,各大搜索引擎公司和機構還維護和發布了其他各類大規模知識庫,例如谷歌收購的Freebase,包含3900萬個實體和18億條實體關系;DBpedia是德國萊比錫大學等機構發起的項目,從維基百科中抽取實體關系,包括1千萬個實體和14億條實體關系;YAGO則是德國馬克斯·普朗克研究所發起的項目,也是從維基百科和WordNet等知識庫中抽取實體,到2010年該項目已包含1千萬個實體和1.2億條實體關系。此外,在眾多專門領域還有領域專家整理的領域知識庫。

圖2-1 維基百科詞條“清華大學”部分內容

?

2.2 互聯網鏈接數據

國際萬維網組織W3C在2007年發起了開放互聯數據項目(Linked Open Data,LOD)。該項目旨在將由互聯文檔組成的萬維網(Web of documents)擴展成由互聯數據組成的知識空間(Web of data)。LOD以RDF(Resource Description Framework)形式在Web上發布各種開放數據集,RDF是一種描述結構化知識的框架,它將實體間的關系表示為 (實體1, 關系, 實體2) 的三元組。LOD還允許在不同來源的數據項之間設置RDF鏈接,實現語義Web知識庫。目前世界各機構已經基于LOD標準發布了數千個數據集,包含數千億RDF三元組。隨著LOD項目的推廣和發展,互聯網會有越來越多的信息以鏈接數據形式發布,然而各機構發布的鏈接數據之間存在嚴重的異構和冗余等問題,如何實現多數據源的知識融合,是LOD項目面臨的重要問題。

圖2-2 開放互聯數據項目發布數據集示意圖

?

2.3 互聯網網頁文本數據

與整個互聯網相比,維基百科等知識庫仍只能算滄海一粟。因此,人們還需要從海量互聯網網頁中直接抽取知識。與上述知識庫的構建方式不同,很多研究者致力于直接從無結構的互聯網網頁中抽取結構化信息,如華盛頓大學Oren Etzioni教授主導的“開放信息抽取”(open information extraction,OpenIE)項目,以及卡耐基梅隆大學Tom Mitchell教授主導的“永不停止的語言學習”(never-ending language learning, NELL)項目。OpenIE項目所開發的演示系統TextRunner已經從1億個網頁中抽取出了5億條事實,而NELL項目也抽取了超過5千萬條事實。

顯而易見,與從維基百科中抽取的知識庫相比,開放信息抽取從無結構網頁中抽取的信息準確率還很低,其主要原因在于網頁形式多樣,噪音信息較多,信息可信度較低。因此,也有一些研究者嘗試限制抽取的范圍,例如只從網頁表格等內容中抽取結構信息,并利用互聯網的多個來源互相印證,從而大大提高抽取信息的可信度和準確率。當然這種做法也會大大降低抽取信息的覆蓋面。天下沒有免費的午餐,在大數據時代,我們需要在規模和質量之間尋找一個最佳的平衡點。

2.4 多數據源的知識融合

從以上數據來源進行知識圖譜構建并非孤立進行。在商用知識圖譜構建過程中,需要實現多數據源的知識融合。以谷歌最新發布的Knowledge Vault(Dong, et al. 2014)技術為例,其知識圖譜的數據來源包括了文本、DOM Trees、HTML表格、RDF語義數據等多個來源。多來源數據的融合,能夠更有效地判定抽取知識的可信性。

知識融合主要包括實體融合、關系融合和實例融合。對于實體,人名、地名、機構名往往有多個名稱。例如“中國移動通信集團公司”有“中國移動”、“中移動”、“移動通信”等名稱。我們需要將這些不同名稱規約到同一個實體下。同一個實體在不同語言、不同國家和地區往往會有不同命名,例如著名足球明星Beckham在大陸漢語中稱作“貝克漢姆”,在香港譯作“碧咸”,而在臺灣則被稱為“貝克漢”。與此對應的,同一個名字在不同語境下可能會對應不同實體,這是典型的一詞多義問題,例如“蘋果”有時是指一種水果,有時則指的是一家著名IT公司。在這樣復雜的多對多對應關系中,如何實現實體融合是非常復雜而重要的課題。如前面開放信息抽取所述,同一種關系可能會有不同的命名,這種現象在不同數據源中抽取出的關系中尤其顯著。與實體融合類似,關系融合對于知識融合至關重要。在實現了實體和關系融合之后,我們就可以實現三元組實例的融合。不同數據源會抽取出相同的三元組,并給出不同的評分。根據這些評分,以及不同數據源的可信度,我們就可以實現三元組實例的融合與抽取。

知識融合既有重要的研究挑戰,又需要豐富的工程經驗。知識融合是實現大規模知識圖譜的必由之路。知識融合的好壞,往往決定了知識圖譜項目的成功與否,值得任何有志于大規模知識圖譜構建與應用的人士高度重視。

?

3 知識圖譜的典型應用

知識圖譜將搜索引擎從字符串匹配推進到實體層面,可以極大地改進搜索效率和效果,為下一代搜索引擎的形態提供了巨大的想象空間。知識圖譜的應用前景遠不止于此,目前知識圖譜已經被廣泛應用于以下幾個任務中。

3.1 查詢理解(Query Understanding)

谷歌等搜索引擎巨頭之所以致力于構建大規模知識圖譜,其重要目標之一就是能夠更好地理解用戶輸入的查詢詞。用戶查詢詞是典型的短文本(short text),一個查詢詞往往僅由幾個關鍵詞構成。傳統的關鍵詞匹配技術沒有理解查詢詞背后的語義信息,查詢效果可能會很差。

例如,對于查詢詞“李娜 大滿貫”,如果僅用關鍵詞匹配的方式,搜索引擎根本不懂用戶到底希望尋找哪個“李娜”,而只會機械地返回所有含有“李娜”這個關鍵詞的網頁。但通過利用知識圖譜識別查詢詞中的實體及其屬性,搜索引擎將能夠更好地理解用戶搜索意圖。現在,我們到谷歌中查詢“李娜 大滿貫”,會發現,首先谷歌會利用知識圖譜在頁面右側呈現中國網球運動員李娜的基本信息,我們可以知道這個李娜是指的中國網球女運動員。同時,谷歌不僅像傳統搜索引擎那樣返回匹配的網頁,更會直接在頁面最頂端返回李娜贏得大滿貫的次數“2”。

圖3-1 谷歌中對“李娜 大滿貫”的查詢結果

主流商用搜索引擎基本都支持這種直接返回查詢結果而非網頁的功能,這背后都離不開大規模知識圖譜的支持。以百度為例,下圖是百度中對“珠穆朗瑪峰高度”的查詢結果,百度直接告訴用戶珠穆朗瑪峰的高度是8844.43米。

圖3-2 百度中對“珠穆朗瑪峰高度”的查詢結果

基于知識圖譜,搜索引擎還能獲得簡單的推理能力。例如,下圖是百度中對“梁啟超的兒子的妻子”的查詢結果,百度能夠利用知識圖譜知道梁啟超的兒子是梁思成,梁思成的妻子是林徽因等人。

圖3-3 百度中對“梁啟超的兒子的妻子”的查詢結果

采用知識圖譜理解查詢意圖,不僅可以返回更符合用戶需求的查詢結果,還能更好地匹配商業廣告信息,提高廣告點擊率,增加搜索引擎受益。因此,知識圖譜對搜索引擎公司而言,是一舉多得的重要資源和技術。

3.2 自動問答(Question Answering)

人們一直在探索比關鍵詞查詢更高效的互聯網搜索方式。很多學者預測,下一代搜索引擎將能夠直接回答人們提出的問題,這種形式被稱為自動問答。例如著名計算機學者、美國華盛頓大學計算機科學與工程系教授、圖靈中心主任Oren Etzioni于2011年就在Nature雜志上發表文章“搜索需要一場變革“(Search Needs a Shake-Up)。該文指出,一個可以理解用戶問題,從網絡信息中抽取事實,并最終選出一個合適答-案的搜索引擎,才能將我們帶到信息獲取的制高點。如上節所述,目前搜索引擎已經支持對很多查詢直接返回精確答-案而非海量網頁而已。

關于自動問答,我們將有專門的章節介紹。這里,我們需要著重指出的是,知識圖譜的重要應用之一就是作為自動問答的知識庫。在搜狗推出中文知識圖譜服務”知立方“的時候,曾經以回答”梁啟超的兒子的太太的情人的父親是誰?“這種近似腦筋急轉彎似的問題作為案例,來展示其知識圖譜的強大推理能力。雖然大部分用戶不會這樣拐彎抹角的提問,但人們會經常需要尋找諸如”劉德華的妻子是誰?“、”侏羅紀公園的主演是誰?“、“姚明的身高?”以及”北京有幾個區?“等問題的答-案。而這些問題都需要利用知識圖譜中實體的復雜關系推理得到。無論是理解用戶查詢意圖,還是探索新的搜索形式,都毫無例外需要進行語義理解和知識推理,而這都需要大規模、結構化的知識圖譜的有力支持,因此知識圖譜成為各大互聯網公司的必爭之地。

最近,微軟聯合創始人Paul Allen投資創建了艾倫人工智能研究院(Allen Institute for Artificial Intelligence),致力于建立具有學習、推理和閱讀能力的智能系統。2013年底,Paul Allen任命Oren Etzioni教授擔任艾倫人工智能研究院的執行主任,該任命所釋放的信號頗值得我們思考。

3.3 文檔表示(Document Representation)

經典的文檔表示方案是空間向量模型(Vector Space Model),該模型將文檔表示為詞匯的向量,而且采用了詞袋(Bag-of-Words,BOW)假設,不考慮文檔中詞匯的順序信息。這種文檔表示方案與上述的基于關鍵詞匹配的搜索方案相匹配,由于其表示簡單,效率較高,是目前主流搜索引擎所采用的技術。文檔表示是自然語言處理很多任務的基礎,如文檔分類、文檔摘要、關鍵詞抽取,等等。

經典文檔表示方案已經在實際應用中暴露出很多固有的嚴重缺陷,例如無法考慮詞匯之間的復雜語義關系,無法處理對短文本(如查詢詞)的稀疏問題。人們一直在嘗試解決這些問題,而知識圖譜的出現和發展,為文檔表示帶來新的希望,那就是基于知識的文檔表示方案。一篇文章不再只是由一組代表詞匯的字符串來表示,而是由文章中的實體及其復雜語義關系來表示(Schuhmacher, et al. 2014)。該文檔表示方案實現了對文檔的深度語義表示,為文檔深度理解打下基礎。一種最簡單的基于知識圖譜的文檔表示方案,可以將文檔表示為知識圖譜的一個子圖(sub-graph),即用該文檔中出現或涉及的實體及其關系所構成的圖表示該文檔。這種知識圖譜的子圖比詞匯向量擁有更豐富的表示空間,也為文檔分類、文檔摘要和關鍵詞抽取等應用提供了更豐富的可供計算和比較的信息。

知識圖譜為計算機智能信息處理提供了巨大的知識儲備和支持,將讓現在的技術從基于字符串匹配的層次提升至知識理解層次。以上介紹的幾個應用可以說只能窺豹一斑。知識圖譜的構建與應用是一個龐大的系統工程,其所蘊藏的潛力和可能的應用,將伴隨著相關技術的日漸成熟而不斷涌現。

?

4 知識圖譜的主要技術

大規模知識圖譜的構建與應用需要多種智能信息處理技術的支持,以下簡單介紹其中若干主要技術。

4.1 實體鏈指(Entity Linking)

互聯網網頁,如新聞、博客等內容里涉及大量實體。大部分網頁本身并沒有關于這些實體的相關說明和背景介紹。為了幫助人們更好地了解網頁內容,很多網站或作者會把網頁中出現的實體鏈接到相應的知識庫詞條上,為讀者提供更詳盡的背景材料。這種做法實際上將互聯網網頁與實體之間建立了鏈接關系,因此被稱為實體鏈指。

手工建立實體鏈接關系非常費力,因此如何讓計算機自動實現實體鏈指,成為知識圖譜得到大規模應用的重要技術前提。例如,谷歌等在搜索引擎結果頁面呈現知識圖譜時,需要該技術自動識別用戶輸入查詢詞中的實體并鏈接到知識圖譜的相應節點上。

實體鏈指的主要任務有兩個,實體識別(Entity Recognition)與實體消歧(Entity Disambiguation),都是自然語言處理領域的經典問題。

實體識別旨在從文本中發現命名實體,最典型的包括人名、地名、機構名等三類實體。近年來,人們開始嘗試識別更豐富的實體類型,如電影名、產品名,等等。此外,由于知識圖譜不僅涉及實體,還有大量概念(concept),因此也有研究者提出對這些概念進行識別。

不同環境下的同一個實體名稱可能會對應不同實體,例如“蘋果”可能指某種水果,某個著名IT公司,也可能是一部電影。這種一詞多義或者歧義問題普遍存在于自然語言中。將文檔中出現的名字鏈接到特定實體上,就是一個消歧的過程。消歧的基本思想是充分利用名字出現的上下文,分析不同實體可能出現在該處的概率。例如某個文檔如果出現了iphone,那么”蘋果“就有更高的概率指向知識圖譜中的叫”蘋果“的IT公司。

實體鏈指并不局限于文本與實體之間,如下圖所示,還可以包括圖像、社交媒體等數據與實體之間的關聯。可以看到,實體鏈指是知識圖譜構建與應用的基礎核心技術。

圖4-1 實體鏈指實現實體與文本、圖像、社交媒體等數據的關聯

?

4.2 關系抽取(Relation Extraction)

構建知識圖譜的重要來源之一是從互聯網網頁文本中抽取實體關系。關系抽取是一種典型的信息抽取任務。

典型的開放信息抽取方法采用自舉(bootstrapping)的思想,按照“模板生成實例抽取”的流程不斷迭代直至收斂。例如,最初可以通過“X是Y的首都”模板抽取出(中國,首都,北京)、(美國,首都,華盛頓)等三元組實例;然后根據這些三元組中的實體對“中國-北京”和“美國-華盛頓”可以發現更多的匹配模板,如“Y的首都是X”、“X是Y的政治中心”等等;進而用新發現的模板抽取更多新的三元組實例,通過反復迭代不斷抽取新的實例與模板。這種方法直觀有效,但也面臨很多挑戰性問題,如在擴展過程中很容易引入噪音實例與模板,出現語義漂移現象,降低抽取準確率。研究者針對這一問題提出了很多解決方案:提出同時擴展多個互斥類別的知識,例如同時擴展人物、地點和機構,要求一個實體只能屬于一個類別;也有研究提出引入負實例來限制語義漂移。

我們還可以通過識別表達語義關系的短語來抽取實體間關系。例如,我們通過句法分析,可以從文本中發現“華為”與“深圳”的如下關系:(華為,總部位于,深圳)、(華為,總部設置于,深圳)、以及(華為,將其總部建于,深圳)。通過這種方法抽取出的實體間關系非常豐富而自由,一般是一個以動詞為核心的短語。該方法的優點是,我們無需預先人工定義關系的種類,但這種自由度帶來的代價是,關系語義沒有歸一化,同一種關系可能會有多種不同的表示。例如,上述發現的“總部位于”、“總部設置于”以及“將其總部建于”等三個關系實際上是同一種關系。如何對這些自動發現的關系進行聚類規約是一個挑戰性問題。

我們還可以將所有關系看做分類標簽,把關系抽取轉換為對實體對的關系分類問題。這種關系抽取方案的主要挑戰在于缺乏標注語料。2009年斯坦福大學研究者提出遠程監督(Distant Supervision)思想,使用知識圖譜中已有的三元組實例啟發式地標注訓練語料。遠程監督思想的假設是,每個同時包含兩個實體的句子,都表述了這兩個實體在知識庫中的對應關系。例如,根據知識圖譜中的三元組實例(蘋果,創始人,喬布斯)和(蘋果,CEO,庫克),我們可以將以下四個包含對應實體對的句子分別標注為包含“創始人”和“CEO”關系:

樣例句子關系/分類標簽
蘋果-喬布斯蘋果公司的創始人是喬布斯創始人
蘋果-喬布斯喬布斯創立了蘋果公司。創始人
蘋果-庫克蘋果公司的CEO是庫克CEO
蘋果-庫克庫克現在是蘋果公司的CEO。CEO

我們將知識圖譜三元組中每個實體對看做待分類樣例,將知識圖譜中實體對關系看做分類標簽。通過從出現該實體對的所有句子中抽取特征,我們可以利用機器學習分類模型(如最大熵分類器、SVM等)構建信息抽取系統。對于任何新的實體對,根據所出現該實體對的句子中抽取的特征,我們就可以利用該信息抽取系統自動判斷其關系。遠程監督能夠根據知識圖譜自動構建大規模標注語料庫,因此取得了矚目的信息抽取效果。

與自舉思想面臨的挑戰類似,遠程監督方法會引入大量噪音訓練樣例,嚴重損害模型準確率。例如,對于(蘋果,創始人,喬布斯)我們可以從文本中匹配以下四個句子:

句子關系/分類標簽是否正確
蘋果公司的創始人是喬布斯創始人正確
喬布斯創立了蘋果公司。創始人正確
喬布斯回到了蘋果公司。創始人錯誤
喬布斯曾擔任蘋果的CEO。創始人錯誤

在這四個句子中,前兩個句子的確表明蘋果與喬布斯之間的創始人關系;但是,后兩個句子則并沒有表達這樣的關系。很明顯,由于遠程監督只能機械地匹配出現實體對的句子,因此會大量引入錯誤訓練樣例。為了解決這個問題,人們提出很多去除噪音實例的辦法,來提升遠程監督性能。例如,研究發現,一個正確訓練實例往往位于語義一致的區域,也就是其周邊的實例應當擁有相同的關系;也有研究提出利用因子圖、矩陣分解等方法,建立數據內部的關聯關系,有效實現降低噪音的目標。

關系抽取是知識圖譜構建的核心技術,它決定了知識圖譜中知識的規模和質量。關系抽取是知識圖譜研究的熱點問題,還有很多挑戰性問題需要解決,包括提升從高噪音的互聯網數據中抽取關系的魯棒性,擴大抽取關系的類型與抽取知識的覆蓋面,等等。

4.3 知識推理(Knowledge Reasoning)

推理能力是人類智能的重要特征,能夠從已有知識中發現隱含知識。推理往往需要相關規則的支持,例如從“配偶”+“男性”推理出“丈夫”,從“妻子的父親”推理出“岳父”,從出生日期和當前時間推理出年齡,等等。

這些規則可以通過人們手動總結構建,但往往費時費力,人們也很難窮舉復雜關系圖譜中的所有推理規則。因此,很多人研究如何自動挖掘相關推理規則或模式。目前主要依賴關系之間的同現情況,利用關聯挖掘技術來自動發現推理規則。

實體關系之間存在豐富的同現信息。如下圖,在康熙、雍正和乾隆三個人物之間,我們有(康熙,父親,雍正)、(雍正,父親,乾隆)以及(康熙,祖父,乾隆)三個實例。根據大量類似的實體X、Y、Z間出現的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實例,我們可以統計出“父親+父親=>祖父”的推理規則。類似的,我們還可以根據大量(X,首都,Y)和(X,位于,Y)實例統計出“首都=>位于”的推理規則,根據大量(X,總統,美國)和(X,是,美國人)統計出“美國總統=>是美國人”的推理規則。

圖4-2 知識推理舉例

知識推理可以用于發現實體間新的關系。例如,根據“父親+父親=>祖父”的推理規則,如果兩實體間存在“父親+父親”的關系路徑,我們就可以推理它們之間存在“祖父”的關系。利用推理規則實現關系抽取的經典方法是Path Ranking Algorithm?(Lao & Cohen 2010),該方法將每種不同的關系路徑作為一維特征,通過在知識圖譜中統計大量的關系路徑構建關系分類的特征向量,建立關系分類器進行關系抽取,取得不錯的抽取效果,成為近年來的關系抽取的代表方法之一。但這種基于關系的同現統計的方法,面臨嚴重的數據稀疏問題。

在知識推理方面還有很多的探索工作,例如采用謂詞邏輯(Predicate Logic)等形式化方法和馬爾科夫邏輯網絡(Markov Logic Network)等建模工具進行知識推理研究。目前來看,這方面研究仍處于百家爭鳴階段,大家在推理表示等諸多方面仍為達成共識,未來路徑有待進一步探索。

4.4 知識表示(Knowledge Representation)

在計算機中如何對知識圖譜進行表示與存儲,是知識圖譜構建與應用的重要課題。

如“知識圖譜”字面所表示的含義,人們往往將知識圖譜作為復雜網絡進行存儲,這個網絡的每個節點帶有實體標簽,而每條邊帶有關系標簽。基于這種網絡的表示方案,知識圖譜的相關應用任務往往需要借助于圖算法來完成。例如,當我們嘗試計算兩實體之間的語義相關度時,我們可以通過它們在網絡中的最短路徑長度來衡量,兩個實體距離越近,則越相關。而面向“梁啟超的兒子的妻子”這樣的推理查詢問題時,則可以從“梁啟超”節點出發,通過尋找特定的關系路徑“梁啟超->兒子->妻子->?”,來找到答-案。

然而,這種基于網絡的表示方法面臨很多困難。首先,該表示方法面臨嚴重的數據稀疏問題,對于那些對外連接較少的實體,一些圖方法可能束手無策或效果不佳。此外,圖算法往往計算復雜度較高,無法適應大規模知識圖譜的應用需求。

最近,伴隨著深度學習和表示學習的革命性發展,研究者也開始探索面向知識圖譜的表示學習方案。其基本思想是,將知識圖譜中的實體和關系的語義信息用低維向量表示,這種分布式表示(Distributed Representation)方案能夠極大地幫助基于網絡的表示方案。其中,最簡單有效的模型是最近提出的TransE(Bordes, et al. 2013)。TransE基于實體和關系的分布式向量表示,將每個三元組實例(head,relation,tail)中的關系relation看做從實體head到實體tail的翻譯,通過不斷調整h、r和t(head、relation和tail的向量),使(h + r) 盡可能與 t 相等,即 h + r = t。該優化目標如下圖所示。

圖4-3 基于分布式表示的知識表示方案

通過TransE等模型學習得到的實體和關系向量,能夠很大程度上緩解基于網絡表示方案的稀疏性問題,應用于很多重要任務中。

首先,利用分布式向量,我們可以通過歐氏距離或余弦距離等方式,很容易地計算實體間、關系間的語義相關度。這將極大的改進開放信息抽取中實體融合和關系融合的性能。通過尋找給定實體的相似實體,還可用于查詢擴展和查詢理解等應用。

其次,知識表示向量可以用于關系抽取。以TransE為例,由于我們的優化目標是讓 h + r = t,因此,當給定兩個實體 h 和 t 的時候,我們可以通過尋找與 t - h 最相似的 r,來尋找兩實體間的關系。(Bordes, et al. 2013)中的實驗證明,該方法的抽取性能較高。而且我們可以發現,該方法僅需要知識圖譜作為訓練數據,不需要外部的文本數據,因此這又稱為知識圖譜補全(Knowledge Graph Completion),與復雜網絡中的鏈接預測(Link Prediction)類似,但是要復雜得多,因為在知識圖譜中每個節點和連邊上都有標簽(標記實體名和關系名)。

最后,知識表示向量還可以用于發現關系間的推理規則。例如,對于大量X、Y、Z間出現的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)實例,我們在TransE中會學習X+父親=Y,Y+父親=Z,以及X+祖父=Z等目標。根據前兩個等式,我們很容易得到X+父親+父親=Z,與第三個公式相比,就能夠得到“父親+父親=>祖父”的推理規則。前面我們介紹過,基于關系的同現統計學習推理規則的思想,存在嚴重的數據稀疏問題。如果利用關系向量表示提供輔助,可以顯著緩解稀疏問題。

?

5 前景與挑戰

如果未來的智能機器擁有一個大腦,知識圖譜就是這個大腦中的知識庫,對于大數據智能具有重要意義,將對自然語言處理、信息檢索和人工智能等領域產生深遠影響。

現在以商業搜索引擎公司為首的互聯網巨頭已經意識到知識圖譜的戰略意義,紛紛投入重兵布局知識圖譜,并對搜索引擎形態日益產生重要的影響。同時,我們也強烈地感受到,知識圖譜還處于發展初期,大多數商業知識圖譜的應用場景非常有限,例如搜狗知立方更多聚焦在娛樂和健康等領域。根據各搜索引擎公司提供的報告來看,為了保證知識圖譜的準確率,仍然需要在知識圖譜構建過程中采用較多的人工干預。

可以看到,在未來的一段時間內,知識圖譜將是大數據智能的前沿研究問題,有很多重要的開放性問題亟待學術界和產業界協力解決。我們認為,未來知識圖譜研究有以下幾個重要挑戰。

  • 知識類型與表示。知識圖譜主要采用(實體1,關系,實體2)三元組的形式來表示知識,這種方法可以較好的表示很多事實性知識。然而,人類知識類型多樣,面對很多復雜知識,三元組就束手無策了。例如,人們的購物記錄信息,新聞事件等,包含大量實體及其之間的復雜關系,更不用說人類大量的涉及主觀感受、主觀情感和模糊的知識了。有很多學者針對不同場景設計不同的知識表示方法。知識表示是知識圖譜構建與應用的基礎,如何合理設計表示方案,更好地涵蓋人類不同類型的知識,是知識圖譜的重要研究問題。最近認知領域關于人類知識類型的探索(Tenenbaum, et al. 2011)也許會對知識表示研究有一定啟發作用。
  • 知識獲取。如何從互聯網大數據萃取知識,是構建知識圖譜的重要問題。目前已經提出各種知識獲取方案,并已經成功抽取大量有用的知識。但在抽取知識的準確率、覆蓋率和效率等方面,都仍不如人意,有極大的提升空間。
  • 知識融合。來自不同數據的抽取知識可能存在大量噪音和冗余,或者使用了不同的語言。如何將這些知識有機融合起來,建立更大規模的知識圖譜,是實現大數據智能的必由之路。
  • 知識應用。目前大規模知識圖譜的應用場景和方式還比較有限,如何有效實現知識圖譜的應用,利用知識圖譜實現深度知識推理,提高大規模知識圖譜計算效率,需要人們不斷銳意發掘用戶需求,探索更重要的應用場景,提出新的應用算法。這既需要豐富的知識圖譜技術積累,也需要對人類需求的敏銳感知,找到合適的應用之道。
  • ?

    6 內容回顧與推薦閱讀

    本章系統地介紹了知識圖譜的產生背景、數據來源、應用場景和主要技術。通過本章我們主要有以下結論:

    • 知識圖譜是下一代搜索引擎、自動問答等智能應用的基礎設施。
    • 互聯網大數據是知識圖譜的重要數據來源。
    • 知識表示是知識圖譜構建與應用的基礎技術。
    • 實體鏈指、關系抽取和知識推理是知識圖譜構建與應用的核心技術。
      知識圖譜與本體(Ontology)和語義網(Semantic Web)等密切相關,有興趣的讀者可以搜索與之相關的文獻閱讀。知識表示(Knowledge Representation)是人工智能的重要課題,讀者可以通過人工智能專著(Russell & Norvig 2009)了解其發展歷程。在關系抽取方面,讀者可以閱讀(Nauseates, et al. 2013)、(Nickel, et al. 2015)詳細了解相關技術。

    參考文獻

    • (Bordes, et al. 2013) Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Proceedings of NIPS.

    • (Dong, et al. 2014) Dong, X., Gabrilovich, E., Heitz, G., Horn, W., et al. Knowledge Vault A web-scale approach to probabilistic knowledge fusion. In Proceedings of KDD.

    • (Lao & Cohen 2010) Lao, N., & Cohen, W. W. (2010). Relational retrieval using a combination of path-constrained random walks. Machine learning, 81(1), 53-67.

    • (Nauseates, et al. 2013) Nastase, V., Nakov, P., Seaghdha, D. O., & Szpakowicz, S. (2013). Semantic relations between nominals. Synthesis Lectures on Human Language Technologies, 6(1), 1-119.

    • (Nickel, et al. 2015) Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

    • (Russell & Norvig 2009) Russell, S., & Norvig, P. (2009). Artificial Intelligence: A Modern Approach, 3rd Edition. Pearson Press. (中文譯名:人工智能——一種現代方法).

    • (Schuhmacher, et al. 2014) Schuhmacher, M., & Ponzetto, S. P. Knowledge-based graph document modeling. In Proceedings of the 7th ACM international conference on Web search and data mining. In Proceedings of WSDM.

    • (Tenenbaum, et al. 2011) Tenenbaum, J. B., Kemp, C., Griffiths, T. L., & Goodman, N. D. (2011). How to grow a mind: Statistics, structure, and abstraction. science, 331(6022), 1279-1285.

    總結

    以上是生活随笔為你收集整理的第二章 知识图谱——机器大脑中的知识库的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。