當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

吐血整理！12种通用知识图谱项目简介

發(fā)布時間：2025/3/15 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了吐血整理！12种通用知识图谱项目简介小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者：王楠趙宏宇蔡月

來源：大數(shù)據(jù)DT（ID：hzdashuju）

通用知識圖譜大體可以分為百科知識圖譜（Encyclopedia Knowledge Graph）和常識知識圖譜（Common Sense Knowledge Graph）。

百科知識圖譜是百科事實構(gòu)成的，通常是“非黑即白”的確定性知識。早在2010年微軟就開始構(gòu)建商用知識圖譜，應用于旗下的搜索、廣告、Cortana等項目。2012年谷歌基于Freebase正式發(fā)布Google Knowledge Graph。

目前微軟和谷歌擁有全世界最大的通用知識圖譜，臉書擁有全世界最大的社交知識圖譜。而阿里巴巴和亞馬遜則分別構(gòu)建了商品知識圖譜。

相比之下，國內(nèi)知識圖譜創(chuàng)業(yè)公司則從智能客服、金融、法律、公安、航空、醫(yī)療等“知識密集型”領域作為圖譜構(gòu)建切入點。除了上述商業(yè)通用圖譜以外，DBpedia、Yago、Wikidata、BabelNet等開放域百科知識圖譜也蓬勃發(fā)展。

另一種常識知識圖譜，則集成了語言知識和概念常識，通常關心的是帶有一定的概率的不確定事實，因此需要挖掘常識圖譜的語言關聯(lián)或發(fā)生概率。下面，我們將對兩類知識圖譜做詳細介紹。

01 百科知識圖譜

百科知識圖譜構(gòu)建模式可以分為兩類。一類是對單百科數(shù)據(jù)源進行深度抽取，典型代表有DBpedia。另一類是結(jié)合了語言知識庫（如WordNet）后，出現(xiàn)了一大批兼具語言知識的百科知識庫，如Google Knowledge Graph后端的Freebase、IBM Waston后端的YAGO，以及BabelNet。

此外，還有世界最大開放知識庫WikiData等。下面我們分別進行介紹。

1. DBpedia

DBpedia是始于2007年的早期語義網(wǎng)項目，也就是數(shù)據(jù)庫版本的多語言維基百科。DBpedia采用了嚴格的本體設計，包含人物、地點、音樂、組織機構(gòu)等類型定義。從對維基百科條目和鏈接數(shù)據(jù)集中抽取包括abstract、infobox、category等信息。

DBpedia采用了RDF語義框架描述，DBpedia與Freebase、OpenCyc、BioRDF等其他數(shù)據(jù)集也建立了實體映射關系，目前擁有127種語言的超過2800萬個實體與30億個RDF三元組。根據(jù)抽樣評測，RDF三元組的正確率達到88%^[1]。

2. YAGO

YAGO由德國馬普研究所于2007年研制，集成了維基百科、wordNet和GeoNames三個來源的數(shù)據(jù)，是IBM沃森大腦的后端知識庫之一。YAGO利用規(guī)則對維基百科實體的infobox進行抽取，通過實體類別推斷構(gòu)建“概念-實體”、“實體-屬性”間的關系。

另外YAGO也融合了語言知識，比如將維基百科標簽與WordNet中的概念（Synset）進行映射，以WordNet概念體系完成百科知識本體構(gòu)建。很多知識條目也增加了時空屬性維度描述。

目前，YAGO擁有10種語言約459萬個實體，2400萬個知識三元組。YAGO2包含了100個以上關系類型，20萬實體類別，300萬實體和2.2億知識三元組等。通過人工評測，YAGO中三元組的正確率約為95%^[2]。

3. Freebase

Freebase是Google Knowledge Graph的早期版本，由MetaWeb公司在2005年建立，通過開源免費共享方式眾籌數(shù)據(jù)^[3]。

Freebase通過對象、事實、類型和屬性進行知識表示，其中一個重要的創(chuàng)新在于采用復合值類型（Compound Value Type，CVT）來處理多元關系，也就是說一個關系包含多個子二元關系。這樣采用CVT唯一標識擴展了關系表示的能力。目前Freebase正在向Wikidata上遷移以進一步支持谷歌語義搜索。

4. BabelNet

BabelNet是目前世界上最大的多語言百科知識庫之一，它本身可被視為一個由概念、實體、關系構(gòu)成的語義網(wǎng)絡^[4]。BabelNet采用類似YAGO的思路，將維基百科頁面標題與WordNet概念進行映射，通過維基百科跨語言頁面鏈接以及機器翻譯系統(tǒng)，為WordNet提供非英語語種鏈接數(shù)據(jù)。

目前BabelNet共擁有271個語言版本，包含了1400萬個概念、36.4萬個詞語關系和3.8萬個鏈接數(shù)據(jù)，擁有超過19億個RDF三元組。BabelNet中每個概念包含所有表達相同含義的不同語言的同義詞。由于BabelNet中的錯誤來源主要在于維基百科與WordNet之間的映射，目前的映射正確率大約在91%。

5. Wikidata

Wikidata顧名思義，與維基百科有著千絲萬縷的聯(lián)系。它由維基媒體基金會發(fā)起和維持，目前是一個可以眾包協(xié)作編輯的多語言百科知識庫。Wikidata中的每個實體存在多個不同語言的標簽、別名、描述，通過三元組聲明表示每一個條目，比如實體“London-中文標簽-倫敦”。

此外，Wikidata利用參考文獻標識每個條目的來源或出處，通過備注處理復雜多元表示，刻畫多元關系。截至2017年，Wikidata能夠支持近350種語言、2500萬個實體及7000萬個聲明，支持數(shù)據(jù)集的完全下載^[5]。

02 常識知識圖譜

常識知識圖譜除了語言知識庫以外，還包括Cyc、ConceptNet、NELL以及Microsoft ConceptGraph。現(xiàn)階段百科和常識知識圖譜的融合越來越多，下面詳細介紹一下。

6. Cyc

Cyc是1984年由Douglas Lenat創(chuàng)建的，作為知識工程時代一項重要進展，最初目標是建立人類最大的常識知識庫。Cyc知識庫主要由術語和斷言組成，術語包含概念、關系和實體的定義。而斷言用來建立術語間關系，通過形式化謂詞邏輯進行描述，包括事實描述和規(guī)則描述。

Cyc主要特點是基于形式化語言表示方法來刻畫知識，支持復雜推理，但是也導致擴展性和靈活性不夠，現(xiàn)有Cyc知識庫包括50萬條術語和700萬條斷言。

7. ConceptNet

ConceptNet是一個大規(guī)模的多語言常識知識庫，起源于一個MIT媒體實驗室眾包項目Open Mind Common Sense（OMCS），其本質(zhì)為一個描述人類常識的大型語義網(wǎng)絡^[6]。

ConceptNet側(cè)重于用近似自然語言描述三元組知識間關系，類似于WordNet。ConceptNet中擁有如“IsA、UsedFor、CapableOf”等多種固定關系，允許節(jié)點是自然語言片段或句子，但關系類型確定有利于降低知識獲取的難度。

ConceptNet知識表示框架包含了如下要素：概念、詞匯、短語、斷言和邊。其中斷言描述概念間的關系，類似于RDF中的聲明，邊類似于RDF中的屬性，一個概念包含了多條邊，而一條邊可能有多個來源和附加屬性。

ConceptNet目前擁有304個語言的版本，超過390萬個概念，2800萬個斷言，知識三元組正確率約為81%，支持數(shù)據(jù)集的完全下載。

8. Microsoft ConceptGraph

Microsoft ConceptGraph前身是Probase，以概念層次體系（Taxonomy）為核心，主要包含的是概念間關系，如“IsA”“isPropertyOf”“Co-occurance”以及實例（等同于上文中的實體）。

其中每一個關系均附帶一個概率值，用于對概念進行界定，因此在語義消歧中作用很大。比如說概念電動汽車，實體可以為特斯拉，那么通過IsA關系描述中“汽車”或“人名”，加上時間屬性，保證了語義理解的正確性。

目前，Microsoft ConceptGraph擁有500多萬個概念、1200多萬個實例以及8500萬個IsA關系（正確率約為92.8%）。支持HTTP API調(diào)用^[7]。

9. NELL

NELL（Never-Ending Language Learner）是卡內(nèi)基梅隆大學基于互聯(lián)網(wǎng)數(shù)據(jù)抽取而開發(fā)的三元組知識庫。它的基本理念是給定少量初始樣本（少量概念、實體類型、關系），利用機器學習方法自動從互聯(lián)網(wǎng)學習和抽取新的知識，目前NELL已經(jīng)抽取了400多萬條高置信度的三元組知識。

03 中文類知識圖譜

中文類知識圖譜對于中文自然語言理解至關重要，特別是中文開放知識圖譜聯(lián)盟（OpenKG）的努力，推動了中文知識圖譜普及與應用^[8]。

OpenKG借鑒了Schema.org知識眾包模式，搭建了中文知識圖譜建模、推理、學習的可解釋接口規(guī)范cnSchema，構(gòu)建中文知識圖譜核心數(shù)據(jù)結(jié)構(gòu)，包括數(shù)據(jù)（實體、本體、陳述）、元數(shù)據(jù)（版本管理、信息溯源、上下文），支持RDF邏輯層、JSON-LD存儲層和計算層三個層次的知識表示。

OpenKG技術平臺目前已經(jīng)包含了Zhishi.me、CN-DBPedia、PKUBase、XLore，以及常識、醫(yī)療、金融、城市、出行等15類開放中文知識圖譜。下面我們介紹幾個常見的中文知識圖譜項目。

10. Zhishi.me

Zhishi.me是構(gòu)建中文鏈接數(shù)據(jù)的第一份工作，借鑒DBpedia的思路，對百度百科、互動百科和中文維基百科中的信息進行抽取，然后對多源同一實體進行對齊和鏈接^[^9]。

此外，結(jié)合社交站點的分類目錄及標簽云，Zhishi.me也融合中文模式（Schema），包含三種概念間關系，即equal、related與subClassOf關系。Zhishi.me中擁有約40萬個中文概念、1000萬個實體與1.2億個RDF三元組，所有數(shù)據(jù)可以通過在線查詢得到。人工評測正確率約為84%，并支持數(shù)據(jù)集的完全下載。

11. XLore

XLore是一個大型的中英文知識圖譜，它旨在從各種不同的中英文在線百科中抽取并生成RDF三元組，并建立中英文實體間的跨語言鏈接^[10]。目前，XLore大約有246萬個概念、44萬個關系或?qū)傩浴?600萬個實體，詳細情況可以參考其官方網(wǎng)站。

12. CN-DBpedia

CN-DBpedia是目前規(guī)模最大的開放百科中文知識圖譜之一，主要從中文百科類網(wǎng)站（如百度百科、互動百科、中文維基百科等）頁面中提取信息^[11]。

CN-DBpedia的概念本體復用已有成熟的概念體系（如DBpedia、YAGO、Freebase等）。針對實體正文內(nèi)容涉及的屬性構(gòu)建一個抽取器（分類器），從百科文本抽取內(nèi)容，經(jīng)過濾、融合、推斷等操作后，最終形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)。

目前CN-DBpedia涵蓋1600萬以上個實體、2.2億個關系，相關知識服務API累計調(diào)用量已達2.6億次。

在中文領域，還有上交大發(fā)布的知識圖譜AceKG，超1億個實體，近100G數(shù)據(jù)量，使用Apache Jena框架進行驅(qū)動^[12]。思知平臺發(fā)布的ownthink通用知識圖譜^[13]。此外，百度公司在過去多年的實踐中，內(nèi)部積累通用/領域/多源異構(gòu)類知識圖譜規(guī)模已經(jīng)達到億級實體和千億級屬性關系。

相關參考：

[1] https://wiki.dbpedia.org/develop/datasets

[2] https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/

[3] https://www.npmjs.com/package/freebase

[4] https://babelnet.org/

[5] https://dumps.wikimedia.org/wikidatawiki/

[6] http://alumni.media.mit.edu/~hugo/conceptnet/

[7] http://concept.research.microsoft.com

[8] http://www.openkg.cn/

[9] http://zhishi.me/

[10] https://xlore.org/

[11] http://kw.fudan.edu.cn/cndbpedia/intro/

[12] http://jena.apache.org

[13] https://www.ownthink.com/

關于作者：王楠，北京大學博士，“創(chuàng)青春-中關村U30”2020年度優(yōu)勝者，先后任教于中國科學院、北京信息科技大學計算機學院。研究方向包括人工智能算法、知識圖譜、自然語言處理與地球電磁學等。

趙宏宇，現(xiàn)就職于騰訊看點搜索團隊，擔任算法研究員。有多年NLP、搜索系統(tǒng)、推薦系統(tǒng)的工作經(jīng)驗，涉及專利、招聘和網(wǎng)頁搜索等場景。精通PyTorch、TensorFlow等主流深度學習框架，擅長運用NLP前沿技術解決工業(yè)項目難題。

蔡月，清華-深圳灣實驗室聯(lián)合培養(yǎng)博士后，于2017年獲得北京大學生物醫(yī)學工程博士學位。曾擔任東軟醫(yī)療上海磁共振研發(fā)中心高級算法研究員。研究方向為數(shù)據(jù)科學、磁共振圖像算法、深度學習等，擅長腦科學領域數(shù)據(jù)分析、磁共振圖像加速、去噪等算法研究。

本文摘編自《自然語言理解與行業(yè)知識圖譜：概念、方法與工程落地》，經(jīng)出版方授權(quán)發(fā)布。（ISBN：978-7-111-69830-2）

《自然語言理解與行業(yè)知識圖譜》

點擊上圖了解及購買

轉(zhuǎn)載請聯(lián)系微信：DoctorData

推薦語：本部分首先闡述自然語言理解的發(fā)展脈絡和理解邏輯，主要圍繞語言符號、處理體系、語義理解等進行探討，引出自然語言理解的自動分析原理和方法，包括自然語言特征、統(tǒng)計學習、機器學習、深度學習、知識圖譜等。

劃重點👇

干貨直達👇

50%企業(yè)數(shù)據(jù)治理失敗！這9大要素才是成功關鍵
多段實例代碼詳解7大類Python運算符，建議收藏！
4918字，詳解商品系統(tǒng)的存儲架構(gòu)設計
人工智能、機器學習、深度學習的關系，終于有人講明白了

更多精彩👇

在公眾號對話框輸入以下關鍵詞

查看更多優(yōu)質(zhì)內(nèi)容！

讀書?|?書單?|?干貨?|?講明白?|?神操作?|?手把手

大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?爬蟲?|?可視化

AI?|?人工智能?|?機器學習?|?深度學習?|?NLP

5G?|?中臺?|?用戶畫像?|?數(shù)學?|?算法?|?數(shù)字孿生

據(jù)統(tǒng)計，99%的大咖都關注了這個公眾號

👇

新人創(chuàng)作打卡挑戰(zhàn)賽發(fā)博客就能抽獎！定制產(chǎn)品紅包拿不停！

總結(jié)

以上是生活随笔為你收集整理的吐血整理！12种通用知识图谱项目简介的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： C#.NET编程----Spring.N
下一篇： JPBC库只使用椭圆曲线群，不使用双线性