日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

吐血整理!12种通用知识图谱项目简介

發(fā)布時間:2025/3/15 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 吐血整理!12种通用知识图谱项目简介 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者:王楠 趙宏宇 蔡月

來源:大數(shù)據(jù)DT(ID:hzdashuju)

通用知識圖譜大體可以分為百科知識圖譜(Encyclopedia Knowledge Graph)和常識知識圖譜(Common Sense Knowledge Graph)。

百科知識圖譜是百科事實構(gòu)成的,通常是“非黑即白”的確定性知識。早在2010年微軟就開始構(gòu)建商用知識圖譜,應用于旗下的搜索、廣告、Cortana等項目。2012年谷歌基于Freebase正式發(fā)布Google Knowledge Graph。

目前微軟和谷歌擁有全世界最大的通用知識圖譜,臉書擁有全世界最大的社交知識圖譜。而阿里巴巴和亞馬遜則分別構(gòu)建了商品知識圖譜。

相比之下,國內(nèi)知識圖譜創(chuàng)業(yè)公司則從智能客服、金融、法律、公安、航空、醫(yī)療等“知識密集型”領域作為圖譜構(gòu)建切入點。除了上述商業(yè)通用圖譜以外,DBpedia、Yago、Wikidata、BabelNet等開放域百科知識圖譜也蓬勃發(fā)展。

另一種常識知識圖譜,則集成了語言知識和概念常識,通常關心的是帶有一定的概率的不確定事實,因此需要挖掘常識圖譜的語言關聯(lián)或發(fā)生概率。下面,我們將對兩類知識圖譜做詳細介紹。

01 百科知識圖譜

百科知識圖譜構(gòu)建模式可以分為兩類。一類是對單百科數(shù)據(jù)源進行深度抽取,典型代表有DBpedia。另一類是結(jié)合了語言知識庫(如WordNet)后,出現(xiàn)了一大批兼具語言知識的百科知識庫,如Google Knowledge Graph后端的Freebase、IBM Waston后端的YAGO,以及BabelNet。

此外,還有世界最大開放知識庫WikiData等。下面我們分別進行介紹。

1. DBpedia

DBpedia是始于2007年的早期語義網(wǎng)項目,也就是數(shù)據(jù)庫版本的多語言維基百科。DBpedia采用了嚴格的本體設計,包含人物、地點、音樂、組織機構(gòu)等類型定義。從對維基百科條目和鏈接數(shù)據(jù)集中抽取包括abstract、infobox、category等信息。

DBpedia采用了RDF語義框架描述,DBpedia與Freebase、OpenCyc、BioRDF等其他數(shù)據(jù)集也建立了實體映射關系,目前擁有127種語言的超過2800萬個實體與30億個RDF三元組。根據(jù)抽樣評測,RDF三元組的正確率達到88%[1]

2. YAGO

YAGO由德國馬普研究所于2007年研制,集成了維基百科、wordNet和GeoNames三個來源的數(shù)據(jù),是IBM沃森大腦的后端知識庫之一。YAGO利用規(guī)則對維基百科實體的infobox進行抽取,通過實體類別推斷構(gòu)建“概念-實體”、“實體-屬性”間的關系。

另外YAGO也融合了語言知識,比如將維基百科標簽與WordNet中的概念(Synset)進行映射,以WordNet概念體系完成百科知識本體構(gòu)建。很多知識條目也增加了時空屬性維度描述。

目前,YAGO擁有10種語言約459萬個實體,2400萬個知識三元組。YAGO2包含了100個以上關系類型,20萬實體類別,300萬實體和2.2億知識三元組等。通過人工評測,YAGO中三元組的正確率約為95%[2]

3. Freebase

Freebase是Google Knowledge Graph的早期版本,由MetaWeb公司在2005年建立,通過開源免費共享方式眾籌數(shù)據(jù)[3]

Freebase通過對象、事實、類型和屬性進行知識表示,其中一個重要的創(chuàng)新在于采用復合值類型(Compound Value Type,CVT)來處理多元關系,也就是說一個關系包含多個子二元關系。這樣采用CVT唯一標識擴展了關系表示的能力。目前Freebase正在向Wikidata上遷移以進一步支持谷歌語義搜索。

4. BabelNet

BabelNet是目前世界上最大的多語言百科知識庫之一,它本身可被視為一個由概念、實體、關系構(gòu)成的語義網(wǎng)絡[4]。BabelNet采用類似YAGO的思路,將維基百科頁面標題與WordNet概念進行映射,通過維基百科跨語言頁面鏈接以及機器翻譯系統(tǒng),為WordNet提供非英語語種鏈接數(shù)據(jù)。

目前BabelNet共擁有271個語言版本,包含了1400萬個概念、36.4萬個詞語關系和3.8萬個鏈接數(shù)據(jù),擁有超過19億個RDF三元組。BabelNet中每個概念包含所有表達相同含義的不同語言的同義詞。由于BabelNet中的錯誤來源主要在于維基百科與WordNet之間的映射,目前的映射正確率大約在91%。

5. Wikidata

Wikidata顧名思義,與維基百科有著千絲萬縷的聯(lián)系。它由維基媒體基金會發(fā)起和維持,目前是一個可以眾包協(xié)作編輯的多語言百科知識庫。Wikidata中的每個實體存在多個不同語言的標簽、別名、描述,通過三元組聲明表示每一個條目,比如實體“London-中文標簽-倫敦”。

此外,Wikidata利用參考文獻標識每個條目的來源或出處,通過備注處理復雜多元表示,刻畫多元關系。截至2017年,Wikidata能夠支持近350種語言、2500萬個實體及7000萬個聲明,支持數(shù)據(jù)集的完全下載[5]

02 常識知識圖譜

常識知識圖譜除了語言知識庫以外,還包括Cyc、ConceptNet、NELL以及Microsoft ConceptGraph。現(xiàn)階段百科和常識知識圖譜的融合越來越多,下面詳細介紹一下。

6. Cyc

Cyc是1984年由Douglas Lenat創(chuàng)建的,作為知識工程時代一項重要進展,最初目標是建立人類最大的常識知識庫。Cyc知識庫主要由術語斷言組成,術語包含概念、關系和實體的定義。而斷言用來建立術語間關系,通過形式化謂詞邏輯進行描述,包括事實描述和規(guī)則描述。

Cyc主要特點是基于形式化語言表示方法來刻畫知識,支持復雜推理,但是也導致擴展性和靈活性不夠,現(xiàn)有Cyc知識庫包括50萬條術語和700萬條斷言。

7. ConceptNet

ConceptNet是一個大規(guī)模的多語言常識知識庫,起源于一個MIT媒體實驗室眾包項目Open Mind Common Sense(OMCS),其本質(zhì)為一個描述人類常識的大型語義網(wǎng)絡[6]

ConceptNet側(cè)重于用近似自然語言描述三元組知識間關系,類似于WordNet。ConceptNet中擁有如“IsA、UsedFor、CapableOf”等多種固定關系,允許節(jié)點是自然語言片段或句子,但關系類型確定有利于降低知識獲取的難度。

ConceptNet知識表示框架包含了如下要素:概念、詞匯、短語、斷言和邊。其中斷言描述概念間的關系,類似于RDF中的聲明,邊類似于RDF中的屬性,一個概念包含了多條邊,而一條邊可能有多個來源和附加屬性。

ConceptNet目前擁有304個語言的版本,超過390萬個概念,2800萬個斷言,知識三元組正確率約為81%,支持數(shù)據(jù)集的完全下載。

8. Microsoft ConceptGraph

Microsoft ConceptGraph前身是Probase,以概念層次體系(Taxonomy)為核心,主要包含的是概念間關系,如“IsA”“isPropertyOf”“Co-occurance”以及實例(等同于上文中的實體)。

其中每一個關系均附帶一個概率值,用于對概念進行界定,因此在語義消歧中作用很大。比如說概念電動汽車,實體可以為特斯拉,那么通過IsA關系描述中“汽車”或“人名”,加上時間屬性,保證了語義理解的正確性。

目前,Microsoft ConceptGraph擁有500多萬個概念、1200多萬個實例以及8500萬個IsA關系(正確率約為92.8%)。支持HTTP API調(diào)用[7]

9. NELL

NELL(Never-Ending Language Learner)是卡內(nèi)基梅隆大學基于互聯(lián)網(wǎng)數(shù)據(jù)抽取而開發(fā)的三元組知識庫。它的基本理念是給定少量初始樣本(少量概念、實體類型、關系),利用機器學習方法自動從互聯(lián)網(wǎng)學習和抽取新的知識,目前NELL已經(jīng)抽取了400多萬條高置信度的三元組知識。

03 中文類知識圖譜

中文類知識圖譜對于中文自然語言理解至關重要,特別是中文開放知識圖譜聯(lián)盟(OpenKG)的努力,推動了中文知識圖譜普及與應用[8]

OpenKG借鑒了Schema.org知識眾包模式,搭建了中文知識圖譜建模、推理、學習的可解釋接口規(guī)范cnSchema,構(gòu)建中文知識圖譜核心數(shù)據(jù)結(jié)構(gòu),包括數(shù)據(jù)(實體、本體、陳述)、元數(shù)據(jù)(版本管理、信息溯源、上下文),支持RDF邏輯層、JSON-LD存儲層和計算層三個層次的知識表示。

OpenKG技術平臺目前已經(jīng)包含了Zhishi.me、CN-DBPedia、PKUBase、XLore,以及常識、醫(yī)療、金融、城市、出行等15類開放中文知識圖譜。下面我們介紹幾個常見的中文知識圖譜項目。

10. Zhishi.me

Zhishi.me是構(gòu)建中文鏈接數(shù)據(jù)的第一份工作,借鑒DBpedia的思路,對百度百科、互動百科和中文維基百科中的信息進行抽取,然后對多源同一實體進行對齊和鏈接[9]

此外,結(jié)合社交站點的分類目錄及標簽云,Zhishi.me也融合中文模式(Schema),包含三種概念間關系,即equal、related與subClassOf關系。Zhishi.me中擁有約40萬個中文概念、1000萬個實體與1.2億個RDF三元組,所有數(shù)據(jù)可以通過在線查詢得到。人工評測正確率約為84%,并支持數(shù)據(jù)集的完全下載。

11. XLore

XLore是一個大型的中英文知識圖譜,它旨在從各種不同的中英文在線百科中抽取并生成RDF三元組,并建立中英文實體間的跨語言鏈接[10]。目前,XLore大約有246萬個概念、44萬個關系或?qū)傩浴?600萬個實體,詳細情況可以參考其官方網(wǎng)站。

12. CN-DBpedia

CN-DBpedia是目前規(guī)模最大的開放百科中文知識圖譜之一,主要從中文百科類網(wǎng)站(如百度百科、互動百科、中文維基百科等)頁面中提取信息[11]

CN-DBpedia的概念本體復用已有成熟的概念體系(如DBpedia、YAGO、Freebase等)。針對實體正文內(nèi)容涉及的屬性構(gòu)建一個抽取器(分類器),從百科文本抽取內(nèi)容,經(jīng)過濾、融合、推斷等操作后,最終形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)。

目前CN-DBpedia涵蓋1600萬以上個實體、2.2億個關系,相關知識服務API累計調(diào)用量已達2.6億次。

在中文領域,還有上交大發(fā)布的知識圖譜AceKG,超1億個實體,近100G數(shù)據(jù)量,使用Apache Jena框架進行驅(qū)動[12]。思知平臺發(fā)布的ownthink通用知識圖譜[13]。此外,百度公司在過去多年的實踐中,內(nèi)部積累通用/領域/多源異構(gòu)類知識圖譜規(guī)模已經(jīng)達到億級實體和千億級屬性關系。

相關參考:

[1] https://wiki.dbpedia.org/develop/datasets

[2] https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/

[3] https://www.npmjs.com/package/freebase

[4] https://babelnet.org/

[5] https://dumps.wikimedia.org/wikidatawiki/

[6] http://alumni.media.mit.edu/~hugo/conceptnet/

[7] http://concept.research.microsoft.com

[8] http://www.openkg.cn/

[9] http://zhishi.me/

[10] https://xlore.org/

[11] http://kw.fudan.edu.cn/cndbpedia/intro/

[12] http://jena.apache.org

[13] https://www.ownthink.com/

關于作者:王楠,北京大學博士,“創(chuàng)青春-中關村U30”2020年度優(yōu)勝者,先后任教于中國科學院、北京信息科技大學計算機學院。研究方向包括人工智能算法、知識圖譜、自然語言處理與地球電磁學等。

趙宏宇,現(xiàn)就職于騰訊看點搜索團隊,擔任算法研究員。有多年NLP、搜索系統(tǒng)、推薦系統(tǒng)的工作經(jīng)驗,涉及專利、招聘和網(wǎng)頁搜索等場景。精通PyTorch、TensorFlow等主流深度學習框架,擅長運用NLP前沿技術解決工業(yè)項目難題。

蔡月,清華-深圳灣實驗室聯(lián)合培養(yǎng)博士后,于2017年獲得北京大學生物醫(yī)學工程博士學位。曾擔任東軟醫(yī)療上海磁共振研發(fā)中心高級算法研究員。研究方向為數(shù)據(jù)科學、磁共振圖像算法、深度學習等,擅長腦科學領域數(shù)據(jù)分析、磁共振圖像加速、去噪等算法研究。

本文摘編自《自然語言理解與行業(yè)知識圖譜:概念、方法與工程落地》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:978-7-111-69830-2)

《自然語言理解與行業(yè)知識圖譜》

點擊上圖了解及購買

轉(zhuǎn)載請聯(lián)系微信:DoctorData

推薦語:本部分首先闡述自然語言理解的發(fā)展脈絡和理解邏輯,主要圍繞語言符號、處理體系、語義理解等進行探討,引出自然語言理解的自動分析原理和方法,包括自然語言特征、統(tǒng)計學習、機器學習、深度學習、知識圖譜等。

劃重點👇

干貨直達👇

  • 50%企業(yè)數(shù)據(jù)治理失敗!這9大要素才是成功關鍵

  • 多段實例代碼詳解7大類Python運算符,建議收藏!

  • 4918字,詳解商品系統(tǒng)的存儲架構(gòu)設計

  • 人工智能、機器學習、深度學習的關系,終于有人講明白了

更多精彩👇

在公眾號對話框輸入以下關鍵詞

查看更多優(yōu)質(zhì)內(nèi)容!

讀書?|?書單?|?干貨?|?講明白?|?神操作?|?手把手

大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?爬蟲?|?可視化

AI?|?人工智能?|?機器學習?|?深度學習?|?NLP

5G?|?中臺?|?用戶畫像?|?數(shù)學?|?算法?|?數(shù)字孿生

據(jù)統(tǒng)計,99%的大咖都關注了這個公眾號

👇

新人創(chuàng)作打卡挑戰(zhàn)賽發(fā)博客就能抽獎!定制產(chǎn)品紅包拿不停!

總結(jié)

以上是生活随笔為你收集整理的吐血整理!12种通用知识图谱项目简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。