陈华钧 | 知识图谱构建,将成为智能金融的突破口
本文轉(zhuǎn)載自公眾號:恒生技術(shù)之眼。
我們太容易被機(jī)器下棋這樣的事所吸引,以至于現(xiàn)在談到人工智能就基本都是在說機(jī)器學(xué)習(xí)和深度學(xué)習(xí),而相對忽視了與人工智能相關(guān)的另外一個重要的方向:知識圖譜。
——陳華鈞
”盡管人工智能依靠機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步取得了巨大的進(jìn)展,例如,AlphaGoZero不依賴人類知識的監(jiān)督,通過自我強(qiáng)化學(xué)習(xí)獲得極高的棋力,但人工智能在很多方面,如語言理解、視覺場景理解、決策分析等,仍然舉步維艱。關(guān)鍵問題在于,機(jī)器必須要掌握大量的知識,特別是常識知識才能實(shí)現(xiàn)真正類人的智能。
人類知識與機(jī)器知識
哲學(xué)家柏拉圖把知識(Knowledge)定義為“Justified True Belief”,即知識需要滿足三個核心要素:合理性(Justified)、真實(shí)性(True)、被相信(Believed)。簡單而言,知識是人類通過觀察、學(xué)習(xí)和思考有關(guān)客觀世界的各種現(xiàn)象而獲得和總結(jié)出的所有事實(shí)(Facts)、概念(Concepts)、規(guī)則或原則(Rules & Principles)的集合。人類發(fā)明了各種手段來描述、表示和傳承知識,如自然語言、繪畫、音樂、數(shù)學(xué)語言、物理模型、化學(xué)公式等。具有獲取、表示和處理知識的能力是人類心智區(qū)別于其它物種心智的重要特征。人工智能的核心也是研究怎樣用計(jì)算機(jī)易于處理的方式表示、學(xué)習(xí)和處理各種各樣的知識。知識表示是現(xiàn)實(shí)世界的可計(jì)算模型?(Computable Model of Reality),廣義的講,神經(jīng)網(wǎng)絡(luò)也是一種知識表示形式。
在人工智能的早期發(fā)展流派中,符號派(Symbolism)側(cè)重于模擬人的心智,研究怎樣用計(jì)算機(jī)符號來表示人腦中的知識和模擬心智的推理過程;連接派(Connectionism)側(cè)重于模擬人腦的生理結(jié)構(gòu),即人工神經(jīng)網(wǎng)絡(luò)。符號派一直以來都處于人工智能研究的核心位置。近年來,隨著數(shù)據(jù)的大量積累和計(jì)算能力大幅提升,深度學(xué)習(xí)在視覺、聽覺等感知處理中取得突破性進(jìn)展,進(jìn)而又在圍棋等博弈類游戲、機(jī)器翻譯等領(lǐng)域獲得成功,使得人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)獲得了人工智能研究的核心地位。深度學(xué)習(xí)在處理感知、識別和判斷等方面表現(xiàn)突出,能幫助構(gòu)建聰明的AI,但在模擬人的思考過程、處理常識知識和推理,以及理解人的語言方面仍然舉步維艱。
符號派關(guān)注的核心是知識的表示和推理(KRR:Knowledge Representation and Reasoning)。早在1960年,認(rèn)知科學(xué)家Allan M. Collins提出用語義網(wǎng)絡(luò)(Semantic Network)來研究人腦的語義記憶。WordNet是典型的語義網(wǎng)絡(luò),它定義了名詞、動詞、形容詞和副詞之間的語義關(guān)系,例如動詞之間的蘊(yùn)含關(guān)系(如:“打鼾”蘊(yùn)含著“睡眠”)等。WordNet被廣泛應(yīng)用于語義消歧等自然語言處理領(lǐng)域。
從“知識庫”到“推理機(jī)”
1970年,隨著專家系統(tǒng)的提出和商業(yè)化發(fā)展,知識庫構(gòu)建和知識表示更加得到重視。專家系統(tǒng)的基本想法是:專家是基于大腦中的知識來進(jìn)行決策,因此,人工智能的核心應(yīng)該是用計(jì)算機(jī)符號來表示這些知識,并通過推理機(jī)模仿人腦對知識進(jìn)行處理。依據(jù)專家系統(tǒng)的觀點(diǎn),計(jì)算機(jī)系統(tǒng)應(yīng)該由知識庫和推理機(jī)兩部分組成,而不是由函數(shù)等過程性代碼組成。早期專家系統(tǒng)最常用的知識表示方法包括基于框架的語言(Frame-based Languages)和產(chǎn)生式規(guī)則(Production Rules)等。框架語言主要用于描述客觀世界的類別、個體、屬性及關(guān)系等,較多的被應(yīng)用于輔助自然語言理解。產(chǎn)生式規(guī)則主要用于描述類似于IF-THEN的邏輯結(jié)構(gòu),適合于刻畫過程性知識。
經(jīng)常與知識表示并提的另外一個重要概念是機(jī)器推理,實(shí)際上推理相比于機(jī)器學(xué)習(xí)對于高層AI的實(shí)現(xiàn)來說可能更加重要。目前AI比較前沿的研究方向都是在考慮怎樣把連接主義所推動的機(jī)器學(xué)習(xí)能力與傳統(tǒng)符號主義所關(guān)注的機(jī)器推理問題相結(jié)合,以實(shí)現(xiàn)感知到認(rèn)知層的跨越。
讓機(jī)器像人類一樣認(rèn)知世界
知識圖譜說yes
知識圖譜的早期理念來自于Web之父Tim Berners Lee于1998年提出的Semantic Web,其最初理想是把基于文本鏈接的萬維網(wǎng)轉(zhuǎn)化成基于實(shí)體鏈接的語義網(wǎng)。語義網(wǎng)十余年的發(fā)展積累了大量語義知識庫,如:Freebase、DBpedia、Yago、WikiData等。谷歌在吸收語義網(wǎng)相關(guān)成果基礎(chǔ)上于2012年推出了基于其稱之為知識圖譜的搜索引擎產(chǎn)品。隨后,知識圖譜逐步在語義搜索、智能問答、輔助語言理解、輔助大數(shù)據(jù)分析等很多領(lǐng)域發(fā)揮出越來越重要的作用。
1989年,萬維網(wǎng)之父、圖靈獎獲得者Tim Berners-Lee提出構(gòu)建一個全球化的以“鏈接”為中心的信息系統(tǒng)(Linked Information System)。任何人都可以通過添加鏈接把自己的文檔鏈入其中。他認(rèn)為以鏈接為中心和基于圖的組織方式,比起基于樹的層次化組織方式,更加適合于互聯(lián)網(wǎng)這種開放的系統(tǒng)。這一思想逐步被人們實(shí)現(xiàn),并演化發(fā)展成為今天的World Wide Web。
1994年,Tim Berners-Lee 又提出,Web不應(yīng)該僅僅只是網(wǎng)頁之間的互相鏈接。實(shí)際上,網(wǎng)頁中所描述的都是現(xiàn)實(shí)世界中的實(shí)體和人腦中的概念。網(wǎng)頁之間的鏈接實(shí)際包含有語義,即這些實(shí)體或概念之間的關(guān)系,然而機(jī)器卻無法有效的從網(wǎng)頁中識別出其中蘊(yùn)含的語義。他于1998年提出了Semantic Web(語義互聯(lián)網(wǎng))的概念。Semantic Web仍然基于圖和鏈接的組織方式,只是圖中的節(jié)點(diǎn)代表的不只是網(wǎng)頁,而是實(shí)體(如:人、機(jī)構(gòu)、地點(diǎn)等),而超鏈接也被增加了語義描述,具體標(biāo)明實(shí)體之間的關(guān)系(如:出生地是、創(chuàng)辦人是等)。相對于傳統(tǒng)的網(wǎng)頁互聯(lián)網(wǎng),Semantic Web的本質(zhì)是知識的互聯(lián)網(wǎng)或語義互聯(lián)網(wǎng)。
在語義互聯(lián)網(wǎng)被提出之后,出現(xiàn)了一大批新興的語義知識庫。如作為谷歌知識圖譜后端的Freebase,作為IBM Waston后端的DBPedia和Yago,作為Amazon Alexa后端的True Knowledge,作為蘋果Siri后端的Viv等。尤其值得一提的是,2010年谷歌收購了早期語義網(wǎng)公司MetaWeb,并以其開發(fā)的Freebase為數(shù)據(jù)基礎(chǔ)之一,于2012年正式推出了稱為知識圖譜的搜索引擎服務(wù)。谷歌知識圖譜的宣傳口號是:“Things, Not Strings!”。所解決的核心問題是把對文本(String)的網(wǎng)頁搜索轉(zhuǎn)化為的對事物(Things)的語義搜索,可以看做是語義互聯(lián)網(wǎng)的一種商業(yè)化實(shí)現(xiàn)。
從“后備”到“前鋒”,現(xiàn)代知識圖譜遇難題
知識圖譜并非突然出現(xiàn)的新技術(shù),而是歷史上很多相關(guān)技術(shù)相互影響和繼承發(fā)展的結(jié)果,這包括語義網(wǎng)絡(luò)、知識表示、本體論、Semantic Web、自然語言處理等,有著來自Web、人工智能和自然語言處理等多方面的技術(shù)基因。
從早期的人工智能發(fā)展歷史來看,Semantic Web是傳統(tǒng)人工智能與Web融合發(fā)展的結(jié)果,是知識表示與推理在Web中的應(yīng)用;RDF/OWL都是面向Web設(shè)計(jì)實(shí)現(xiàn)的標(biāo)準(zhǔn)化的知識表示語言;而知識圖譜則可以看做是Semantic Web的一種簡化后的商業(yè)實(shí)現(xiàn)。
但我們要強(qiáng)調(diào)知識圖譜與傳統(tǒng)專家系統(tǒng)時代的知識工程有顯著的不同。首先,傳統(tǒng)專家系統(tǒng)的知識庫構(gòu)建大多以實(shí)現(xiàn)高端的決策智能為目標(biāo),而知識圖譜雖然也被用來實(shí)現(xiàn)大數(shù)據(jù)決策分析(如Plantir),其首要的應(yīng)用目標(biāo)是輔助搜索和智能問答。另外一方面,與傳統(tǒng)專家系統(tǒng)時代主要依靠專家手工獲取知識不同,現(xiàn)代知識圖譜的顯著特點(diǎn)是規(guī)模巨大,無法單一依靠人工和專家構(gòu)建。傳統(tǒng)的知識庫,如由Douglas Lenat從1984年開始創(chuàng)建的常識知識庫Cyc僅包含700萬條的事實(shí)描述(Assertion),最新的ConceptNet 5.0也僅包含2800萬RDF三元組關(guān)系描述,而現(xiàn)代知識圖譜已經(jīng)包含超過千億級別的三元組。
知識圖譜的規(guī)模化發(fā)展
現(xiàn)代知識圖譜對知識規(guī)模的要求源于“知識完備性”難題。馮諾依曼曾估計(jì)單個個體的大腦中的全量知識需要2.4*1020個bits來存儲。客觀世界擁有不計(jì)其數(shù)的實(shí)體,人的主觀世界更加包含有無法統(tǒng)計(jì)的概念,這些實(shí)體和概念之間又具有更多數(shù)量的復(fù)雜關(guān)系,導(dǎo)致大多數(shù)知識圖譜都面臨知識不完全的困境。在實(shí)際的領(lǐng)域應(yīng)用場景中,知識不完全也是困擾大多數(shù)語義搜索、智能問答、知識輔助的決策分析系統(tǒng)的首要難題。
此專家非彼專家
領(lǐng)域知識圖譜變身“百事通”
領(lǐng)域知識圖譜是相對于通用知識圖譜(如DBPedia、Yago、Wikidata等)而言,面向特定領(lǐng)域的知識圖譜,如電商、金融、醫(yī)療等。相比較而言,領(lǐng)域知識圖譜知識來源更多、規(guī)?;瘮U(kuò)展要求更迅速、知識結(jié)構(gòu)更加復(fù)雜、知識質(zhì)量要求更高、知識的應(yīng)用形式也更加廣泛。
通用知識圖譜與領(lǐng)域知識圖譜的比較
以比較有代表性的金融領(lǐng)域?yàn)槔?。在金融領(lǐng)域,圍繞金融的本體知識建模一直都有不少人在做。在大約10多年前,就有一批做金融信息的結(jié)構(gòu)化描述的人在嘗試構(gòu)建整個金融領(lǐng)域的本體知識模型,其中一直延續(xù)到現(xiàn)在的一項(xiàng)工作是FIBO。他們的目標(biāo)就是希望能夠定義整個金融域的規(guī)則,并且是采用Top-Down的做法,這是成本非常高昂的工作,而我們現(xiàn)在更多的強(qiáng)調(diào)領(lǐng)域知識圖譜的構(gòu)建應(yīng)該從大量數(shù)據(jù)中去挖掘和總結(jié)。
金融領(lǐng)域比較典型的例子如Kensho采用知識圖譜輔助投資顧問和投資研究,國內(nèi)以恒生電子為代表的金融科技機(jī)構(gòu)以及不少銀行、證券機(jī)構(gòu)等也都在開展金融領(lǐng)域的知識圖譜構(gòu)建工作。金融知識圖譜構(gòu)建主要來源于機(jī)構(gòu)已有的結(jié)構(gòu)化數(shù)據(jù)和公開的公報、研報及新聞的聯(lián)合抽取等。在知識表示方面,金融概念也具有較高的復(fù)雜性和層次性,并較多的依賴規(guī)則型知識進(jìn)行投資因素的關(guān)聯(lián)分析。在應(yīng)用形式方面,則主要以金融問答和投顧投研類決策分析型應(yīng)用為主。金融知識圖譜的一個顯著特點(diǎn)是高度動態(tài)性,且需要考慮知識的時效性,對金融知識的時間維度進(jìn)行建模。
金融知識圖譜特點(diǎn)(細(xì)化到具體層面論述)
此外金融領(lǐng)域還有一些比較適合于做知識圖譜的特點(diǎn),如文本資源非常豐富,且動態(tài)性非常高。大量高度動態(tài)的新聞、公報、研報都是自動化獲取知識圖譜的有力來源,在這方面,我們可以較為深入應(yīng)用實(shí)體識別、大規(guī)模自動化詞庫構(gòu)建、結(jié)合遠(yuǎn)程監(jiān)督和深度學(xué)習(xí)的關(guān)系抽取等多方面的圖譜構(gòu)建技術(shù)。只要一點(diǎn)一點(diǎn)積累高質(zhì)量的知識圖譜,結(jié)合深度學(xué)習(xí)和自然語言處理等領(lǐng)域的最新進(jìn)展,金融知識圖譜會發(fā)揮出門檻式的重大價值。
結(jié)語
互聯(lián)網(wǎng)促成了大數(shù)據(jù)的集聚,大數(shù)據(jù)進(jìn)而促進(jìn)了人工智能算法的進(jìn)步。新數(shù)據(jù)和新算法為規(guī)?;R圖譜構(gòu)建提供了新的技術(shù)基礎(chǔ)和發(fā)展條件,使得知識圖譜構(gòu)建的來源、方法和技術(shù)手段都發(fā)生極大的變化。知識圖譜作為知識的一種形式,已經(jīng)在語義搜索、智能問答、數(shù)據(jù)分析、自然語言理解、視覺理解、物聯(lián)網(wǎng)設(shè)備互聯(lián)等多個方面發(fā)揮出越來越大的價值。AI浪潮愈演愈烈,而作為底層支撐的知識圖譜賽道也從鮮有問津到緩慢升溫,雖然還談不上擁擠,但作為通往未來的必經(jīng)之路,注定會走上風(fēng)口。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的陈华钧 | 知识图谱构建,将成为智能金融的突破口的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 剑指offer-python解答
- 下一篇: ConvLab介绍及使用