當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

陈华钧 | 知识图谱构建，将成为智能金融的突破口

發(fā)布時間：2024/7/5 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了陈华钧 | 知识图谱构建，将成为智能金融的突破口小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文轉(zhuǎn)載自公眾號：恒生技術(shù)之眼。

“

我們太容易被機(jī)器下棋這樣的事所吸引，以至于現(xiàn)在談到人工智能就基本都是在說機(jī)器學(xué)習(xí)和深度學(xué)習(xí)，而相對忽視了與人工智能相關(guān)的另外一個重要的方向：知識圖譜。

——陳華鈞

”

盡管人工智能依靠機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步取得了巨大的進(jìn)展，例如，AlphaGoZero不依賴人類知識的監(jiān)督，通過自我強(qiáng)化學(xué)習(xí)獲得極高的棋力，但人工智能在很多方面，如語言理解、視覺場景理解、決策分析等，仍然舉步維艱。關(guān)鍵問題在于，機(jī)器必須要掌握大量的知識，特別是常識知識才能實(shí)現(xiàn)真正類人的智能。

人類知識與機(jī)器知識

哲學(xué)家柏拉圖把知識（Knowledge）定義為“Justified True Belief”，即知識需要滿足三個核心要素：合理性（Justified）、真實(shí)性（True）、被相信（Believed）。簡單而言，知識是人類通過觀察、學(xué)習(xí)和思考有關(guān)客觀世界的各種現(xiàn)象而獲得和總結(jié)出的所有事實(shí)（Facts）、概念（Concepts）、規(guī)則或原則（Rules & Principles）的集合。人類發(fā)明了各種手段來描述、表示和傳承知識，如自然語言、繪畫、音樂、數(shù)學(xué)語言、物理模型、化學(xué)公式等。具有獲取、表示和處理知識的能力是人類心智區(qū)別于其它物種心智的重要特征。人工智能的核心也是研究怎樣用計(jì)算機(jī)易于處理的方式表示、學(xué)習(xí)和處理各種各樣的知識。知識表示是現(xiàn)實(shí)世界的可計(jì)算模型?(Computable Model of Reality)，廣義的講，神經(jīng)網(wǎng)絡(luò)也是一種知識表示形式。

在人工智能的早期發(fā)展流派中，符號派（Symbolism）側(cè)重于模擬人的心智，研究怎樣用計(jì)算機(jī)符號來表示人腦中的知識和模擬心智的推理過程；連接派（Connectionism）側(cè)重于模擬人腦的生理結(jié)構(gòu)，即人工神經(jīng)網(wǎng)絡(luò)。符號派一直以來都處于人工智能研究的核心位置。近年來，隨著數(shù)據(jù)的大量積累和計(jì)算能力大幅提升，深度學(xué)習(xí)在視覺、聽覺等感知處理中取得突破性進(jìn)展，進(jìn)而又在圍棋等博弈類游戲、機(jī)器翻譯等領(lǐng)域獲得成功，使得人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)獲得了人工智能研究的核心地位。深度學(xué)習(xí)在處理感知、識別和判斷等方面表現(xiàn)突出，能幫助構(gòu)建聰明的AI，但在模擬人的思考過程、處理常識知識和推理，以及理解人的語言方面仍然舉步維艱。

符號派關(guān)注的核心是知識的表示和推理（KRR：Knowledge Representation and Reasoning）。早在1960年，認(rèn)知科學(xué)家Allan M. Collins提出用語義網(wǎng)絡(luò)（Semantic Network）來研究人腦的語義記憶。WordNet是典型的語義網(wǎng)絡(luò)，它定義了名詞、動詞、形容詞和副詞之間的語義關(guān)系，例如動詞之間的蘊(yùn)含關(guān)系（如：“打鼾”蘊(yùn)含著“睡眠”）等。WordNet被廣泛應(yīng)用于語義消歧等自然語言處理領(lǐng)域。

從“知識庫”到“推理機(jī)”

1970年，隨著專家系統(tǒng)的提出和商業(yè)化發(fā)展，知識庫構(gòu)建和知識表示更加得到重視。專家系統(tǒng)的基本想法是：專家是基于大腦中的知識來進(jìn)行決策，因此，人工智能的核心應(yīng)該是用計(jì)算機(jī)符號來表示這些知識，并通過推理機(jī)模仿人腦對知識進(jìn)行處理。依據(jù)專家系統(tǒng)的觀點(diǎn)，計(jì)算機(jī)系統(tǒng)應(yīng)該由知識庫和推理機(jī)兩部分組成，而不是由函數(shù)等過程性代碼組成。早期專家系統(tǒng)最常用的知識表示方法包括基于框架的語言（Frame-based Languages）和產(chǎn)生式規(guī)則（Production Rules）等。框架語言主要用于描述客觀世界的類別、個體、屬性及關(guān)系等，較多的被應(yīng)用于輔助自然語言理解。產(chǎn)生式規(guī)則主要用于描述類似于IF-THEN的邏輯結(jié)構(gòu)，適合于刻畫過程性知識。

經(jīng)常與知識表示并提的另外一個重要概念是機(jī)器推理，實(shí)際上推理相比于機(jī)器學(xué)習(xí)對于高層AI的實(shí)現(xiàn)來說可能更加重要。目前AI比較前沿的研究方向都是在考慮怎樣把連接主義所推動的機(jī)器學(xué)習(xí)能力與傳統(tǒng)符號主義所關(guān)注的機(jī)器推理問題相結(jié)合，以實(shí)現(xiàn)感知到認(rèn)知層的跨越。

讓機(jī)器像人類一樣認(rèn)知世界

知識圖譜說yes

知識圖譜的早期理念來自于Web之父Tim Berners Lee于1998年提出的Semantic Web，其最初理想是把基于文本鏈接的萬維網(wǎng)轉(zhuǎn)化成基于實(shí)體鏈接的語義網(wǎng)。語義網(wǎng)十余年的發(fā)展積累了大量語義知識庫，如：Freebase、DBpedia、Yago、WikiData等。谷歌在吸收語義網(wǎng)相關(guān)成果基礎(chǔ)上于2012年推出了基于其稱之為知識圖譜的搜索引擎產(chǎn)品。隨后，知識圖譜逐步在語義搜索、智能問答、輔助語言理解、輔助大數(shù)據(jù)分析等很多領(lǐng)域發(fā)揮出越來越重要的作用。

1989年，萬維網(wǎng)之父、圖靈獎獲得者Tim Berners-Lee提出構(gòu)建一個全球化的以“鏈接”為中心的信息系統(tǒng)（Linked Information System）。任何人都可以通過添加鏈接把自己的文檔鏈入其中。他認(rèn)為以鏈接為中心和基于圖的組織方式，比起基于樹的層次化組織方式，更加適合于互聯(lián)網(wǎng)這種開放的系統(tǒng)。這一思想逐步被人們實(shí)現(xiàn)，并演化發(fā)展成為今天的World Wide Web。

1994年，Tim Berners-Lee 又提出，Web不應(yīng)該僅僅只是網(wǎng)頁之間的互相鏈接。實(shí)際上，網(wǎng)頁中所描述的都是現(xiàn)實(shí)世界中的實(shí)體和人腦中的概念。網(wǎng)頁之間的鏈接實(shí)際包含有語義，即這些實(shí)體或概念之間的關(guān)系，然而機(jī)器卻無法有效的從網(wǎng)頁中識別出其中蘊(yùn)含的語義。他于1998年提出了Semantic Web（語義互聯(lián)網(wǎng)）的概念。Semantic Web仍然基于圖和鏈接的組織方式，只是圖中的節(jié)點(diǎn)代表的不只是網(wǎng)頁，而是實(shí)體（如：人、機(jī)構(gòu)、地點(diǎn)等），而超鏈接也被增加了語義描述，具體標(biāo)明實(shí)體之間的關(guān)系（如：出生地是、創(chuàng)辦人是等）。相對于傳統(tǒng)的網(wǎng)頁互聯(lián)網(wǎng)，Semantic Web的本質(zhì)是知識的互聯(lián)網(wǎng)或語義互聯(lián)網(wǎng)。

在語義互聯(lián)網(wǎng)被提出之后，出現(xiàn)了一大批新興的語義知識庫。如作為谷歌知識圖譜后端的Freebase，作為IBM Waston后端的DBPedia和Yago，作為Amazon Alexa后端的True Knowledge，作為蘋果Siri后端的Viv等。尤其值得一提的是，2010年谷歌收購了早期語義網(wǎng)公司MetaWeb，并以其開發(fā)的Freebase為數(shù)據(jù)基礎(chǔ)之一，于2012年正式推出了稱為知識圖譜的搜索引擎服務(wù)。谷歌知識圖譜的宣傳口號是：“Things, Not Strings!”。所解決的核心問題是把對文本（String）的網(wǎng)頁搜索轉(zhuǎn)化為的對事物（Things）的語義搜索，可以看做是語義互聯(lián)網(wǎng)的一種商業(yè)化實(shí)現(xiàn)。

從“后備”到“前鋒”，現(xiàn)代知識圖譜遇難題

知識圖譜并非突然出現(xiàn)的新技術(shù)，而是歷史上很多相關(guān)技術(shù)相互影響和繼承發(fā)展的結(jié)果，這包括語義網(wǎng)絡(luò)、知識表示、本體論、Semantic Web、自然語言處理等，有著來自Web、人工智能和自然語言處理等多方面的技術(shù)基因。

從早期的人工智能發(fā)展歷史來看，Semantic Web是傳統(tǒng)人工智能與Web融合發(fā)展的結(jié)果，是知識表示與推理在Web中的應(yīng)用；RDF/OWL都是面向Web設(shè)計(jì)實(shí)現(xiàn)的標(biāo)準(zhǔn)化的知識表示語言；而知識圖譜則可以看做是Semantic Web的一種簡化后的商業(yè)實(shí)現(xiàn)。

但我們要強(qiáng)調(diào)知識圖譜與傳統(tǒng)專家系統(tǒng)時代的知識工程有顯著的不同。首先，傳統(tǒng)專家系統(tǒng)的知識庫構(gòu)建大多以實(shí)現(xiàn)高端的決策智能為目標(biāo)，而知識圖譜雖然也被用來實(shí)現(xiàn)大數(shù)據(jù)決策分析（如Plantir），其首要的應(yīng)用目標(biāo)是輔助搜索和智能問答。另外一方面，與傳統(tǒng)專家系統(tǒng)時代主要依靠專家手工獲取知識不同，現(xiàn)代知識圖譜的顯著特點(diǎn)是規(guī)模巨大，無法單一依靠人工和專家構(gòu)建。傳統(tǒng)的知識庫，如由Douglas Lenat從1984年開始創(chuàng)建的常識知識庫Cyc僅包含700萬條的事實(shí)描述（Assertion），最新的ConceptNet 5.0也僅包含2800萬RDF三元組關(guān)系描述，而現(xiàn)代知識圖譜已經(jīng)包含超過千億級別的三元組。

知識圖譜的規(guī)模化發(fā)展

現(xiàn)代知識圖譜對知識規(guī)模的要求源于“知識完備性”難題。馮諾依曼曾估計(jì)單個個體的大腦中的全量知識需要2.4*10²⁰個bits來存儲。客觀世界擁有不計(jì)其數(shù)的實(shí)體，人的主觀世界更加包含有無法統(tǒng)計(jì)的概念，這些實(shí)體和概念之間又具有更多數(shù)量的復(fù)雜關(guān)系，導(dǎo)致大多數(shù)知識圖譜都面臨知識不完全的困境。在實(shí)際的領(lǐng)域應(yīng)用場景中，知識不完全也是困擾大多數(shù)語義搜索、智能問答、知識輔助的決策分析系統(tǒng)的首要難題。

此專家非彼專家

領(lǐng)域知識圖譜變身“百事通”

領(lǐng)域知識圖譜是相對于通用知識圖譜（如DBPedia、Yago、Wikidata等）而言，面向特定領(lǐng)域的知識圖譜，如電商、金融、醫(yī)療等。相比較而言，領(lǐng)域知識圖譜知識來源更多、規(guī)?；瘮U(kuò)展要求更迅速、知識結(jié)構(gòu)更加復(fù)雜、知識質(zhì)量要求更高、知識的應(yīng)用形式也更加廣泛。

通用知識圖譜與領(lǐng)域知識圖譜的比較

以比較有代表性的金融領(lǐng)域?yàn)槔?。在金融領(lǐng)域，圍繞金融的本體知識建模一直都有不少人在做。在大約10多年前，就有一批做金融信息的結(jié)構(gòu)化描述的人在嘗試構(gòu)建整個金融領(lǐng)域的本體知識模型，其中一直延續(xù)到現(xiàn)在的一項(xiàng)工作是FIBO。他們的目標(biāo)就是希望能夠定義整個金融域的規(guī)則，并且是采用Top-Down的做法，這是成本非常高昂的工作，而我們現(xiàn)在更多的強(qiáng)調(diào)領(lǐng)域知識圖譜的構(gòu)建應(yīng)該從大量數(shù)據(jù)中去挖掘和總結(jié)。

金融領(lǐng)域比較典型的例子如Kensho采用知識圖譜輔助投資顧問和投資研究，國內(nèi)以恒生電子為代表的金融科技機(jī)構(gòu)以及不少銀行、證券機(jī)構(gòu)等也都在開展金融領(lǐng)域的知識圖譜構(gòu)建工作。金融知識圖譜構(gòu)建主要來源于機(jī)構(gòu)已有的結(jié)構(gòu)化數(shù)據(jù)和公開的公報、研報及新聞的聯(lián)合抽取等。在知識表示方面，金融概念也具有較高的復(fù)雜性和層次性，并較多的依賴規(guī)則型知識進(jìn)行投資因素的關(guān)聯(lián)分析。在應(yīng)用形式方面，則主要以金融問答和投顧投研類決策分析型應(yīng)用為主。金融知識圖譜的一個顯著特點(diǎn)是高度動態(tài)性，且需要考慮知識的時效性，對金融知識的時間維度進(jìn)行建模。

金融知識圖譜特點(diǎn)（細(xì)化到具體層面論述）

此外金融領(lǐng)域還有一些比較適合于做知識圖譜的特點(diǎn)，如文本資源非常豐富，且動態(tài)性非常高。大量高度動態(tài)的新聞、公報、研報都是自動化獲取知識圖譜的有力來源，在這方面，我們可以較為深入應(yīng)用實(shí)體識別、大規(guī)模自動化詞庫構(gòu)建、結(jié)合遠(yuǎn)程監(jiān)督和深度學(xué)習(xí)的關(guān)系抽取等多方面的圖譜構(gòu)建技術(shù)。只要一點(diǎn)一點(diǎn)積累高質(zhì)量的知識圖譜，結(jié)合深度學(xué)習(xí)和自然語言處理等領(lǐng)域的最新進(jìn)展，金融知識圖譜會發(fā)揮出門檻式的重大價值。

結(jié)語

互聯(lián)網(wǎng)促成了大數(shù)據(jù)的集聚，大數(shù)據(jù)進(jìn)而促進(jìn)了人工智能算法的進(jìn)步。新數(shù)據(jù)和新算法為規(guī)?；R圖譜構(gòu)建提供了新的技術(shù)基礎(chǔ)和發(fā)展條件，使得知識圖譜構(gòu)建的來源、方法和技術(shù)手段都發(fā)生極大的變化。知識圖譜作為知識的一種形式，已經(jīng)在語義搜索、智能問答、數(shù)據(jù)分析、自然語言理解、視覺理解、物聯(lián)網(wǎng)設(shè)備互聯(lián)等多個方面發(fā)揮出越來越大的價值。AI浪潮愈演愈烈，而作為底層支撐的知識圖譜賽道也從鮮有問津到緩慢升溫，雖然還談不上擁擠，但作為通往未來的必經(jīng)之路，注定會走上風(fēng)口。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的陈华钧 | 知识图谱构建，将成为智能金融的突破口的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

陈华钧 | 知识图谱构建，将成为智能金融的突破口

總結(jié)