日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

知识图谱如何让智能金融“变魔术”

發(fā)布時間:2025/7/25 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 知识图谱如何让智能金融“变魔术” 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者簡介:?
鮑捷,文因互聯(lián)CEO。Iowa State University博士,研究領(lǐng)域包括神經(jīng)網(wǎng)絡(luò)、信息論、機器學(xué)習(xí)、邏輯與推理、語義網(wǎng)、自然語言處理等。三星S-Voice個人助手個核心設(shè)計者、語義網(wǎng)基礎(chǔ)國際標準OWL2作者之一。?
王叢,文因互聯(lián)CKO。美國Wright State University輟學(xué)博士生,專長知識提取、本體建模、語義推理。曾參與歐盟的大規(guī)模知識加速器項目、愛爾蘭DERI研究中心RDF規(guī)則推理系統(tǒng)等項目。?
本文為《程序員》原創(chuàng)文章,未經(jīng)允許不得轉(zhuǎn)載,更多精彩文章請訂閱2017年《程序員》

什么是智能金融

智能金融,顧名思義,就是人工智能在金融領(lǐng)域的應(yīng)用。智能金融還是一個比較新的方向,整體上還處于探索的階段。首先,我們需要澄清它和其他一些概念如金融科技、互聯(lián)網(wǎng)金融的區(qū)別。

過去幾年來,“金融科技”(Fintech)成為一個熱門詞。但是大部分的金融科技產(chǎn)品,例如銀行借貸、券商研究、早期投資、對沖基金、外匯支付等還是停留在對金融信息獲取、統(tǒng)計量化模型、交易完成的信息技術(shù)(IT)保障上。智能金融則再進一步,試圖用機器學(xué)習(xí)、知識表現(xiàn)等人工智能的分支來做決策支持。

智能金融也要和“互聯(lián)網(wǎng)金融”區(qū)分開來。互聯(lián)網(wǎng)金融(互金)是現(xiàn)在大家提到“金融科技”時最容易想到的,在國內(nèi)幾乎成了“P2P”的代名詞。互聯(lián)網(wǎng)金融關(guān)注的是把交易行為或者獲客渠道搬到互聯(lián)網(wǎng)上來,其中會有一些智能的應(yīng)用,但總的來說還是傳統(tǒng)人力服務(wù)的互聯(lián)網(wǎng)化,和“智能金融”的差距很大。

智能金融也借力于金融科技和互聯(lián)網(wǎng)金融的發(fā)展。金融機構(gòu)開始相信技術(shù)的價值不僅僅是依賴經(jīng)驗和人脈,一些統(tǒng)計算法(如時間序列分析)的成功也為更智能算法的應(yīng)用起到了教育、冷啟動市場的作用。大量的金融數(shù)據(jù)互聯(lián)網(wǎng)化也提供了智能金融不可或缺的訓(xùn)練數(shù)據(jù)。

智能金融現(xiàn)在中國市場上最常見的是征信,這和互聯(lián)網(wǎng)金融的發(fā)展息息相關(guān)。個人征信可能有上千家在做;企業(yè)征信也在起步,最初步的是各種工商注冊數(shù)據(jù)處理。在美國,我們接觸較多的有兩個領(lǐng)域,一個是傳統(tǒng)大銀行里的數(shù)據(jù)分析,另一個是交易策略的生成,類似橋水(Bridgewater)、Kensho在做的。當然人工智能分支很多,其他的分支和金融的結(jié)合也有很多應(yīng)用,如圖1所示。


圖1 智能金融的內(nèi)涵

據(jù)我們了解,這些機構(gòu)里的人工智能,可以分為機器學(xué)習(xí)和語義分析兩大塊。從算法層面講沒有什么太過神奇的東西,很多都是十幾年前就知道的方法。不管是征信還是策略生成,或者信息挖掘,基本都可以映射到“語義數(shù)據(jù)集成”這個經(jīng)典的老問題上,進步一些的就是語義搜索。當然解決這個問題也不簡單,需要機器學(xué)習(xí)、數(shù)據(jù)庫、本體和知識庫等多種方法的混合應(yīng)用。所以當前智能金融公司招聘的人才,主要是這樣的人。

智能金融能否“變魔術(shù)”

就如何在國內(nèi)展開智能金融應(yīng)用,我們接觸了很多金融界人士,包括風(fēng)投、孵化器、券商、私募、銀行、交易所、研究所、監(jiān)管機構(gòu)等等,涉及的問題有行業(yè)研究、企業(yè)研究、盡職調(diào)查、交易撮合、并購、投資顧問、理財顧問、個人征信、企業(yè)征信、風(fēng)險控制、系統(tǒng)風(fēng)險防范等諸多領(lǐng)域。盡管金融面臨的具體問題千差萬別,但總的來說集中在“價值判斷”和“風(fēng)險評估”兩個大方面。

但是如何做價值判斷和風(fēng)險評估,就是見仁見智的問題,沒有統(tǒng)一的方法,甚至有時候看起來純粹是“拍腦門”。比如并購業(yè)務(wù)怎么找到合適的殼公司,有一個經(jīng)驗?zāi)P褪恰叭昼娬覛しā?#xff0c;包括七八項判斷標準,其中一條是實際控制人應(yīng)該是大學(xué)畢業(yè)、40-50歲之間。這有什么道理?但是在一些場景上可能就是有意義的。再如一位VC合伙人,判斷是否投資一個項目,基本上5分鐘就可以憑直覺做出,只看商業(yè)計劃書里的三五頁、項目的來源和誰在背書,很快做最終的決定。

乍看起來一點也不“理性”的決策流程,其實是很有道理的。金融決策的特點是涉及的因素實在是太多了。金融產(chǎn)品可能是最復(fù)雜的商品,一份股轉(zhuǎn)書有兩百多頁,還有大量的年報、半年報、研究報告、公告、反饋意見、盡職調(diào)查結(jié)果……但很少有人是看了這幾百頁的材料再做決定的,往往就憑經(jīng)驗和人脈,直接“變魔術(shù)”,做出決定。

機器能不能也“變魔術(shù)”,替代人做出價值判斷和風(fēng)險評估呢?市場上不乏這樣的探索者。但是深入理解金融和人工智能的人會知道,人工智能和市場研究員搶飯碗的擔(dān)心在短期內(nèi)是多余的——雖然長期看可能會發(fā)生。

金融數(shù)據(jù)發(fā)展的五個階段

我們認為,想讓機器“變魔術(shù)”,要依次解決五個問題(每一個問題都依賴前一個問題的解決)。現(xiàn)在我們依靠人“變魔術(shù)”,是因為這個五個問題(特別是后面的問題)還沒有完善的解決方案,還需要人的經(jīng)驗和人脈(信任、背書)來引導(dǎo)。但是每一個問題的解決,都可以更多地利用機器的力量,獲得更智能的工具來做出價值判斷和風(fēng)險評估,人則有更多的時間去做只有人才能獲得的“洞察”(insights)。

第一個問題是從物理世界獲得數(shù)字化的數(shù)據(jù)。大多數(shù)買方和賣方的數(shù)據(jù),其實是很難被機器、甚至人去訪問的。很多時候還是需要人面對面的交談、親臨現(xiàn)場的訪問,才能得到?jīng)Q策的依據(jù),甚至僅僅是獲得一個行業(yè)里中小企業(yè)的名錄都是很困難的事。現(xiàn)在有了新三板系統(tǒng),有了巨潮網(wǎng)上的信息披露,數(shù)據(jù)獲取成本才降下來,并使后續(xù)的機器處理成為可能。最近股轉(zhuǎn)系統(tǒng)要求券商留掛牌過程中的電子底稿,長遠看就是特別有意義的事。

第二個問題是從“臟數(shù)據(jù)”中獲得“干凈數(shù)據(jù)”。數(shù)字化數(shù)據(jù)中依然有大量的“臟數(shù)據(jù)”,例如新三板披露材料中有1/4是掃描件,大量的公告是不規(guī)范的PDF文件,難以做文本處理,大量的財務(wù)數(shù)據(jù)用不規(guī)范的表格展示。至于網(wǎng)上千差萬別的新聞數(shù)據(jù)、研究報告就更“臟”了,很多數(shù)據(jù)(如財務(wù)、股權(quán)結(jié)構(gòu)、股東結(jié)構(gòu))隱藏在圖片中,難以提取、統(tǒng)計、匯總、比較。XBRL(金融數(shù)據(jù)結(jié)構(gòu)化)報表只解決了一小部分問題,而且還沒有對公眾開放。現(xiàn)在各家機構(gòu)都在用實習(xí)生、初級研究員做這些數(shù)據(jù)的提取工作,極為浪費人力。

第三個問題是從數(shù)據(jù)中辨認金融“實體”。實體(entity)包括企業(yè)、投資機構(gòu)、人(高管、股東、投資人、合伙人等)、行業(yè)、產(chǎn)品、事件、案例、法規(guī)等等。數(shù)據(jù)不僅是一堆漢字和數(shù)字的組合,一次定增公告里會提到項目、產(chǎn)品、定增對象(人或者機構(gòu)),供應(yīng)商和收入來源里會提到上下游企業(yè),投資人簡歷里會提到學(xué)歷和以前的職務(wù)。這些實體和它們的屬性往往很有價值。例如一家券商曾委托我們篩選股東里不含契約型基金的公司、在江浙地區(qū)的投資基金等等,這就需要我們不僅把股東、基金的名字看成字符串,而且要理解它是什么樣的機構(gòu)、有哪些地域?qū)傩浴⒎诸悓傩缘取_@些數(shù)據(jù)分散在很多地方,如股轉(zhuǎn)系統(tǒng)、工商網(wǎng)站、行業(yè)協(xié)會、機構(gòu)官網(wǎng)。只有做好實體的識別,才能把這些信息串起來。

第四個問題是發(fā)現(xiàn)金融實體之間的深入關(guān)系,形成“知識圖譜”。金融決策需要的洞察,往往不是一眼能看出來的。例如投資公司對企業(yè)的投資,往往通過各種子公司和“殼”來完成,僅僅依賴股東披露或工商注冊信息(包括子公司、孫公司的工商信息)是不夠的,還需要一些規(guī)則和數(shù)據(jù)挖掘來發(fā)現(xiàn)隱藏得很深的關(guān)系。我們曾對一家投資公司做了個案研究,發(fā)現(xiàn)單純從披露數(shù)據(jù)和工商數(shù)據(jù),只能獲得一半的投資事件,而通過深度規(guī)則挖掘,才能獲得比較完整的投資組合。此外如行業(yè)對標關(guān)系、行業(yè)上下游關(guān)系、供應(yīng)鏈關(guān)系、股權(quán)變更歷史、定增與重大資產(chǎn)重組的關(guān)系、多張財務(wù)報表之間的數(shù)據(jù)交叉驗證,都需要深入關(guān)聯(lián)來自多個源頭、多個時期、多個企業(yè)之間的數(shù)據(jù)關(guān)系。

第五個問題是在知識圖譜的基礎(chǔ)上表達業(yè)務(wù)邏輯。掛牌、定增、并購、對沖、二級市場交易等等,每一個業(yè)務(wù)場景都會有自身的邏輯。我們遇到很多研究員、投資總監(jiān)在學(xué)習(xí)Python、R、Matlab,因為他們痛感自己腦子里的邏輯,難以用文字或者Excel表格表達出來,市場上也沒有一個好用的工具,幫助他們在數(shù)據(jù)的基礎(chǔ)上把被驗證有效的業(yè)務(wù)邏輯清晰地表達出來,以免總是要做簡單重復(fù)勞動。邏輯的表達可能是看數(shù)據(jù)的一些方式、處理數(shù)據(jù)的一些規(guī)則、展示數(shù)據(jù)的一些模板。一旦可以把邏輯數(shù)字化,一些比較初級的價值判斷和風(fēng)險評估就可以由機器來做了。

解決了這五個問題,我們就擁有了“變魔術(shù)”的有力道具,如圖2所示。當然,這并不是說,我們需要把這五個問題都解決了,機器才能輔助人來“變魔術(shù)”。每個層次都可以比之前的層次更能幫助人快速發(fā)現(xiàn)洞察、做出判斷。每多一些機器的輔助,人就可以更好地集中精力去完成機器不擅長的工作,當好“魔術(shù)師”的角色。


圖2 金融數(shù)據(jù)發(fā)展的五個階段

那么,當前這個階段,技術(shù)發(fā)展到了哪一步呢?就金融領(lǐng)域的應(yīng)用而言,我們認為美國領(lǐng)先中國很多。如表1所示,美國在各個層面都有相應(yīng)的服務(wù)提供商,而中國僅僅在干凈數(shù)據(jù)層面有了成熟的解決方案。在實體數(shù)據(jù)層面,中國還只是剛剛開始(如一些行業(yè)數(shù)據(jù)庫和工商信息服務(wù)商),而美國七八年前就已經(jīng)有了成熟的服務(wù)。再往上的圖譜數(shù)據(jù)和業(yè)務(wù)邏輯,中國基本還沒有對應(yīng)的服務(wù)者。不過也需要指出,業(yè)務(wù)邏輯和“魔術(shù)”的層面,美國金融領(lǐng)域的嘗試也是初步的,現(xiàn)在還很難說已經(jīng)走通了。


表1 不同層級的智能金融服務(wù)提供商

總結(jié)來說,美國的成熟行業(yè)前沿(state of the art)在圖譜數(shù)據(jù)層面,而中國在干凈數(shù)據(jù)層面。

因此,我們認為,當前中國的金融智能化,應(yīng)該聚焦于基礎(chǔ)數(shù)據(jù)的實體化和圖譜化,讓數(shù)據(jù)更可信、更好用、更容易被發(fā)現(xiàn)和獲得。

分析層面的技術(shù)應(yīng)用

數(shù)據(jù)發(fā)展的5個階段,也可以從分析的角度來看。數(shù)據(jù)質(zhì)量的提升,依賴于不同層面分析方法的應(yīng)用,總體如表2所示。


表2 金融數(shù)據(jù)圖譜化的分析技術(shù)

1 . 首先是基礎(chǔ)數(shù)據(jù)的可訪問性。這是其他一切事情的基礎(chǔ)。基礎(chǔ)數(shù)據(jù)如果被封閉在部門的高墻里,或者封閉在Excel表格、PDF文件、專用的數(shù)據(jù)終端里,我們不得不花費很多人力和時間去復(fù)制、粘貼,甚至進行手工錄入這種高度浪費人力的工作。此外現(xiàn)在是移動時代,人們在手機上經(jīng)常需要做一些快速的輕量級的信息處理,傳統(tǒng)的金融數(shù)據(jù)工具都太重,可訪問性不好。

提高可訪問性的主要技術(shù)手段是把數(shù)據(jù)轉(zhuǎn)化為“鏈接數(shù)據(jù)”(linked data),就是方便在Web上訪問和相互鏈接的數(shù)據(jù)。里面涉及爬蟲、PDF文本化、表格提取、圖像OCR、文本清理等技術(shù),也利用JSON/REST API或者新一代的語義數(shù)據(jù)接口(如RDF和JSON-LD),提供不同應(yīng)用之間跨平臺的對接。

2 . 數(shù)據(jù)的可發(fā)現(xiàn)性。金融數(shù)據(jù)的問題不是數(shù)據(jù)太少,而是數(shù)據(jù)太多。怎么從紛繁蕪雜的數(shù)據(jù)里找到少數(shù)真正有價值的數(shù)據(jù)?怎么快速定位只是模模糊糊有點印象的數(shù)據(jù)?這些是后續(xù)分析的基礎(chǔ)——因為金融分析一定是人和機器協(xié)作的過程,不是機器有個銀彈算法就能搞定的,一定要提高對人友好的數(shù)據(jù)可發(fā)現(xiàn)性。

可發(fā)現(xiàn)性主要是利用語義搜索引擎和探索引擎。金融搜索引擎的背后核心技術(shù)是高質(zhì)量的知識圖譜和大量的業(yè)務(wù)規(guī)則,幫助實現(xiàn)聯(lián)想、屬性查找、短程關(guān)系發(fā)現(xiàn)。探索引擎,如分面瀏覽器,也是在知識圖譜的基礎(chǔ)上,則提供了人機協(xié)作的界面,讓人對數(shù)據(jù)的探索過程可以很方便地被記錄、迭代、重用。此外推薦系統(tǒng)和推送系統(tǒng)也非常有用,幫助金融用戶聚焦在關(guān)鍵數(shù)據(jù)上,更省時省力地做投前發(fā)現(xiàn)和投后跟蹤。

3 . 數(shù)據(jù)深度關(guān)系的發(fā)現(xiàn)。找到那些人力根本看不出來的關(guān)系。人最多能看一兩百個維度,機器可以看成千上萬個維度。比如一個企業(yè)的重大風(fēng)險提示和當前發(fā)生的新聞事件之間的關(guān)系,人力是很難監(jiān)控和判斷這么多企業(yè)的那么多相關(guān)動態(tài)的,機器可以幫助我們。

這一部分依賴的技術(shù)主要是各種自然語言理解的方法,特別是關(guān)系抽取(Relation Extraction)。此外知識推理的方法也非常有用,通過推理規(guī)則可以發(fā)現(xiàn)隱藏得很深的關(guān)系。

4 . 領(lǐng)域知識的集成。金融涉及國民經(jīng)濟各個領(lǐng)域,官方分了一百多個領(lǐng)域只是為了管理的方便,真正可用的領(lǐng)域大概有幾百個。這些領(lǐng)域都或多或少需要集成領(lǐng)域的知識。不管是投資有色金屬還是珠寶,領(lǐng)域的關(guān)鍵概念、產(chǎn)品分類、關(guān)鍵人物、市場競爭情況等,都需要梳理。

這一部分用到的主要技術(shù)是領(lǐng)域知識庫或“本體”(ontology)的構(gòu)造和對齊,有文檔結(jié)構(gòu)分析、篇章分割、常用詞和新詞發(fā)現(xiàn)、中文分詞、實體提取、實體消歧、實體鏈接、實體對齊、關(guān)系提取、本體學(xué)習(xí)、規(guī)則建立、本體映射等流程。另外常識知識庫如Freebase、DBPedia、Wikidata也是有用的。

5 . 金融業(yè)務(wù)知識的集成。并購、征信、融資、資管、對沖、二級市場交易等等,在每一個具體的業(yè)務(wù)場景上,都需要業(yè)務(wù)邏輯,然后在基礎(chǔ)數(shù)據(jù)和領(lǐng)域知識的基礎(chǔ)上表達這個邏輯。并購找殼有邏輯,股票日內(nèi)交易預(yù)警有邏輯,這些邏輯要在數(shù)據(jù)之上表達為模型。需要一個系統(tǒng)來方便金融人士表達這些模型、重用這些模型、學(xué)習(xí)這些模型。

這一部分主要是用到知識建模和推理的技術(shù)。例如Palantir提供了一個“本體編輯器”來幫助金融人士來表達他們對數(shù)據(jù)的理解,把數(shù)據(jù)探索的過程表達為可重用的模型。此外我們通常也會利用可視化技術(shù)來提高從業(yè)者的工作效率。

6 . 策略的生成。到了最高的層面,就又是“魔術(shù)”了,機器輔助我們做出了價值判斷、風(fēng)險判斷,通過過往的案例或者既定的邏輯,提供給我們可行的策略,或者策略的決策依賴點。

這個層面可以說是人工智能技術(shù)的集大成。從用戶交互角度有意圖理解、查詢生成、自然語言生成、用戶畫像、記憶匹配等;從數(shù)據(jù)層面有與情分析、規(guī)則提取、知識庫檢索、推理機、查詢分解和優(yōu)化、多渠道證據(jù)收集和置信度分析等;從業(yè)務(wù)層面有財務(wù)模型、投資模型、風(fēng)險模型、相關(guān)度建模、邏輯生成等。

系統(tǒng)設(shè)計

上文說的數(shù)據(jù)問題和分析問題,需要很大的投入才能構(gòu)造出完整可用的系統(tǒng)。沒有底層的基礎(chǔ)的工作,就想跳到“魔術(shù)”的層面,是不切實際的。當然,這并不意味著底層的工作、中間步驟本身就沒有實用價值。比如僅僅是基礎(chǔ)的實體數(shù)據(jù),解決它們的跨平臺的可訪問性和可發(fā)現(xiàn)性,就能解放很多人力出來。中國的很多金融機構(gòu)都在用實習(xí)生和初級分析師做簡單重復(fù)勞動,復(fù)制粘帖這些數(shù)據(jù),這是迫切需要改變的。我們從知識圖譜的四個層面來探討如何設(shè)計系統(tǒng):

  • 知識提取:垂直領(lǐng)域的知識提取很難復(fù)用(提取主營業(yè)務(wù)的代碼沒法用在提取上下游關(guān)系中),每一個信息點的提取成本都不低,首先要清楚的就是信息的重要程度以及需要的粒度。用于搜索只需要段落級別的提取,而做深層關(guān)聯(lián)才需要準確的實體提取。此外,知識提取是需要開發(fā)一些輔助工具來提高效率的,最簡單的是文本檢索系統(tǒng),可以用Elasticsearch快速開發(fā),幫助開發(fā)人員定位信息所在的大致段落,再針對這些段落提取;還可以開發(fā)一些簡單的交互工具,幫助非開人員來進行標注。提取的過程中要順帶建立詞庫,這個詞庫不僅可以提高提取的精度,也會用于后續(xù)的知識分析和知識檢索。知識提取是個反復(fù)優(yōu)化的過程,要開拓思路,玩轉(zhuǎn)各個NLP工具,聯(lián)系親朋好友求取詞袋,不能一味死摳正則。
  • 知識存儲:目前的圖數(shù)據(jù)庫都有不同方面的不足,如Neo4j性能低下,基于RDF的Triple Stores需要高昂的學(xué)習(xí)成本,Titan盡管性能優(yōu)異但目前已無社區(qū)維護,而有潛力的Spark GraphX則剛剛起步,各方面接口還不完善。所以,維護一個在線的圖數(shù)據(jù)庫可能會出現(xiàn)各式各樣的問題,我們建議使用傳統(tǒng)的PostgreSQL作為主數(shù)據(jù)庫,穩(wěn)定、高效,并且支持JSON這種弱Scheme格式。傳統(tǒng)數(shù)據(jù)庫很難處理復(fù)雜的圖查詢與推理,對此需要一個離線的圖數(shù)據(jù)庫做計算,計算完成后再將結(jié)果Push回主數(shù)據(jù)庫。
  • 知識分析:知識分析包含很多環(huán)節(jié),比如實體對齊,兩個同名同姓的人需要通過簡歷信息匹配到彼此;比如關(guān)系挖掘,企業(yè)間需要通過主營業(yè)務(wù)建立上下游關(guān)系或是競爭關(guān)系。基本的圖關(guān)系建立好后,復(fù)雜的推理則由具體的業(yè)務(wù)邏輯驅(qū)動,一個推理可以轉(zhuǎn)化成一個復(fù)雜的查詢語句,并且用一種人們易懂的語法結(jié)構(gòu)維護,直接將業(yè)務(wù)邏輯寫到代碼中會帶來后續(xù)的維護困難。
  • 知識檢索:檢索效果的好壞取決于前面的數(shù)據(jù)處理結(jié)果,但從一開始設(shè)計時就要留出人工修改的接口,能方便地直接將Query映射到搜索結(jié)果,一個優(yōu)秀的搜索系統(tǒng)需要大量的人工優(yōu)化。通常新的搜索引擎面臨冷啟動的問題,沒什么用戶數(shù)據(jù),無法分析要優(yōu)化哪些詞,這時可以考慮用相同垂直領(lǐng)域的其他網(wǎng)站作為語料,取其高頻詞;甚至可以詢問百度、Google內(nèi)部人員了解熱搜詞。

結(jié)語

金融和所有其他領(lǐng)域一樣,遲早要被互聯(lián)網(wǎng)滲透,被人工智能滲透。現(xiàn)在我們靠經(jīng)驗和人脈來做出很多決策,是在數(shù)據(jù)不足、分析能力低下的情況下不得不做的妥協(xié)。經(jīng)驗和人脈以后依然很重要,但是我們會越來越多地依靠機器的幫助。不同于AlphaGo能超越圍棋人類冠軍,金融輔助判斷工具超過最優(yōu)秀的投資人還比較困難,但是人工智能可以提供大量的輔助決策工具,讓投資人在形成邏輯鏈條的過程中,更容易地獲得數(shù)據(jù)和分析層面的支持,大大提高工作效率。

在整個技術(shù)鏈條中,知識圖譜居于核心的地位,可以說是金融報表電子化(以XBRL為代表)以來又一次質(zhì)的飛躍。知識圖譜是金融數(shù)據(jù)分析從簡單的量化模型走向更為復(fù)雜的價值判斷和風(fēng)險評估必經(jīng)的一環(huán),是把人的經(jīng)驗和人脈逐步變成可重用、可演化、可驗證、可傳播的知識模型的方法。在系統(tǒng)的構(gòu)造中,知識圖譜彌補原有數(shù)據(jù)庫的不足,把機器學(xué)習(xí)、自然語言處理、深度學(xué)習(xí)這些知識提取方法,領(lǐng)域詞表、分類樹、詞向量、本體這些知識表現(xiàn)方法,RDF數(shù)據(jù)庫和圖數(shù)據(jù)庫這些知識存儲方法,和語義搜索、問答系統(tǒng)、分面瀏覽器這些知識檢索方法粘合在一起,提供金融智能化的工具集。

上文提到了推進金融智能化的一些問題,但這并不是說智能金融要在遙遠的將來才能實現(xiàn)。其實基礎(chǔ)的算法都是很常見的,過去15年的語義網(wǎng)、互聯(lián)數(shù)據(jù)、知識圖譜的發(fā)展,也為我們準備了大量的底層數(shù)據(jù)、開源工具(如圖數(shù)據(jù)庫、檢索引擎、NLP工具)。現(xiàn)在這個領(lǐng)域到了一個轉(zhuǎn)折點——智能金融需要把多種已經(jīng)比較成熟的人工智能工具結(jié)合起來,具體來說就是知識提取、知識表示、知識存儲和知識檢索這幾個不同的分支,按工程不同階段的需要象繡花一樣配合好,在應(yīng)用場景上落地——這種結(jié)合的條件,目前已經(jīng)成熟了。

總結(jié)

以上是生活随笔為你收集整理的知识图谱如何让智能金融“变魔术”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。