领域应用 | 人工智能+知识图谱:如何规整海量金融大数据?
本文轉(zhuǎn)載自公眾號:恒生技術(shù)之眼。
21世紀(jì)以來,人類社會信息資源的開發(fā)范圍持續(xù)擴(kuò)大,經(jīng)濟(jì)、社會信息隨著經(jīng)濟(jì)活動(dòng)加劇得到空前的開發(fā),信息資源總量呈爆炸式增長,我們從最初的“信息匱乏”一步踏入到“信息過量”時(shí)代。
個(gè)人如此,行業(yè)亦然:隨著大數(shù)據(jù)應(yīng)用的不斷發(fā)展,金融機(jī)構(gòu)的經(jīng)營決策、營銷服務(wù)越來越依賴于諸如新聞輿情、企業(yè)信用、熱點(diǎn)概念等企業(yè)外部數(shù)據(jù),而這些數(shù)據(jù)的應(yīng)用場景也愈加需要與金融機(jī)構(gòu)內(nèi)部的數(shù)據(jù)打通,形成數(shù)據(jù)融合計(jì)算。再加上人工智能的異軍突起,大量非結(jié)構(gòu)化數(shù)據(jù)正在被人工智能結(jié)構(gòu)化掉,隱藏在文檔中的信息價(jià)值正在不斷的被“機(jī)器”發(fā)現(xiàn)并加以大規(guī)模的使用,大數(shù)據(jù)、人工智能讓金融機(jī)構(gòu)的數(shù)據(jù)治理工作又重新回到了“混亂”的起點(diǎn)。面向人工智能的大數(shù)據(jù)治理,已經(jīng)成為金融IT向金融DT轉(zhuǎn)型所必須面對的一個(gè)嚴(yán)峻課題。
人工智能的應(yīng)用現(xiàn)狀
在筆者看來,人工智能就是一種數(shù)據(jù)服務(wù)能力,智能金融本質(zhì)上就是金融DT服務(wù),發(fā)展人工智能就等于發(fā)展數(shù)據(jù)技術(shù),人工智能系統(tǒng)智能化程度的高與低,與數(shù)據(jù)處理能力正相關(guān)。為了方便說明這一論點(diǎn),我們先來看看金融機(jī)構(gòu)在人工智能領(lǐng)域所做的各種探索和嘗試。
?
人臉識別作為最早的人工智能技術(shù)在金融機(jī)構(gòu)各種需要身份驗(yàn)證的應(yīng)用場景中得到廣泛的應(yīng)用,早在3年前遠(yuǎn)程開戶、網(wǎng)上營業(yè)廳等業(yè)務(wù)就已經(jīng)在金融機(jī)構(gòu)中逐步展開,這是人工智能進(jìn)入金融領(lǐng)域比較早的案例。現(xiàn)如今智能客服也已成了一個(gè)極佳的人工智能的切入點(diǎn):首先通過智能語音技術(shù)將客戶的語音轉(zhuǎn)化為文字,然后用自然語言處理NLP技術(shù)進(jìn)行解析,識別用戶意圖,最后用用智能問答形式給與相關(guān)的解答和服務(wù)。
?
智能客服在大幅降低人工客服的服務(wù)壓力的同時(shí),還能有效提升服務(wù)品質(zhì)和服務(wù)效率,這對那些面臨大量客服工作的大型金融機(jī)構(gòu)來說還是非常有吸引力的。還有一部分金融機(jī)構(gòu)以產(chǎn)業(yè)鏈知識圖譜為其人工智能的著眼點(diǎn),構(gòu)建上市公司及其產(chǎn)品服務(wù)的上下游關(guān)系,再通過追蹤監(jiān)控新聞、事件、輿情在產(chǎn)業(yè)鏈中的傳導(dǎo)效應(yīng),形成具體的投研策略。產(chǎn)業(yè)鏈技術(shù)延伸出去就會形成智能投研、智能資管、智能風(fēng)控等智能金融業(yè)務(wù),這類人工智能技術(shù)更加貼合金融機(jī)構(gòu)的金融業(yè)務(wù)的用戶場景。也有金融機(jī)構(gòu),索性把人工智能當(dāng)作自己的貼身秘書來使用,各類新聞、公告、年報(bào)的解讀全部交給了人工智能,通過自然語言處理技術(shù),提取公告中的財(cái)務(wù)數(shù)字,做自動(dòng)摘要,形成正負(fù)面相關(guān)性的分析。這類數(shù)據(jù)通過人工智能技術(shù)預(yù)處理后,大量信息被提煉出來,結(jié)合部分人工審核和校對,基本上也可以上生產(chǎn)了。
數(shù)據(jù)智能服務(wù):從感知到認(rèn)知
有人把人工智能的發(fā)展分為三個(gè)階段:計(jì)算智能、感知智能、認(rèn)知智能,對應(yīng)的DT服務(wù)的發(fā)展就是數(shù)據(jù)從信息向知識演化并最終生長為數(shù)據(jù)智能的演變過程。當(dāng)前大部分金融機(jī)構(gòu)的人工智能還停留在感知智能向認(rèn)知智能轉(zhuǎn)化這個(gè)階段,而主要工作場景還是在感知這一領(lǐng)域,所謂感知智能就是就是能聽能說,具備一定的表達(dá)能力。很顯然,人臉識別是圖像視頻這類非結(jié)構(gòu)化數(shù)據(jù)的特征結(jié)構(gòu)化的結(jié)果,這是讓機(jī)器看懂人的圖像;智能客服仰仗的是NLP的分詞和意圖識別能力,支撐問答系統(tǒng)的是強(qiáng)大的知識庫和知識圖譜技術(shù),這是讓機(jī)器理解人的語言;產(chǎn)業(yè)鏈知識圖譜主要是傳統(tǒng)三方資訊關(guān)系型數(shù)據(jù)轉(zhuǎn)變?yōu)镽DF三元組的一種數(shù)據(jù)存儲形態(tài)的改變;各類新聞公告年報(bào)等的報(bào)告信息提取與加工,代表著非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化的一個(gè)過程,這是讓機(jī)器替代人腦去讀懂文檔。
?
發(fā)展人工智能,光有感知能力顯然是不夠的,最終要能夠具備認(rèn)知推理的能力,從學(xué)術(shù)界看這個(gè)問題,有兩條路可以走,一個(gè)是機(jī)器學(xué)習(xí),一個(gè)是符號推理。機(jī)器學(xué)習(xí)大家都比較理解了,尤其是深度學(xué)習(xí)技術(shù)已經(jīng)讓語音識別、視頻影響處理的能力超越了人類大腦的能力。符號推理,走的是另外一條路,最早指的就是專家系統(tǒng),大量的知識被存儲管理起來,用于檢索,現(xiàn)如今,符號推理,是借助語義網(wǎng)絡(luò)知識管理進(jìn)行圖分析挖掘的一種能力。符號推理在當(dāng)前工業(yè)界落地的就是指知識圖譜,基于RDF三元組存儲的知識圖譜,可以存儲管理人類已有的各類知識,而這些知識又因?yàn)槭且环N實(shí)體關(guān)系屬性的圖表達(dá),所以基于圖的分析挖掘,表現(xiàn)出來的就是知識發(fā)現(xiàn)和推理的一種能力。
?
在我國金融行業(yè),因?yàn)榇髷?shù)據(jù)本身的積累不夠,做過標(biāo)注的金融數(shù)據(jù)語料更加匱乏,所以造成一個(gè)結(jié)果,就是在金融行業(yè),面向具體金融業(yè)務(wù)場景的機(jī)器學(xué)習(xí)的數(shù)據(jù)是不夠的,更加談不上深度學(xué)習(xí)了,結(jié)果就是基于機(jī)器學(xué)習(xí)的認(rèn)知智能的發(fā)展必然受限。這里最直接的表現(xiàn)就是我們發(fā)現(xiàn)所有金融應(yīng)用場景里,適合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的場景,是比較少的。很多機(jī)器學(xué)習(xí)不得不為NLP、知識圖譜這種細(xì)節(jié)場景服務(wù),或者機(jī)器學(xué)習(xí)和金融工程整合在一起,而主體還是金融工程,機(jī)器學(xué)習(xí)目前只是一種輔助工具,充其量就是多因子的一個(gè)加工手段而已。究其原因是金融行業(yè)業(yè)務(wù)相關(guān)的大數(shù)據(jù)的體系還沒有完全構(gòu)造出來。應(yīng)用場景的數(shù)據(jù)還沒有得到有效沉淀。
?
而符號推理在金融行業(yè)會有所不同,我們知道金融服務(wù)本質(zhì)上就是一種信息服務(wù),而金融對上市公司的公告、年報(bào)、新聞等等的資訊數(shù)據(jù)是天然敏感的,大多數(shù)玩金融的人,都是從處理這些信息開始的。很多行業(yè)研究員為了能夠建立自己的競爭力,領(lǐng)先市場一步,每天加班加點(diǎn)的就是在閱讀分析處理這類資訊數(shù)據(jù)。這類資訊數(shù)據(jù)基本上是一種非結(jié)構(gòu)化形式存在的,三方資訊數(shù)據(jù)廠商通過人工采編的方式能夠結(jié)構(gòu)化掉其中一部分,而大多數(shù)數(shù)據(jù)還是需要人腦加工的。這就給了人工智能應(yīng)用一個(gè)空間,通過自然語言理解NLU,再進(jìn)行自然語言處理NLP,最后通過自然語言生成NLG,有了這幾項(xiàng)技術(shù),再結(jié)合知識圖譜和機(jī)器學(xué)習(xí)的能力,將可以將這類非結(jié)構(gòu)化數(shù)據(jù)的加工結(jié)果進(jìn)行有效反饋。如果我們將NLP加工獲取的金融詞林,進(jìn)一步挖掘獲取的實(shí)體、關(guān)系、屬性、概念、事件等信息,加以整理,建立他們之間的各類關(guān)系,那么一個(gè)基本的金融知識圖譜就構(gòu)造出來了。所以,我們會看到NLP技術(shù)在當(dāng)前的人工智能領(lǐng)域的應(yīng)用已經(jīng)成為了熱點(diǎn),而KG是緊隨其后的一項(xiàng)技術(shù),大量的非結(jié)構(gòu)化數(shù)據(jù)的提取達(dá)到一定的準(zhǔn)確度后,機(jī)器就可以代替人,來完成大規(guī)模知識發(fā)現(xiàn),最終形成知識計(jì)算所需要的“大知識“的數(shù)據(jù)儲備,目前NLP的準(zhǔn)確率還只能到60%上下,具體場景針對性優(yōu)化后才可能到90%以上的水準(zhǔn)。
?
在足夠窄的應(yīng)用領(lǐng)域,NLP技術(shù)通過了實(shí)戰(zhàn)的考驗(yàn)。但面對海量大數(shù)據(jù),基于文檔互聯(lián)的互聯(lián)網(wǎng)體系想要轉(zhuǎn)化為以實(shí)體關(guān)系為主體的語義網(wǎng)絡(luò),還有相當(dāng)長的一段路要走。但我們還是有理由相信以廣義NLP(新視頻文字)技術(shù)為核心的人工智能將會統(tǒng)治相當(dāng)長一段時(shí)間,直到非結(jié)構(gòu)化數(shù)據(jù)的處理不再是問題以及非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)能夠相互融合,那么屆時(shí)行業(yè)知識圖譜、企業(yè)知識圖譜的數(shù)據(jù)準(zhǔn)備也已由點(diǎn)及面的建立起來,基于知識圖譜的人工智能應(yīng)用將大放異彩,金融領(lǐng)域的人工智能也就從感知智能正式過渡到認(rèn)知智能階段。
數(shù)據(jù)的價(jià)值演化
人工智能的發(fā)展本質(zhì)上是數(shù)據(jù)價(jià)值的一個(gè)演化過程。計(jì)算智能對應(yīng)的就是我們看到的多源異構(gòu)大數(shù)據(jù),我們將這些數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)化加載到大數(shù)據(jù)中心后,數(shù)據(jù)變成各類有用的信息。如果我們將信息進(jìn)一步提煉,通過知識構(gòu)建與管理的一系列手段,便可以將信息轉(zhuǎn)化為知識,存儲起來。如果我們按照W3C的知識管理規(guī)范,對知識做RDF三元組的存儲和管理,我們就能構(gòu)造出來一系列的知識圖譜。有了這個(gè)知識圖譜,我們就具備了知識計(jì)算的能力,那么對于一個(gè)具體的金融場景來說,如果我們將金融業(yè)務(wù)場景的業(yè)務(wù)模型結(jié)合知識計(jì)算的能力,以及對大數(shù)據(jù)平臺的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的能力,就可以形成我們的金融大腦。
金融大腦=金融業(yè)務(wù)場景的業(yè)務(wù)模型
? ? ? +知識計(jì)算+機(jī)器學(xué)習(xí)
我們將這類金融大腦,也就是大大小小的智能化場景,開放出去,就形成我們對傳統(tǒng)金融的一個(gè)智能化變革。
面向人工智能的大數(shù)據(jù)治理
從以上的分析中,我們可以明確感覺到人工智能正在迅速改變金融機(jī)構(gòu),金融機(jī)構(gòu)的數(shù)據(jù)計(jì)算的關(guān)注點(diǎn),正在從企業(yè)信息系統(tǒng)內(nèi)部的計(jì)算,轉(zhuǎn)變?yōu)殛P(guān)注來自互聯(lián)網(wǎng)和三方的外部數(shù)據(jù)的計(jì)算和處理上。
多元異構(gòu)數(shù)據(jù)的整合,是未來金融機(jī)構(gòu)將要長期面臨的一個(gè)局面。數(shù)據(jù)難以融合,也就難以做到統(tǒng)一消費(fèi),從非結(jié)構(gòu)化數(shù)據(jù)提取的實(shí)體關(guān)系、屬性等信息,當(dāng)他們不能融合到企業(yè)內(nèi)部經(jīng)營數(shù)據(jù)中去,就會再次形成信息孤島,隨著多元異構(gòu)數(shù)據(jù)的量級不斷攀升,這個(gè)信息孤島將會呈現(xiàn)越來越嚴(yán)重的局面。在人工智能迅猛發(fā)展的今天,如何解決上述問題,是未來企業(yè)競爭中體現(xiàn)出來的核心競爭力之一。
以上所述的問題與挑戰(zhàn),就是我們今天所談到的面型人工智能的大數(shù)據(jù)治理有待解決的問題。那么我們該如何行動(dòng)呢?
第一步:多源異構(gòu)數(shù)據(jù)源的統(tǒng)一管理。首先,我們要對多源異構(gòu)數(shù)據(jù)源進(jìn)行統(tǒng)一管理。這里既包括金融機(jī)構(gòu)內(nèi)部的經(jīng)營數(shù)據(jù),也包括來自三方資訊數(shù)據(jù)廠商的外部數(shù)據(jù),以及來自互聯(lián)網(wǎng)的各種大數(shù)據(jù)。
為了達(dá)到未來的智能化能力,我們需要將金融內(nèi)部的結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)臉I(yè)務(wù)系統(tǒng)數(shù)據(jù)圖譜化,將具有明顯關(guān)系特征的數(shù)據(jù)提取出來,再用這些數(shù)據(jù)對企業(yè)內(nèi)部數(shù)據(jù)通過實(shí)體鏈接、數(shù)據(jù)標(biāo)引等技術(shù)進(jìn)行再組織;同時(shí)我們將三方數(shù)據(jù)中非結(jié)構(gòu)化的那部分PDF、WORD等進(jìn)行知識抽取,也提煉出實(shí)體關(guān)系屬性等數(shù)據(jù)。最后對那些跟金融機(jī)構(gòu)相關(guān)的互聯(lián)網(wǎng)大數(shù)據(jù),通過爬蟲技術(shù)不斷的抓取,并對這些網(wǎng)頁半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,同樣提取其中的實(shí)體關(guān)系和事件信息。
第二步:大數(shù)據(jù)存儲與計(jì)算。對于金融機(jī)構(gòu)而言,無論是采用商業(yè)化的軟件還是開源軟件,都需要一個(gè)大數(shù)據(jù)平臺將來自多源異構(gòu)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行統(tǒng)一管理,可以把這理解為一個(gè)大數(shù)據(jù)中心的建立,只不過這個(gè)數(shù)據(jù)中心的主要構(gòu)建技術(shù)是人工智能的三駕馬車:知識圖譜、NLP、機(jī)器學(xué)習(xí)。我們在大數(shù)據(jù)中心除了保留原始異構(gòu)數(shù)據(jù)源的一份拷貝之外,還要對這些數(shù)據(jù)進(jìn)行面向人工智能的數(shù)據(jù)處理,包括通過NLP進(jìn)行實(shí)體挖掘、關(guān)系抽取、屬性提煉;通過知識圖譜保存NLP提煉出來的具有關(guān)系特征的各種數(shù)據(jù)以及用機(jī)器學(xué)習(xí)來加速這一進(jìn)程的處理效率提升準(zhǔn)確度等。
第三步:構(gòu)造知識圖譜。最后我們需要構(gòu)造金融行業(yè)的一個(gè)知識圖譜,可以是行業(yè)知識圖譜,也可以是企業(yè)圖譜。KG的建設(shè)是有一個(gè)完整的生命周期的,包括知識建模、知識獲取、知識融合、知識計(jì)算以及知識應(yīng)用的全過程。知識建模依賴與金融機(jī)構(gòu)內(nèi)部數(shù)據(jù)和來自三方的結(jié)構(gòu)化數(shù)據(jù),將ER關(guān)系轉(zhuǎn)化為KG的Schema是這一個(gè)工作的重點(diǎn)。構(gòu)造好Schema后,就可以進(jìn)行知識獲取工作了:首先導(dǎo)入關(guān)系型數(shù)據(jù)庫的各類實(shí)體關(guān)系屬性數(shù)據(jù),然后通過知識抽取技術(shù)將各類非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化掉后,將散落在互聯(lián)網(wǎng)大數(shù)據(jù)和三方非結(jié)構(gòu)化數(shù)據(jù)中的知識進(jìn)行整理合并到現(xiàn)有KG中去;接著通過實(shí)體消岐、指代消解等知識融合技術(shù)對KG的質(zhì)量進(jìn)行管理與維護(hù);KG初步建立后,就可以通過圖計(jì)算進(jìn)行知識發(fā)現(xiàn)知識推理和挖掘等工作了。
至此,一個(gè)完整的面向人工智能的數(shù)據(jù)治理工作關(guān)于基礎(chǔ)信息系統(tǒng)層面的建設(shè)就告一段落了。之后如果我們據(jù)此再逐步建立大數(shù)據(jù)大知識(KG)的管理規(guī)范,不斷積累其中的業(yè)務(wù)應(yīng)用模型,那么一個(gè)成熟可拓展的面向人工智能的大數(shù)據(jù)治理成果就會逐步呈現(xiàn)出來。屆時(shí),面向人工智能的大數(shù)據(jù)治理,勢必能有效支撐智能金融從感知智能向認(rèn)知智能的變革。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的领域应用 | 人工智能+知识图谱:如何规整海量金融大数据?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PCA主成分分析学习总结
- 下一篇: distutils.errors.Dis