當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

领域应用 | 人工智能+知识图谱：如何规整海量金融大数据？

發(fā)布時(shí)間：2024/7/5 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了领域应用 | 人工智能+知识图谱：如何规整海量金融大数据？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載自公眾號：恒生技術(shù)之眼。

21世紀(jì)以來，人類社會信息資源的開發(fā)范圍持續(xù)擴(kuò)大，經(jīng)濟(jì)、社會信息隨著經(jīng)濟(jì)活動(dòng)加劇得到空前的開發(fā)，信息資源總量呈爆炸式增長，我們從最初的“信息匱乏”一步踏入到“信息過量”時(shí)代。

個(gè)人如此，行業(yè)亦然：隨著大數(shù)據(jù)應(yīng)用的不斷發(fā)展，金融機(jī)構(gòu)的經(jīng)營決策、營銷服務(wù)越來越依賴于諸如新聞輿情、企業(yè)信用、熱點(diǎn)概念等企業(yè)外部數(shù)據(jù)，而這些數(shù)據(jù)的應(yīng)用場景也愈加需要與金融機(jī)構(gòu)內(nèi)部的數(shù)據(jù)打通，形成數(shù)據(jù)融合計(jì)算。再加上人工智能的異軍突起，大量非結(jié)構(gòu)化數(shù)據(jù)正在被人工智能結(jié)構(gòu)化掉，隱藏在文檔中的信息價(jià)值正在不斷的被“機(jī)器”發(fā)現(xiàn)并加以大規(guī)模的使用，大數(shù)據(jù)、人工智能讓金融機(jī)構(gòu)的數(shù)據(jù)治理工作又重新回到了“混亂”的起點(diǎn)。面向人工智能的大數(shù)據(jù)治理，已經(jīng)成為金融IT向金融DT轉(zhuǎn)型所必須面對的一個(gè)嚴(yán)峻課題。

人工智能的應(yīng)用現(xiàn)狀

在筆者看來，人工智能就是一種數(shù)據(jù)服務(wù)能力，智能金融本質(zhì)上就是金融DT服務(wù)，發(fā)展人工智能就等于發(fā)展數(shù)據(jù)技術(shù)，人工智能系統(tǒng)智能化程度的高與低，與數(shù)據(jù)處理能力正相關(guān)。為了方便說明這一論點(diǎn)，我們先來看看金融機(jī)構(gòu)在人工智能領(lǐng)域所做的各種探索和嘗試。

人臉識別作為最早的人工智能技術(shù)在金融機(jī)構(gòu)各種需要身份驗(yàn)證的應(yīng)用場景中得到廣泛的應(yīng)用，早在3年前遠(yuǎn)程開戶、網(wǎng)上營業(yè)廳等業(yè)務(wù)就已經(jīng)在金融機(jī)構(gòu)中逐步展開，這是人工智能進(jìn)入金融領(lǐng)域比較早的案例。現(xiàn)如今智能客服也已成了一個(gè)極佳的人工智能的切入點(diǎn)：首先通過智能語音技術(shù)將客戶的語音轉(zhuǎn)化為文字，然后用自然語言處理NLP技術(shù)進(jìn)行解析，識別用戶意圖，最后用用智能問答形式給與相關(guān)的解答和服務(wù)。

智能客服在大幅降低人工客服的服務(wù)壓力的同時(shí)，還能有效提升服務(wù)品質(zhì)和服務(wù)效率，這對那些面臨大量客服工作的大型金融機(jī)構(gòu)來說還是非常有吸引力的。還有一部分金融機(jī)構(gòu)以產(chǎn)業(yè)鏈知識圖譜為其人工智能的著眼點(diǎn)，構(gòu)建上市公司及其產(chǎn)品服務(wù)的上下游關(guān)系，再通過追蹤監(jiān)控新聞、事件、輿情在產(chǎn)業(yè)鏈中的傳導(dǎo)效應(yīng)，形成具體的投研策略。產(chǎn)業(yè)鏈技術(shù)延伸出去就會形成智能投研、智能資管、智能風(fēng)控等智能金融業(yè)務(wù)，這類人工智能技術(shù)更加貼合金融機(jī)構(gòu)的金融業(yè)務(wù)的用戶場景。也有金融機(jī)構(gòu)，索性把人工智能當(dāng)作自己的貼身秘書來使用，各類新聞、公告、年報(bào)的解讀全部交給了人工智能，通過自然語言處理技術(shù)，提取公告中的財(cái)務(wù)數(shù)字，做自動(dòng)摘要，形成正負(fù)面相關(guān)性的分析。這類數(shù)據(jù)通過人工智能技術(shù)預(yù)處理后，大量信息被提煉出來，結(jié)合部分人工審核和校對，基本上也可以上生產(chǎn)了。

數(shù)據(jù)智能服務(wù)：從感知到認(rèn)知

有人把人工智能的發(fā)展分為三個(gè)階段：計(jì)算智能、感知智能、認(rèn)知智能，對應(yīng)的DT服務(wù)的發(fā)展就是數(shù)據(jù)從信息向知識演化并最終生長為數(shù)據(jù)智能的演變過程。當(dāng)前大部分金融機(jī)構(gòu)的人工智能還停留在感知智能向認(rèn)知智能轉(zhuǎn)化這個(gè)階段，而主要工作場景還是在感知這一領(lǐng)域，所謂感知智能就是就是能聽能說，具備一定的表達(dá)能力。很顯然，人臉識別是圖像視頻這類非結(jié)構(gòu)化數(shù)據(jù)的特征結(jié)構(gòu)化的結(jié)果，這是讓機(jī)器看懂人的圖像；智能客服仰仗的是NLP的分詞和意圖識別能力，支撐問答系統(tǒng)的是強(qiáng)大的知識庫和知識圖譜技術(shù)，這是讓機(jī)器理解人的語言；產(chǎn)業(yè)鏈知識圖譜主要是傳統(tǒng)三方資訊關(guān)系型數(shù)據(jù)轉(zhuǎn)變?yōu)镽DF三元組的一種數(shù)據(jù)存儲形態(tài)的改變；各類新聞公告年報(bào)等的報(bào)告信息提取與加工，代表著非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化的一個(gè)過程，這是讓機(jī)器替代人腦去讀懂文檔。

發(fā)展人工智能，光有感知能力顯然是不夠的，最終要能夠具備認(rèn)知推理的能力，從學(xué)術(shù)界看這個(gè)問題，有兩條路可以走，一個(gè)是機(jī)器學(xué)習(xí)，一個(gè)是符號推理。機(jī)器學(xué)習(xí)大家都比較理解了，尤其是深度學(xué)習(xí)技術(shù)已經(jīng)讓語音識別、視頻影響處理的能力超越了人類大腦的能力。符號推理，走的是另外一條路，最早指的就是專家系統(tǒng)，大量的知識被存儲管理起來，用于檢索，現(xiàn)如今，符號推理，是借助語義網(wǎng)絡(luò)知識管理進(jìn)行圖分析挖掘的一種能力。符號推理在當(dāng)前工業(yè)界落地的就是指知識圖譜，基于RDF三元組存儲的知識圖譜，可以存儲管理人類已有的各類知識，而這些知識又因?yàn)槭且环N實(shí)體關(guān)系屬性的圖表達(dá)，所以基于圖的分析挖掘，表現(xiàn)出來的就是知識發(fā)現(xiàn)和推理的一種能力。

在我國金融行業(yè)，因?yàn)榇髷?shù)據(jù)本身的積累不夠，做過標(biāo)注的金融數(shù)據(jù)語料更加匱乏，所以造成一個(gè)結(jié)果，就是在金融行業(yè)，面向具體金融業(yè)務(wù)場景的機(jī)器學(xué)習(xí)的數(shù)據(jù)是不夠的，更加談不上深度學(xué)習(xí)了，結(jié)果就是基于機(jī)器學(xué)習(xí)的認(rèn)知智能的發(fā)展必然受限。這里最直接的表現(xiàn)就是我們發(fā)現(xiàn)所有金融應(yīng)用場景里，適合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的場景，是比較少的。很多機(jī)器學(xué)習(xí)不得不為NLP、知識圖譜這種細(xì)節(jié)場景服務(wù)，或者機(jī)器學(xué)習(xí)和金融工程整合在一起，而主體還是金融工程，機(jī)器學(xué)習(xí)目前只是一種輔助工具，充其量就是多因子的一個(gè)加工手段而已。究其原因是金融行業(yè)業(yè)務(wù)相關(guān)的大數(shù)據(jù)的體系還沒有完全構(gòu)造出來。應(yīng)用場景的數(shù)據(jù)還沒有得到有效沉淀。

而符號推理在金融行業(yè)會有所不同，我們知道金融服務(wù)本質(zhì)上就是一種信息服務(wù)，而金融對上市公司的公告、年報(bào)、新聞等等的資訊數(shù)據(jù)是天然敏感的，大多數(shù)玩金融的人，都是從處理這些信息開始的。很多行業(yè)研究員為了能夠建立自己的競爭力，領(lǐng)先市場一步，每天加班加點(diǎn)的就是在閱讀分析處理這類資訊數(shù)據(jù)。這類資訊數(shù)據(jù)基本上是一種非結(jié)構(gòu)化形式存在的，三方資訊數(shù)據(jù)廠商通過人工采編的方式能夠結(jié)構(gòu)化掉其中一部分，而大多數(shù)數(shù)據(jù)還是需要人腦加工的。這就給了人工智能應(yīng)用一個(gè)空間，通過自然語言理解NLU，再進(jìn)行自然語言處理NLP，最后通過自然語言生成NLG，有了這幾項(xiàng)技術(shù)，再結(jié)合知識圖譜和機(jī)器學(xué)習(xí)的能力，將可以將這類非結(jié)構(gòu)化數(shù)據(jù)的加工結(jié)果進(jìn)行有效反饋。如果我們將NLP加工獲取的金融詞林，進(jìn)一步挖掘獲取的實(shí)體、關(guān)系、屬性、概念、事件等信息，加以整理，建立他們之間的各類關(guān)系，那么一個(gè)基本的金融知識圖譜就構(gòu)造出來了。所以，我們會看到NLP技術(shù)在當(dāng)前的人工智能領(lǐng)域的應(yīng)用已經(jīng)成為了熱點(diǎn)，而KG是緊隨其后的一項(xiàng)技術(shù)，大量的非結(jié)構(gòu)化數(shù)據(jù)的提取達(dá)到一定的準(zhǔn)確度后，機(jī)器就可以代替人，來完成大規(guī)模知識發(fā)現(xiàn)，最終形成知識計(jì)算所需要的“大知識“的數(shù)據(jù)儲備，目前NLP的準(zhǔn)確率還只能到60%上下，具體場景針對性優(yōu)化后才可能到90%以上的水準(zhǔn)。

在足夠窄的應(yīng)用領(lǐng)域，NLP技術(shù)通過了實(shí)戰(zhàn)的考驗(yàn)。但面對海量大數(shù)據(jù)，基于文檔互聯(lián)的互聯(lián)網(wǎng)體系想要轉(zhuǎn)化為以實(shí)體關(guān)系為主體的語義網(wǎng)絡(luò)，還有相當(dāng)長的一段路要走。但我們還是有理由相信以廣義NLP（新視頻文字）技術(shù)為核心的人工智能將會統(tǒng)治相當(dāng)長一段時(shí)間，直到非結(jié)構(gòu)化數(shù)據(jù)的處理不再是問題以及非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)能夠相互融合，那么屆時(shí)行業(yè)知識圖譜、企業(yè)知識圖譜的數(shù)據(jù)準(zhǔn)備也已由點(diǎn)及面的建立起來，基于知識圖譜的人工智能應(yīng)用將大放異彩，金融領(lǐng)域的人工智能也就從感知智能正式過渡到認(rèn)知智能階段。

數(shù)據(jù)的價(jià)值演化

人工智能的發(fā)展本質(zhì)上是數(shù)據(jù)價(jià)值的一個(gè)演化過程。計(jì)算智能對應(yīng)的就是我們看到的多源異構(gòu)大數(shù)據(jù)，我們將這些數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)化加載到大數(shù)據(jù)中心后，數(shù)據(jù)變成各類有用的信息。如果我們將信息進(jìn)一步提煉，通過知識構(gòu)建與管理的一系列手段，便可以將信息轉(zhuǎn)化為知識，存儲起來。如果我們按照W3C的知識管理規(guī)范，對知識做RDF三元組的存儲和管理，我們就能構(gòu)造出來一系列的知識圖譜。有了這個(gè)知識圖譜，我們就具備了知識計(jì)算的能力，那么對于一個(gè)具體的金融場景來說，如果我們將金融業(yè)務(wù)場景的業(yè)務(wù)模型結(jié)合知識計(jì)算的能力，以及對大數(shù)據(jù)平臺的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的能力，就可以形成我們的金融大腦。

金融大腦=金融業(yè)務(wù)場景的業(yè)務(wù)模型

? ? ? +知識計(jì)算+機(jī)器學(xué)習(xí)

我們將這類金融大腦，也就是大大小小的智能化場景，開放出去，就形成我們對傳統(tǒng)金融的一個(gè)智能化變革。

面向人工智能的大數(shù)據(jù)治理

從以上的分析中，我們可以明確感覺到人工智能正在迅速改變金融機(jī)構(gòu)，金融機(jī)構(gòu)的數(shù)據(jù)計(jì)算的關(guān)注點(diǎn)，正在從企業(yè)信息系統(tǒng)內(nèi)部的計(jì)算，轉(zhuǎn)變?yōu)殛P(guān)注來自互聯(lián)網(wǎng)和三方的外部數(shù)據(jù)的計(jì)算和處理上。

多元異構(gòu)數(shù)據(jù)的整合，是未來金融機(jī)構(gòu)將要長期面臨的一個(gè)局面。數(shù)據(jù)難以融合，也就難以做到統(tǒng)一消費(fèi)，從非結(jié)構(gòu)化數(shù)據(jù)提取的實(shí)體關(guān)系、屬性等信息，當(dāng)他們不能融合到企業(yè)內(nèi)部經(jīng)營數(shù)據(jù)中去，就會再次形成信息孤島，隨著多元異構(gòu)數(shù)據(jù)的量級不斷攀升，這個(gè)信息孤島將會呈現(xiàn)越來越嚴(yán)重的局面。在人工智能迅猛發(fā)展的今天，如何解決上述問題，是未來企業(yè)競爭中體現(xiàn)出來的核心競爭力之一。

以上所述的問題與挑戰(zhàn)，就是我們今天所談到的面型人工智能的大數(shù)據(jù)治理有待解決的問題。那么我們該如何行動(dòng)呢？

第一步：多源異構(gòu)數(shù)據(jù)源的統(tǒng)一管理。首先，我們要對多源異構(gòu)數(shù)據(jù)源進(jìn)行統(tǒng)一管理。這里既包括金融機(jī)構(gòu)內(nèi)部的經(jīng)營數(shù)據(jù)，也包括來自三方資訊數(shù)據(jù)廠商的外部數(shù)據(jù)，以及來自互聯(lián)網(wǎng)的各種大數(shù)據(jù)。

為了達(dá)到未來的智能化能力，我們需要將金融內(nèi)部的結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)臉I(yè)務(wù)系統(tǒng)數(shù)據(jù)圖譜化，將具有明顯關(guān)系特征的數(shù)據(jù)提取出來，再用這些數(shù)據(jù)對企業(yè)內(nèi)部數(shù)據(jù)通過實(shí)體鏈接、數(shù)據(jù)標(biāo)引等技術(shù)進(jìn)行再組織；同時(shí)我們將三方數(shù)據(jù)中非結(jié)構(gòu)化的那部分PDF、WORD等進(jìn)行知識抽取，也提煉出實(shí)體關(guān)系屬性等數(shù)據(jù)。最后對那些跟金融機(jī)構(gòu)相關(guān)的互聯(lián)網(wǎng)大數(shù)據(jù)，通過爬蟲技術(shù)不斷的抓取，并對這些網(wǎng)頁半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理，同樣提取其中的實(shí)體關(guān)系和事件信息。

第二步：大數(shù)據(jù)存儲與計(jì)算。對于金融機(jī)構(gòu)而言，無論是采用商業(yè)化的軟件還是開源軟件，都需要一個(gè)大數(shù)據(jù)平臺將來自多源異構(gòu)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行統(tǒng)一管理，可以把這理解為一個(gè)大數(shù)據(jù)中心的建立，只不過這個(gè)數(shù)據(jù)中心的主要構(gòu)建技術(shù)是人工智能的三駕馬車：知識圖譜、NLP、機(jī)器學(xué)習(xí)。我們在大數(shù)據(jù)中心除了保留原始異構(gòu)數(shù)據(jù)源的一份拷貝之外，還要對這些數(shù)據(jù)進(jìn)行面向人工智能的數(shù)據(jù)處理，包括通過NLP進(jìn)行實(shí)體挖掘、關(guān)系抽取、屬性提煉；通過知識圖譜保存NLP提煉出來的具有關(guān)系特征的各種數(shù)據(jù)以及用機(jī)器學(xué)習(xí)來加速這一進(jìn)程的處理效率提升準(zhǔn)確度等。

第三步：構(gòu)造知識圖譜。最后我們需要構(gòu)造金融行業(yè)的一個(gè)知識圖譜，可以是行業(yè)知識圖譜，也可以是企業(yè)圖譜。KG的建設(shè)是有一個(gè)完整的生命周期的，包括知識建模、知識獲取、知識融合、知識計(jì)算以及知識應(yīng)用的全過程。知識建模依賴與金融機(jī)構(gòu)內(nèi)部數(shù)據(jù)和來自三方的結(jié)構(gòu)化數(shù)據(jù)，將ER關(guān)系轉(zhuǎn)化為KG的Schema是這一個(gè)工作的重點(diǎn)。構(gòu)造好Schema后，就可以進(jìn)行知識獲取工作了：首先導(dǎo)入關(guān)系型數(shù)據(jù)庫的各類實(shí)體關(guān)系屬性數(shù)據(jù)，然后通過知識抽取技術(shù)將各類非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化掉后，將散落在互聯(lián)網(wǎng)大數(shù)據(jù)和三方非結(jié)構(gòu)化數(shù)據(jù)中的知識進(jìn)行整理合并到現(xiàn)有KG中去；接著通過實(shí)體消岐、指代消解等知識融合技術(shù)對KG的質(zhì)量進(jìn)行管理與維護(hù)；KG初步建立后，就可以通過圖計(jì)算進(jìn)行知識發(fā)現(xiàn)知識推理和挖掘等工作了。

至此，一個(gè)完整的面向人工智能的數(shù)據(jù)治理工作關(guān)于基礎(chǔ)信息系統(tǒng)層面的建設(shè)就告一段落了。之后如果我們據(jù)此再逐步建立大數(shù)據(jù)大知識（KG）的管理規(guī)范，不斷積累其中的業(yè)務(wù)應(yīng)用模型，那么一個(gè)成熟可拓展的面向人工智能的大數(shù)據(jù)治理成果就會逐步呈現(xiàn)出來。屆時(shí)，面向人工智能的大數(shù)據(jù)治理，勢必能有效支撐智能金融從感知智能向認(rèn)知智能的變革。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的领域应用 | 人工智能+知识图谱：如何规整海量金融大数据？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： PCA主成分分析学习总结
下一篇： distutils.errors.Dis

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

领域应用 | 人工智能+知识图谱：如何规整海量金融大数据？

本文轉(zhuǎn)載自公眾號：恒生技術(shù)之眼。

總結(jié)