日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

领域应用 | 人工智能+知识图谱:如何规整海量金融大数据?

發布時間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 领域应用 | 人工智能+知识图谱:如何规整海量金融大数据? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉載自公眾號:恒生技術之眼



21世紀以來,人類社會信息資源的開發范圍持續擴大,經濟、社會信息隨著經濟活動加劇得到空前的開發,信息資源總量呈爆炸式增長,我們從最初的“信息匱乏”一步踏入到“信息過量”時代。


個人如此,行業亦然:隨著大數據應用的不斷發展,金融機構的經營決策、營銷服務越來越依賴于諸如新聞輿情、企業信用、熱點概念等企業外部數據,而這些數據的應用場景也愈加需要與金融機構內部的數據打通,形成數據融合計算。再加上人工智能的異軍突起,大量非結構化數據正在被人工智能結構化掉,隱藏在文檔中的信息價值正在不斷的被“機器”發現并加以大規模的使用,大數據、人工智能讓金融機構的數據治理工作又重新回到了“混亂”的起點。面向人工智能的大數據治理,已經成為金融IT向金融DT轉型所必須面對的一個嚴峻課題。


人工智能的應用現狀

在筆者看來,人工智能就是一種數據服務能力,智能金融本質上就是金融DT服務,發展人工智能就等于發展數據技術,人工智能系統智能化程度的高與低,與數據處理能力正相關。為了方便說明這一論點,我們先來看看金融機構在人工智能領域所做的各種探索和嘗試。

?

人臉識別作為最早的人工智能技術在金融機構各種需要身份驗證的應用場景中得到廣泛的應用,早在3年前遠程開戶、網上營業廳等業務就已經在金融機構中逐步展開,這是人工智能進入金融領域比較早的案例。現如今智能客服也已成了一個極佳的人工智能的切入點:首先通過智能語音技術將客戶的語音轉化為文字,然后用自然語言處理NLP技術進行解析,識別用戶意圖,最后用用智能問答形式給與相關的解答和服務。

?

智能客服在大幅降低人工客服的服務壓力的同時,還能有效提升服務品質和服務效率,這對那些面臨大量客服工作的大型金融機構來說還是非常有吸引力的。還有一部分金融機構以產業鏈知識圖譜為其人工智能的著眼點,構建上市公司及其產品服務的上下游關系,再通過追蹤監控新聞、事件、輿情在產業鏈中的傳導效應,形成具體的投研策略。產業鏈技術延伸出去就會形成智能投研、智能資管、智能風控等智能金融業務,這類人工智能技術更加貼合金融機構的金融業務的用戶場景。也有金融機構,索性把人工智能當作自己的貼身秘書來使用,各類新聞、公告、年報的解讀全部交給了人工智能,通過自然語言處理技術,提取公告中的財務數字,做自動摘要,形成正負面相關性的分析。這類數據通過人工智能技術預處理后,大量信息被提煉出來,結合部分人工審核和校對,基本上也可以上生產了。


數據智能服務:從感知到認知

有人把人工智能的發展分為三個階段:計算智能、感知智能、認知智能,對應的DT服務的發展就是數據從信息向知識演化并最終生長為數據智能的演變過程。當前大部分金融機構的人工智能還停留在感知智能向認知智能轉化這個階段,而主要工作場景還是在感知這一領域,所謂感知智能就是就是能聽能說,具備一定的表達能力。很顯然,人臉識別是圖像視頻這類非結構化數據的特征結構化的結果,這是讓機器看懂人的圖像;智能客服仰仗的是NLP的分詞和意圖識別能力,支撐問答系統的是強大的知識庫和知識圖譜技術,這是讓機器理解人的語言;產業鏈知識圖譜主要是傳統三方資訊關系型數據轉變為RDF三元組的一種數據存儲形態的改變;各類新聞公告年報等的報告信息提取與加工,代表著非結構化數據結構化的一個過程,這是讓機器替代人腦去讀懂文檔。

?

發展人工智能,光有感知能力顯然是不夠的,最終要能夠具備認知推理的能力,從學術界看這個問題,有兩條路可以走,一個是機器學習,一個是符號推理。機器學習大家都比較理解了,尤其是深度學習技術已經讓語音識別、視頻影響處理的能力超越了人類大腦的能力。符號推理,走的是另外一條路,最早指的就是專家系統,大量的知識被存儲管理起來,用于檢索,現如今,符號推理,是借助語義網絡知識管理進行圖分析挖掘的一種能力。符號推理在當前工業界落地的就是指知識圖譜,基于RDF三元組存儲的知識圖譜,可以存儲管理人類已有的各類知識,而這些知識又因為是一種實體關系屬性的圖表達,所以基于圖的分析挖掘,表現出來的就是知識發現和推理的一種能力。

?

在我國金融行業,因為大數據本身的積累不夠,做過標注的金融數據語料更加匱乏,所以造成一個結果,就是在金融行業,面向具體金融業務場景的機器學習的數據是不夠的,更加談不上深度學習了,結果就是基于機器學習的認知智能的發展必然受限。這里最直接的表現就是我們發現所有金融應用場景里,適合機器學習和深度學習的場景,是比較少的。很多機器學習不得不為NLP、知識圖譜這種細節場景服務,或者機器學習和金融工程整合在一起,而主體還是金融工程,機器學習目前只是一種輔助工具,充其量就是多因子的一個加工手段而已。究其原因是金融行業業務相關的大數據的體系還沒有完全構造出來。應用場景的數據還沒有得到有效沉淀。

?

而符號推理在金融行業會有所不同,我們知道金融服務本質上就是一種信息服務,而金融對上市公司的公告、年報、新聞等等的資訊數據是天然敏感的,大多數玩金融的人,都是從處理這些信息開始的。很多行業研究員為了能夠建立自己的競爭力,領先市場一步,每天加班加點的就是在閱讀分析處理這類資訊數據。這類資訊數據基本上是一種非結構化形式存在的,三方資訊數據廠商通過人工采編的方式能夠結構化掉其中一部分,而大多數數據還是需要人腦加工的。這就給了人工智能應用一個空間,通過自然語言理解NLU,再進行自然語言處理NLP,最后通過自然語言生成NLG,有了這幾項技術,再結合知識圖譜和機器學習的能力,將可以將這類非結構化數據的加工結果進行有效反饋。如果我們將NLP加工獲取的金融詞林,進一步挖掘獲取的實體、關系、屬性、概念、事件等信息,加以整理,建立他們之間的各類關系,那么一個基本的金融知識圖譜就構造出來了。所以,我們會看到NLP技術在當前的人工智能領域的應用已經成為了熱點,而KG是緊隨其后的一項技術,大量的非結構化數據的提取達到一定的準確度后,機器就可以代替人,來完成大規模知識發現,最終形成知識計算所需要的“大知識“的數據儲備,目前NLP的準確率還只能到60%上下,具體場景針對性優化后才可能到90%以上的水準。

?

在足夠窄的應用領域,NLP技術通過了實戰的考驗。但面對海量大數據,基于文檔互聯的互聯網體系想要轉化為以實體關系為主體的語義網絡,還有相當長的一段路要走。但我們還是有理由相信以廣義NLP(新視頻文字)技術為核心的人工智能將會統治相當長一段時間,直到非結構化數據的處理不再是問題以及非結構化數據和結構化數據能夠相互融合,那么屆時行業知識圖譜、企業知識圖譜的數據準備也已由點及面的建立起來,基于知識圖譜的人工智能應用將大放異彩,金融領域的人工智能也就從感知智能正式過渡到認知智能階段。


數據的價值演化

人工智能的發展本質上是數據價值的一個演化過程。計算智能對應的就是我們看到的多源異構大數據,我們將這些數據進行采集、清洗、轉化加載到大數據中心后,數據變成各類有用的信息。如果我們將信息進一步提煉,通過知識構建與管理的一系列手段,便可以將信息轉化為知識,存儲起來。如果我們按照W3C的知識管理規范,對知識做RDF三元組的存儲和管理,我們就能構造出來一系列的知識圖譜。有了這個知識圖譜,我們就具備了知識計算的能力,那么對于一個具體的金融場景來說,如果我們將金融業務場景的業務模型結合知識計算的能力,以及對大數據平臺的數據進行機器學習的能力,就可以形成我們的金融大腦。



金融大腦=金融業務場景的業務模型

? ? ? +知識計算+機器學習


我們將這類金融大腦,也就是大大小小的智能化場景,開放出去,就形成我們對傳統金融的一個智能化變革。


面向人工智能的大數據治理

從以上的分析中,我們可以明確感覺到人工智能正在迅速改變金融機構,金融機構的數據計算的關注點,正在從企業信息系統內部的計算,轉變為關注來自互聯網和三方的外部數據的計算和處理上。


多元異構數據的整合,是未來金融機構將要長期面臨的一個局面。數據難以融合,也就難以做到統一消費,從非結構化數據提取的實體關系、屬性等信息,當他們不能融合到企業內部經營數據中去,就會再次形成信息孤島,隨著多元異構數據的量級不斷攀升,這個信息孤島將會呈現越來越嚴重的局面。在人工智能迅猛發展的今天,如何解決上述問題,是未來企業競爭中體現出來的核心競爭力之一。


以上所述的問題與挑戰,就是我們今天所談到的面型人工智能的大數據治理有待解決的問題。那么我們該如何行動呢?


第一步:多源異構數據源的統一管理。首先,我們要對多源異構數據源進行統一管理。這里既包括金融機構內部的經營數據,也包括來自三方資訊數據廠商的外部數據,以及來自互聯網的各種大數據。


為了達到未來的智能化能力,我們需要將金融內部的結構嚴謹的業務系統數據圖譜化,將具有明顯關系特征的數據提取出來,再用這些數據對企業內部數據通過實體鏈接、數據標引等技術進行再組織;同時我們將三方數據中非結構化的那部分PDF、WORD等進行知識抽取,也提煉出實體關系屬性等數據。最后對那些跟金融機構相關的互聯網大數據,通過爬蟲技術不斷的抓取,并對這些網頁半結構化數據進行結構化處理,同樣提取其中的實體關系和事件信息。

第二步:大數據存儲與計算。對于金融機構而言,無論是采用商業化的軟件還是開源軟件,都需要一個大數據平臺將來自多源異構數據源的數據進行統一管理,可以把這理解為一個大數據中心的建立,只不過這個數據中心的主要構建技術是人工智能的三駕馬車:知識圖譜、NLP、機器學習。我們在大數據中心除了保留原始異構數據源的一份拷貝之外,還要對這些數據進行面向人工智能的數據處理,包括通過NLP進行實體挖掘、關系抽取、屬性提煉;通過知識圖譜保存NLP提煉出來的具有關系特征的各種數據以及用機器學習來加速這一進程的處理效率提升準確度等。


第三步:構造知識圖譜。最后我們需要構造金融行業的一個知識圖譜,可以是行業知識圖譜,也可以是企業圖譜。KG的建設是有一個完整的生命周期的,包括知識建模、知識獲取、知識融合、知識計算以及知識應用的全過程。知識建模依賴與金融機構內部數據和來自三方的結構化數據,將ER關系轉化為KG的Schema是這一個工作的重點。構造好Schema后,就可以進行知識獲取工作了:首先導入關系型數據庫的各類實體關系屬性數據,然后通過知識抽取技術將各類非結構化數據結構化掉后,將散落在互聯網大數據和三方非結構化數據中的知識進行整理合并到現有KG中去;接著通過實體消岐、指代消解等知識融合技術對KG的質量進行管理與維護;KG初步建立后,就可以通過圖計算進行知識發現知識推理和挖掘等工作了。


至此,一個完整的面向人工智能的數據治理工作關于基礎信息系統層面的建設就告一段落了。之后如果我們據此再逐步建立大數據大知識(KG)的管理規范,不斷積累其中的業務應用模型,那么一個成熟可拓展的面向人工智能的大數據治理成果就會逐步呈現出來。屆時,面向人工智能的大數據治理,勢必能有效支撐智能金融從感知智能向認知智能的變革。




OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的领域应用 | 人工智能+知识图谱:如何规整海量金融大数据?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。