日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

刘志明 | 知识图谱及金融相关

發布時間:2024/7/5 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 刘志明 | 知识图谱及金融相关 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉載自公眾號:挖地兔,本文的作者劉志明先生也是 Tushare 的作者。?


Tushare 是一個基于 Python 語言的免費、開源的財經數據接口包,可以為金融量化分析人員提供快速、整潔和多樣的結構化數據,幫助量化投資人員節省數據采集和清洗時間,使他們有更多的精力集中在策略的研發上,極大提高投研效率。作為國內最早一個服務于量化投資的 Python 開源項目,目前用戶超過 10 萬,機構 300 家,已經成為量化投資領域比較常用或者借鑒的數據工具。



前言 ? ? ?

早在2010年的時候,我作為Oracle中國公司的實施方的項目負責人,給江蘇省國稅局做了一個項目——江蘇國稅智能問答系統。這個系統借助 Oracle OPA 產品,實現了稅務方面的智能問答。通過稅務局預設的相關問題,用戶根據企業自身實際情況選擇或輸入數據,實現互動式精準問答。比如說,用戶想知道自己公司是否可以享受福利企業稅收優惠政策,企業根據自身的情況,輸入相關數據,系統依據用戶反饋的數據經過條件判斷和計算給出不同的路徑,最終引導用戶得到需要的答案。


雖然這個系統當時只是通過預先設定的流程反饋結果,但當時我理解這是一個稅務知識以及稅務政策法規的總結和知識的交互呈現,通過XML技術,把稅務知識結構化、語義化,讓機器能快速對用戶的問題作出反饋。在當時人工智能、NLP沒有多少人提及的時候,我們姑且把這種模式當做是一種“智能系統”,放到今天來看,我個人把這種系統歸納為“知識圖譜”的一種應用。


由此,引出了一個概念——“知識圖譜”。到底什么是知識圖譜?可能很多朋友都不太清楚,這也是寫作本文的目的,給大家科普一下知識圖譜的概念,希望能給需要了解或有興趣了解的朋友帶來一些幫助。


什么是知識圖譜?

直接了當的說,知識圖譜是人工智能技術的重要組成部分,它是具有語義處理與信息互聯互通能力的知識庫。通常在智能搜索、機器人聊天、智能問答以及智能推薦方面有著廣泛的應用。


今天我們學習和探討的知識圖譜,實際是Google公司在2012年提出的為了提高搜索引擎能力,增強用戶的搜索效率效果以及搜索體驗的一種技術實踐。


而在10年前,就已經提出了語義網的概念,呼吁業界推廣并完善利用本體(Ontology)模型來形式化表達數據中的隱含語義,便于知識的高效呈現和利用。知識圖譜技術的出現正是基于以上相關研究,是對語義網相關技術和標準的提升。?


知識圖譜中的一些概念要素:


實體:是指具有可區別性且獨立存在的某種事物(有點像面向對象編程里的Object)。如某一種動物、某一個城市、某一種水果、某一類商品等等。世界萬物有具體事物組成,此指實體。實體是知識圖譜中的最基本元素,不同的實體間存在不同的關系。


語義類(概念):概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等。


屬性:主要指對象可能具有的屬性、特征、特性、特點以及參數,例如國籍、生日等。


屬性值:主要指對象指定屬性的值,例如國籍對應的“中國”、生日對應1988-09-08等。每個屬性-屬性值對可用來刻畫實體的內在特性。


關系:用來連接兩個實體,刻畫它們之間的關聯。形式化為一個函數,它把kk個點映射到一個布爾值。在知識圖譜上,關系則是一個把kk個圖節點(實體、語義類、屬性值)映射到布爾值的函數。


知識圖譜中一般用三元組的方式來表達,三元組的基本形式主要包括(實體1-關系-實體2)和(實體-屬性-屬性值)等。每個實體可用一個全局唯一確定的ID來標識,每個屬性-屬性值對可用來刻畫實體的內在特性。


下圖是一個以上概念和關系形象展示,幫助理解知識圖譜的內容。


知識圖譜在金融數據中的體現

從智能金融或者智能投研的角度來看,米哥認為,最常見是從上市公司、高管、產業、行業的角度將知識關聯化和結構化,讓每一類數據不再僅僅是數據(數字),而是具有可聯系、可追溯、可擴展的圖譜,將背后隱藏的邏輯關系快速呈現出來。


01

企業知識圖譜

我們看一家公司的時候,尤其是針對一家上市公司,總會希望了解這家公司的股權關系,股東結構,希望通過了解該公司的控股股東及其背后的投資關系,了解該企業及法人對外投資的情況,獲得該公司的風險要素。


也希望通過了解該公司的主營業務構成、產品生產和銷售情況,了解該公司未來的發展潛力;同時,也會關注公司獲得了那些專利技術、參與了哪些招投標項目,涉及了那些司法訴訟等等。這些基本要素就構成了一家公司或者一個集團的簡單知識圖譜,通過圖形化的方法,利用酷炫的可視化效果呈現出來,達到快速了解和分析某一公司的目的。


我從網上搜索了一些可視化效果,給予大家直觀的感受。



除了企業的圖譜,其他類型的數據也可以被知識結構化和圖譜化,同樣也是從網上找了一個例子,有人將《星球大戰》的人物和場景做了一個知識圖譜,包含了“星戰”7部電影里的87名角色、21顆星球、37艘飛船、39架戰車、37個種族,并且通過各個節點鏈接,展現228個實體之間的1112種關系。



02

行業知識圖譜

我個人認為,行業知識圖譜最重要的體現可能在行業中的產業鏈圖譜,當然也是最難實現的。有些行業上下游非常復雜,往往有較高的業務壁壘,而對行業和產業的理解、梳理清楚直接決定了是否可以駕馭這一領域。


在金融研究傳統的行業分析方面,行業研究員掌握了大量信息,但基本都存在各自的大腦里作為其看家本領,一旦分析師離職,將直接影響這個行業分析的延續,甚至拖垮該公司在這個領域的研究體系。


如果建立在基于知識圖譜的基礎上,通過數據化、可視化的手段,相信一定可以實現將某一行業的產業知識、邏輯關系、上下游傳導機制描繪出一個完整的、清晰的架構。即使有新人、新手來接續研究,也能很快上手。


下圖是簡單的例子,其實還算不上一個完整的知識圖譜,只能算是產業知識總結,但一定程度上詮釋了產業知識結構。


03

市場信息圖譜

利用市場信息的整合分析來輔助投資決策是現今做金融投資比較常用的方法,利用多渠道來源的信息、多種碎片化的數據,互相補充,協同作用,得出一幅信息全景圖,非常方便用于分析資本市場的動向。


這種信息處理的技術主要被用在情報分析領域,但資本市場也有比較多的需求。比如,對并購重組意向等影響公司未來的重大事件的早期預警,對上市公司業績疑點的多方求證,對未披露的實際控制人身份的鎖定等等。


這實際也是所謂大數據干的事情,但如果是利用知識圖譜技術,繪制出一幅信息圖譜,當出現某一個事件的時候,如何傳導或導致什么樣的結果,判斷起來似乎就容易的多了。


知識圖譜的難點

知識圖譜的構建涉及知識表示、知識抽取、實體鏈接、實體融合、鏈接預測、推理補全、語義嵌入、知識存儲等多方面的技術。這些技術看似紛繁復雜,但實際上瓶頸在于數據


數據的嚴重缺失、數據質量差強人意等問題直接影響了圖譜的效果。尤其是針對互聯網數據、即各類非結構化的數據的處理上,盡管我們有NLP,盡管NLP抽取的準確率在提升,但我們很難指望 NLP 和機器學習能自動構建你真正所需要的知識圖譜。


我們看到了構建一個高質量、高覆蓋的知識圖譜的難度以及高昂的成本,但一旦擁有,將自動建立起競爭壁壘,提到同行競爭門檻。米哥始終認為,不管是知識圖譜也好,人工智能也好,未來取勝的關鍵仍然在于數據。


國內知識圖譜組織

這里只介紹米哥熟悉的一個組織——OpenKG。


OpenKG是由國內資深的產業界和學術界的KG專家共同發起成立的一個NGO組織。這里面有我比較熟悉的文因互聯CEO鮑捷博士、浙江大學的陳華鈞教授,東南大學的漆桂林教授等等。


這個組織做了不少的嘗試,從數據的收集整理到線下活動交流,推動了知識圖譜理念和技術的落地。為學界、工業界提供了一個不錯的資源共享和交流的平臺。


雖然曾經受到過 OpenKG的 邀請,但自知半斤八兩,寄希望于通過自己的努力,有朝一日可以加入OpenKG,利用Tushare數據平臺,為KG領域貢獻部分數據資源。


文獻參考:

1、《知識圖譜技術綜述》徐增林等

2、白碩 : 知識圖譜,就是場景的骨架和靈魂


更多精彩內容,請關注公眾號:





OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的刘志明 | 知识图谱及金融相关的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。