漆桂林 | 知识图谱的应用
本文作者為東南大學漆桂林老師,首發于知乎專欄知識圖譜和智能問答
前面一篇文章“知識圖譜之語義網絡篇”已經提到了知識圖譜的發展歷史,回顧一下有以下幾點:
1. 知識圖譜是一種語義網絡,即一個具有圖結構的知識庫,這里圖的節點可以是概念(比如說大學),可以是實例(比如說東南大學),可以是一個literal(比如說一個數字,一個日期,一個字符串),而圖的邊就是一個關系(比如說漆桂林 就職于 東南大學,這里“就職于”就是一個關系)。
2. 語義網絡的表達能力還是很強的,即一階謂詞邏輯可以表達的知識都可以用語義網絡來表達。
3. 語義網絡可以有邏輯推理能力,而推理可以通過規則來實現,也可以通過父子節點的繼承實現。
那么,知識圖譜到底有些什么用呢?知識圖譜比較適合需要建立數據關聯和需要從非結構化數據中轉化出結構化數據的場景。下面是幾個應用場景(還會持續更新,也歡迎提意見)。
一、語義搜索
知識圖譜這個概念是谷歌提出的,谷歌做知識圖譜自然是跟搜索引擎相關,即提供語義搜索。這里語義搜索跟傳統搜索引擎的區別在于搜索的結果不是展示網頁,而是展示結構化知識,如下圖(圖1)所示:
圖1 語義搜索示例
在圖1中,當用戶輸入“jackie chan",搜索引擎可以識別出jackie chan其實就是成龍,而且,會給出成龍的各種屬性信息,比如說出生日期、國籍、配偶等。這些都是以前基于關鍵詞的檢索做不到的,有了知識圖譜以后,就可以即問即答了。點擊成龍的配偶“林鳳嬌”,可以直接進入她的知識卡片,見圖2:
圖2 ?語義導航示例
然后還可以繼續點擊房祖名看他的信息。這里我們可以把成龍、林鳳嬌、房祖名看出圖的節點,成龍跟林鳳嬌之間有一個關系,即夫妻關系,林鳳嬌跟房祖名之間有一個關系,即母子關系,這就是成龍家庭的一個小的關系圖譜。
二、股票投研情報分析
通過知識圖譜相關技術從招股書、年報、公司公告、券商研究報告、新聞等半結構化表格和非結構化文本數據中批量自動抽取公司的股東、子公司、供應商、客戶、合作伙伴、競爭對手等信息,構建出公司的知識圖譜。在某個宏觀經濟事件或者企業相關事件發生的時候,券商分析師、交易員、基金公司基金經理等投資研究人員可以通過此圖譜做更深層次的分析和更好的投資決策,比如在美國限制向中興通訊出口的消息發布之后,如果我們有中興通訊的客戶供應商、合作伙伴以及競爭對手的關系圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國際國內上市公司從而挖掘投資機會或者進行投資組合風險控制(圖3)。
圖3 股票投研情報分析
三、公安情報分析
通過融合企業和個人銀行資金交易明細、通話、出行、住宿、工商、稅務等信息構建初步的“資金賬戶-人-公司”關聯知識圖譜。同時從案件描述、筆錄等非結構化文本中抽取人(受害人、嫌疑人、報案人)、事、物、組織、卡號、時間、地點等信息,鏈接并補充到原有的知識圖譜中形成一個完整的證據鏈。輔助公安刑偵、經偵、銀行進行案件線索偵查和挖掘同伙。比如銀行和公安經偵監控資金賬戶,當有一段時間內有大量資金流動并集中到某個賬戶的時候很可能是非法集資,系統觸發預警(圖4)。
圖4 ?公安情報分析
四、反欺詐情報分析
通過融合來自不同數據源的信息構成知識圖譜,同時引入領域專家建立業務專家規則。我們通過數據不一致性檢測,利用繪制出的知識圖譜可以識別潛在的欺詐風險。比如借款人張xx和借款人吳x填寫信息為同事,但是兩個人填寫的公司名卻不一樣, 以及同一個電話號碼屬于兩個借款人,這些不一致性很可能有欺詐行為 (圖5)。
圖5 反欺詐情報分析
五、面向多源異構關系數據的自然語言問答
現在很多企業都有自己的數據庫,而且這些數據庫因為不是同一批人構建的,所以維護數據庫的成本很高,訪問數據庫也很不方便,而且數據庫之間的關聯也很難發現。通過構建一個本體(該本體可以是從數據庫的schema抽取后,然后通過人工來修改得到),然后構建本體和數據庫的schema的映射以及數據之間的匹配,就可以方便的實現數據的集成和數據的語義關聯,并且可以利用構建的本體和通過本體集成得到的知識圖譜來對自然語言做解析,從而將自然語言查詢直接轉化為SQL去查數據庫,并且給出答案,答案可以是用圖表的方式來給出。下面給出一個例子(圖6):
圖6 ?數據庫集成和問答系統示例
如用戶提問“龍蟠路高鐵南站出口2013年8月1日經過的本田車輛有哪些”,系統直接給出結果。
六、面向知識圖譜的智能問答
最近幾年,問答(Question answering)重新受到廣泛的關注,主要原因還是因為有IBM Watson的出現(見The AI Behind Watson - The Technical Article)。Watson雖然號稱可以做很多領域(比如說法律有ROSS ROSS and Watson tackle the law - Watson),但是事實上,Watson最早提出的時候只是為智力競賽節目Jeopardy(Jeopardy! Official Site | Jeopardy.com,類似開心辭典和一站到底)定制的,類似下面這種:
Category: General Science?
Clue: When hit by electrons, a phosphor gives off electromagnetic energy in this form.?
Answer: Light (or Photons)
也就是說,問題會有一些分類,然后出題的人會給出一些暗示(Clue),做題的人或者機器根據這些暗示給出答案。
Watson的問答系統采用了wikipedia和DBpedia、Yago等半結構化數據以及圖譜數據,但是更多的還是從文本中提取各種證據(evidence)來回答。IBM Watson系統架構見下圖(圖7)。
圖7 ?IBM Watson系統架構
IBM Watson系統被神化成可以在任何領域適用,導致只要做問答相關項目,都容易被挑戰跟Watson有什么差異。事實上,Watson系統和很多人工智能系統一樣,是高度定制化的,當然,相關技術確實是可以用到多個領域,但是需要有一定的變化。
東南大學認知智能研究所借鑒了Watson技術,啟動了一個佛學考試機器人項目,旨在回答佛學相關問題。為了做這個系統,需要先構建一個佛學知識圖譜,通過圖譜和佛學相關的網頁,利用問答技術解題。考試題目例子如下:
1.僧伽是①涅槃義②和合眾③殺賊義。
2.「諸行無常、諸法無我、涅盤寂靜」稱為①三種無常②三法印③三乘道。
3.人生最大的錯誤是①殺生②妄語③邪見。
下面是系統的截屏:
七、輔助判案
知識圖譜技術可以幫助我們快速構建一個法律知識圖譜,目前還缺乏法律知識圖譜的理論工作。跟其他領域的知識圖譜相比,法律知識圖譜需要考慮法律的邏輯,下面就是一個法律知識圖譜的片段:
從上面這個例子可以看出,每一個犯罪行為都有主體、客體、主觀要件和客觀要件,我們就需要從文本中去抽取這些信息,從而形成一個關于犯罪行為的圖譜,而通過對海量判決書的挖掘,可以建立犯罪行為之間的關聯,比如說,防衛過當和故意傷害之間有一個關聯,即誤判為的關系。通過這個圖譜,給定一個判決書,可以輔助法官判的一個案件是否有誤判,是否需要補充信息。
致謝:感謝王昊奮博士對本文部分內容的建議。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的漆桂林 | 知识图谱的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 神经网络不应视为模型,推理过程当为机器学
- 下一篇: 仅使用numpy从头开始实现神经网络,包