运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成
? ? ? ? 目前,事理圖譜在描述領(lǐng)域事件時空信息上具有獨特性,這種邏輯圖結(jié)構(gòu)能夠以一種直觀的方式向我們展現(xiàn)出一個領(lǐng)域知識的鏈路信息。從學(xué)術(shù)的角度上來說,事理圖譜與事件抽取、事件關(guān)系抽取、腳本學(xué)習(xí)、事件鏈生成、篇章句間關(guān)系識別、圖譜圖結(jié)構(gòu)運算等多個研究方向關(guān)系密切,具有很強的理論和技術(shù)挑戰(zhàn)以及研究價值;與學(xué)界不同,工業(yè)界則更多地考慮事理圖譜的落地實現(xiàn),即解決抽象技術(shù)理論與實際業(yè)務(wù)場景之間的結(jié)合問題。我們目前在事理圖譜中積累了一些經(jīng)驗,并積累形成了400W規(guī)模的全行業(yè)事理圖譜,實現(xiàn)了從領(lǐng)域事理到領(lǐng)域知識圖譜(公司知識圖譜、產(chǎn)業(yè)鏈知識圖譜)的通路,并在此基礎(chǔ)上,不斷尋求應(yīng)用場景,下面是我們目前已經(jīng)或正在嘗試的應(yīng)用點,供大家一起討論。
一、基于金融事理圖譜的新聞預(yù)警
? ? ? ? 事件預(yù)警是目前我們使用事理圖譜的應(yīng)用嘗試,事件預(yù)警是一個面向商品領(lǐng)域的重要資訊預(yù)警產(chǎn)品。我們通過監(jiān)控上千家全行業(yè)網(wǎng)站,實時采集相關(guān)資訊,通過抽取識別資訊中的事件,將事件與事理圖譜中的事件進(jìn)行鏈接,結(jié)合情感分析技術(shù)、文本標(biāo)簽技術(shù)、文本重要性判定技術(shù)對具有影響力的資訊進(jìn)行過濾,最終為用戶實現(xiàn)自定義標(biāo)地的預(yù)警資訊篩選以及基于該預(yù)警資訊的影響尋跡探索。
圖1
如下圖1所示,對于采集到的資訊,我們會對其進(jìn)行判定,給出該資訊所能造成的影響,為了能夠?qū)ψ罱K結(jié)果給出影響的原因解釋,我們給出了該影響所遵循的事理圖譜鏈條,如頁面的右側(cè)所示的事理圖譜縮略圖。在點擊事理圖譜縮略圖后,可進(jìn)入詳情頁
圖2
如圖2所示,頁面給出資訊全文,影響事件事理圖譜(可支持全屏點擊拓展查看),在頁面的右側(cè),我們列舉了與當(dāng)前資訊具有事件影響相關(guān)的歷史資訊,類似于kensho的做法,通過這種方式,我們嘗試將歷史事件影響應(yīng)用于當(dāng)前的資訊推薦與風(fēng)險預(yù)警當(dāng)中。事件預(yù)警是其中的一個應(yīng)用例子,此外我們還正在開展事理圖譜在其他領(lǐng)域的嘗試,如文本理解可視化系統(tǒng)等,歡迎持續(xù)關(guān)注我們的工作。
二、基于事理抽取技術(shù)的文本可視化
? ? ? ? 文本可視化技術(shù)是自然語言處理技術(shù)在信息抽取領(lǐng)域與信息領(lǐng)域中的一項重要技術(shù),涉及文本分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、計算機圖形學(xué)、人際交互等理論方法,通過該技術(shù),可以進(jìn)一步將人從大段文本中解放出來,從而更好的理解復(fù)雜的文本內(nèi)容、結(jié)構(gòu)以及內(nèi)在規(guī)律,目前文本可視化的方法[1]主要包括基于此品的可視化(標(biāo)簽云);以網(wǎng)絡(luò)圖、后綴樹、鏈路圖等表示方法來展示文本內(nèi)在關(guān)系;利用網(wǎng)絡(luò)圖等反映文本間的飲用等外在關(guān)系。將事理圖譜和文本可視化技術(shù)進(jìn)行融合,可以提供一種新型的文本可視在這里插入圖片描述化方法。
? ? ? ? 接下來,我們對比兩種可視化的方法。一種是對文本進(jìn)行關(guān)鍵詞提取、命名實體識別(人名、地名、機構(gòu)名)進(jìn)行事件識別,形成的知識網(wǎng)絡(luò),這種網(wǎng)絡(luò)化展示方式能夠借助知識實體、實體所屬的知識類型、實體之間的歸屬關(guān)系對文章進(jìn)行一種結(jié)構(gòu)化的信息展示,如圖3所示。
另一種是通過提取文章中的實體性事件,抽取事件之間的關(guān)系,并以此形成事件鏈的形式,這種形式與前一種方式相比,更具有邏輯性和時空屬性,如圖4所示。
四、基于出行事理的路徑規(guī)劃與推薦
? ? ? ? 事理圖譜本身所刻畫的是一種具有時空屬性的關(guān)系型知識,而在我們現(xiàn)實生活當(dāng)中,具有時空屬性(包括先后順序,空間的先后順序)的例子有許多。
圖5
根據(jù)火車網(wǎng)huoche.net中有所有車次的信息顯示,其中T字頭的有564趟,D字頭有3712趟,C字頭1538趟,G字頭3011趟,K字頭2968趟,Z字頭354趟,L字頭418趟,Y字頭55趟,S字頭30趟。 這些火車在既定的路線上行駛,形成一個龐大的有向環(huán)圖,而如果對這個有向環(huán)圖的關(guān)系邊進(jìn)行標(biāo)注,我們可以形成一個以火車站點為節(jié)點的火車出行事理圖譜,基于這個事理圖譜,我們可以進(jìn)行多種有意義的探索。基于一個地點,我們通過這張圖譜,可以知道在理論時間之后另一個地點上可能觸發(fā)的動作,如酒店、換乘等,這利于我們進(jìn)行路徑規(guī)劃和推薦。
圖6
實際上,火車票,汽車票,飛機票,城市信息等在網(wǎng)絡(luò)上也較為全面,這些都為出行領(lǐng)域應(yīng)用場景提供了數(shù)據(jù)基礎(chǔ)。目前,我在出行領(lǐng)域知識圖譜中將對該想法進(jìn)行嘗試。參見:https://github.com/liuhuanyong/TravelKnowledgeGraph。
五、基于事理圖譜模型的歷時事件流生成
? ? ? ? 目前快訊在當(dāng)前的流媒體中使用較多,是事件流的一種形式,快訊形式主要包括文章首句、文章摘要、基于特定模版生成的文本等。其中,文章首句這種方式是對篇章部分的截取,文章摘要通常基于textrank等方法找出文章中最重要的句子返回;基于特定模版的方式接近于基于元數(shù)據(jù)的句式生成,這通常需要人工事先進(jìn)行編輯。事理圖譜為快訊的生成提供了另一種可能,通過對領(lǐng)域新聞報道(主要指記敘文)進(jìn)行事理建模,如體育新聞中的比賽流程、地震報道中的地震->救援->重建等流程等?;陬I(lǐng)域事理模型,將能夠更好地進(jìn)行事件流。
? ? ? ? 歷時事件流,基于歷時語料,可以對特定實體的事件線進(jìn)行抽取,形成以實體entity為核心的歷時事件流,這個歷時事件是特定時間內(nèi)與該實體相關(guān)的重要事件,有點類似于維基百科中的人物大事記,如下圖7所示。
圖7
維基百科中的大事記這種展示方式存在兩個主要不足:一是展示的粒度太大,還可以進(jìn)一步進(jìn)行細(xì)化處理;而是人工編輯方式,不夠自動化。因此,使用事理抽取技術(shù),在大規(guī)模的歷時語料庫中進(jìn)行抽取,可以實現(xiàn)許多有趣的應(yīng)用,對于英文來說,可以使用紐約時報,紐約時報從1851年創(chuàng)刊至今有兩百多年的歷時語料庫;對于中文來說,有人民日報語料,從1953年至今共60余年的語料;主流網(wǎng)絡(luò)新聞媒體如騰訊新聞有從2006年至今共12年的歷時語料,這些語料都為我們進(jìn)行歷時事件抽取、事理抽取等提供了基礎(chǔ),如圖8、圖9分別展示了第一次和第二次世界大戰(zhàn)的一個事件流。
圖8
基于該技術(shù),我們可以形成一個歷史事件流知識庫,基于該事件流知識庫,可以支持百科知識補全、人物事件檢索及問答等服務(wù)。
圖9
總結(jié)
? ? ? ? 事理圖譜,本身是個學(xué)術(shù)概念和學(xué)術(shù)熱點,其中所涉及到的自身技術(shù)細(xì)節(jié)以及關(guān)聯(lián)學(xué)科方向決定了這個研究問題本身的困難性,在實際的研究過程中會發(fā)現(xiàn)諸如事件表示方式、事件關(guān)系識別、領(lǐng)域事件演化模型建模等多方面的技術(shù)難題,正如目前的知識圖譜一樣,我們必須承認(rèn)這一點。而如何結(jié)合應(yīng)用,來對事理圖譜進(jìn)行檢驗,進(jìn)一步倒逼技術(shù)的進(jìn)步,或許是一個出路,本文主要為了解決這一問題,介紹了我們目前正在嘗試的應(yīng)用場景,包括新聞預(yù)警、文本可視化、事件監(jiān)測、摘要生成、歷史事件流生成等幾個應(yīng)用場景,供大家討論,歡迎各位批評指正。如有合作等方面的需求,可歡迎與我們聯(lián)系,一起推動事理圖譜相關(guān)技術(shù)的進(jìn)步以及在實際應(yīng)用場景中的運用。
參考文獻(xiàn):
[1]唐家渝, 劉知遠(yuǎn), 孫茂松. 文本可視化研究綜述[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2013, 25(3): 273-285.
[2]https://www.google.com.hk/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=2ahUKEwjN2IPJ9vbfAhXIybwKHf5yBLoQjB16BAgBEAQ&url=https%3A%2F%2Fwww.tigermoon.co.uk%2Fproducts%2Fworld-war-1-timeline&psig=AOvVaw144Z89c9OiN_4wvuhlj6ZM&ust=1547886971350928
[3]https://www.google.com.hk/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=2ahUKEwjbkJjN_PbfAhVS5rwKHeVwBmUQjhx6BAgBEAM&url=http%3A%2F%2Fwww.creativoeducation.co.uk%2Fworld-war-two-timeline-wall-panel%2F&psig=AOvVaw144Z89c9OiN_4wvuhlj6ZM&ust=1547886971350928
文章為原創(chuàng),如有轉(zhuǎn)載,請注明出處。
作者簡介:
劉煥勇,中國科學(xué)院軟件研究所,主要從事信息抽取、社會計算、知識圖譜與事理圖譜相關(guān)研發(fā)工作。如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設(shè)等問題或合作,可聯(lián)系作者:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學(xué)院軟件研究所,lhy_in_blcu@126.com
總結(jié)
以上是生活随笔為你收集整理的运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android官方开发文档Trainin
- 下一篇: Pytorch 实现 MLP