日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

虚拟专题:知识图谱 | 事件图谱的构建、推理与应用

發布時間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 虚拟专题:知识图谱 | 事件图谱的构建、推理与应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

來源:《大數據

事件圖譜的構建、推理與應用

胡志磊1,2,3,?靳小龍1,2,3,?陳劍赟4,?黃冠利5

1?中國科學院網絡數據科學與技術重點實驗室

2?中國科學院計算技術研究所

3?中國科學院大學計算機科學與技術學院

4?北京市信息技術研究所

5?北京電子科技職業學院

?摘要近些年,知識圖譜的構建技術得到了極大的發展,構建好的知識圖譜已經被應用到眾多領域。在此基礎上,研究者將目光從知識圖譜轉向事件圖譜。事件圖譜以事件為核心,準確地描述了事件信息以及事件之間的關聯關系?;诖?#xff0c;總結了事件圖譜在構建、推理與應用方面的關鍵技術,主要包括事件抽取、事件信息補全、事件關系推斷以及事件預測技術。給出了事件圖譜的具體應用場景,并且針對事件圖譜研究中存在的挑戰,對未來的研究趨勢進行了展望。

關鍵詞知識圖譜?;?事件圖譜?;?事件知識?;?事件抽取?;?事件推理

論文引用格式:

胡志磊, 靳小龍, 陳劍赟, 等. 事件圖譜的構建、推理與應用[J]. 大數據, 2021, 7(3): 80-96.

HU Z L, JIN X L, CHEN J Y,? et al. Construction, reasoning and applications of event graphs[J]. Big Data Research, 2021, 7(3): 80-96.


1 引言

隨著信息技術的飛速發展,目前整個社會已經邁入了大數據時代。大數據時代下每時每刻都在產生龐大的數據。在龐大數據的背后,蘊含著眾多有價值的信息。但是由于數據種類繁多、數據量龐大,難以高效、準確地獲取有用的信息。為了更加高效地獲取數據背后的信息,提高獲取信息的效率,研究人員開始研究并使用自動化的工具從原始數據中抽取有價值的信息。這種自動化的技術被稱為信息抽取技術,可以極大地提高工作效率,節省時間。與此同時,由于信息抽取技術逐漸走向成熟,一種新的數據組織形式逐漸形成,實現了知識互聯,適應了用戶的認知需求,其被稱為知識圖譜。

知識圖譜的概念由Google公司在2012年正式提出,目的是提高搜索引擎的性能,提供更加友好的搜索結果。隨后知識圖譜在學術界受到了極大的關注,其構建技術也在飛速發展。目前,知識圖譜已經被廣泛地應用到知識問答、智能搜索、個性化推薦、軟件復用、政府治理等多個領域。隨著技術的不斷發展,現有研究內容已經從知識圖譜的實體識別、關系抽取技術擴展到了事件圖譜的構建與推理技術。事件圖譜刻畫了現實世界中發生的事件,對事件信息進行了準確描述。事件圖譜中蘊含眾多事件知識,事件知識的特點是擁有眾多維度,例如時間維度、邏輯維度、關系維度等。

本文對現有的關于事件知識的研究做了總結,從事件圖譜的構建、推理與應用3個方面闡述了相關技術的研究現狀。最后,本文展望了事件圖譜的發展方向。

2 知識圖譜與事件圖譜

知識圖譜本質上是一種語義網絡,包含實體以及實體之間的關系。實體是知識圖譜中最基本的概念,一個實體代表了現實世界中的一個事物或者一個概念。關系代表的是實體和實體之間的關聯。另外,知識圖譜中的屬性代表的是實體具有的某個特征,其描述了實體的相關信息。知識圖譜刻畫了現實世界中的事物以及事物之間的各種關系,其主要表示形式是三元組,包括屬性三元組和關系三元組。知識圖譜存儲了結構化數據,適合對數據進行搜索和推理,已經在知識問答、智能搜索等方面發揮了重要的作用。

事件是文本中包含的一種信息,其定義為在某個特定的時間以及特定的地點,由多個相關角色參與的一件事情或者一組事情。隨著知識圖譜技術的發展,越來越多的研究者開始關注一種特殊的基于事件的知識圖譜,即事件圖譜。在此基礎上,本文將事件圖譜定義為:一種以事件為中心,用來描述事件信息以及事件之間各種關系的圖譜。事件圖譜和知識圖譜主要的不同點是事件圖譜主要的研究對象是事件,描述了與事件相關的知識、事件的演變過程以及事件間的關聯關系。而知識圖譜主要的研究對象是實體,主要描述的是實體屬性以及實體之間的關系。在事件圖譜中,圖的節點表示事件,圖上的連邊表示事件之間的時序、因果、順承、包含等關系。事件圖譜示例如圖1所示,圖1展示了收購事件、股價上漲事件和股價下跌事件的事件論元以及事件之間的關聯關系。從圖1中可以看到,收購事件的收購方是公司A,被收購方是公司B,收購金額是350億美元,收購時間是2020年10月27日。另外,由于收購事件導致了股價上漲事件和股價下跌事件的發生,因此收購事件分別與股價上漲事件、股價下跌事件之間具有因果關系以及隱含的時序關系。

圖1???事件圖譜示例

在事件圖譜的構建、推理與應用的過程中,需要用到多種智能化信息處理技術,核心技術主要包括事件抽取技術、信息補全技術、關系推斷技術以及事件預測技術。面對開放網絡上的文本數據,首先要做的任務是事件抽取。事件抽取技術可以從非結構化的文本數據中提取出與事件有關的信息,并將信息以結構化的形式呈現出來。而信息補全技術是利用事件圖譜中已有的知識,推理補全事件圖譜中缺失的事件論元知識。關系推斷技術則是利用文本中的信息來推斷出事件之間的共指、時序以及因果等關系。最后,事件預測技術被用來預測未來可能發生的事件,分析事件的演變趨勢。構建好的事件圖譜具有廣闊的應用場景,主要包括熱點事件檢測、事件脈絡分析以及未來事件預測等。

3 事件抽取

事件是文本中包含的一種特殊信息,事件抽取就是從非結構化的文本數據中抽取與事件有關的各種角色,將信息用結構化數據表示。按照確定事件類別的方法,事件抽取可以被分為限定域事件抽取和開放域事件抽取。

3.1 限定域事件抽取

限定域事件抽取是指在進行抽取任務之前,已經確定好了相應的目標事件類型和相應的結構。另外,限定域事件抽取任務還會給出一些標注數據。因為事件標注較為復雜,需要耗費一定的人力物力,所以數據集規模一般較小。在事件抽取領域中較為常用的標準數據集是ACE 2005語料庫。關于限定域事件抽取的研究較多,目前研究主要采用的是深度學習方法,幾種代表性的神經網絡方法如下。

(1)基于注意力機制的方法

在進行事件抽取時,許多研究者使用了注意力機制,以此來提升神經網絡模型的效果。注意力機制是一種仿生技術,借鑒了人類的選擇性注意行為。選擇性注意行為是指人類在進行觀察時,視覺會快速掃描全局圖像,從而確定要重點關注的內容,抑制或忽略其他無關的信息。研究者受此啟發,提出了深度學習中的注意力機制,核心目標就是在眾多信息中選擇對于當前任務來說最關鍵的信息。

ACE 2005語料庫給出了每個事件的事件觸發詞和事件論元。但是之前的研究者并沒有充分利用數據集中的標注信息,更多地依賴句子的語義信息,忽略了被標注的論元信息。因此,Liu S等人提出了一種新的方法,利用論元信息來加強對觸發詞的識別和分類。該方法將句子中的單詞信息、上下文的單詞信息、上下文的實體信息結合起來,組成單詞的觸發詞候選項。他們還采用了一種有監督的注意力機制更加深入地提取句子中的有效信息,句子中的事件觸發詞會比其他上下文單詞獲得更多的注意。最后該方法使用了一個多分類的神經網絡模型完成事件抽取任務,充分利用了語料庫中被標注的論元信息。

上述方法將句子中的多個事件視為獨立事件,只是利用單個句子內部的信息來檢測事件。但是句子中表達的事件是相互關聯的,單純地利用句子內部的信息不能很好地區分某些事件。因此Chen Y等人提出了一種分層的基于門控注意力機制的偏差標記網絡,目的是融合句子和文檔的信息,從而進行多事件識別和抽取。該方法采用了一種新的思路,將事件抽取看作一種序列標注問題。模型中首次添加了一個層次化的基于循環神經網絡(recurrent neural network,RNN)的標簽層來捕捉所有事件的依賴關系,同時設計了一種偏差目標函數來增強觸發標簽對模型的影響。除此之外,為了充分利用事件候選項的上下文信息,該方法采用了一種基于門控的多層次注意力機制,可以自動提取句子和文檔中的信息,并進行動態的集成。該方法充分利用了事件之間的關聯關系,融合了文檔信息來增強事件識別的結果??梢钥吹?#xff0c;基于注意力機制的方法實現了對信息的有效提取,使得事件識別更加準確。

(2)基于預訓練模型的方法

一般來說,為了更好地訓練神經網絡模型,需要為模型提供大規模的標注數據。但是構建大規模的標注數據耗時耗力,難以滿足要求。相比之下,大規模未標注的語料卻很容易構建。為了利用大量的未標注數據,研究人員提出了預訓練模型。預訓練模型可以從大規模的語料中提取隱含的語義信息,學習到更好的通用語義表示向量,從而提高下游任務的表現。

Yang S等人針對現有遠程監督事件抽取方法中存在的問題,將目光轉向預訓練的語言模型,希望利用從大規模語料庫中學習到的知識表示向量來提高模型的性能。其設計了一種基于預訓練語言模型的事件抽取(pre-trained language model based event extractor,PLMEE)模型。該模型的結構如圖2所示。他們將事件抽取看作由兩個子任務組成,兩個子任務分別是觸發詞抽取和論元抽取,并提出了以預訓練語言模型為基礎的觸發詞抽取器和論元抽取器。基于預訓練模型的方法會使事件的語義表示更加精確。但是現有的方法將事件抽取看作兩個子任務,構建的是流水線模型,存在明顯的錯誤傳遞問題。

(3)基于圖神經網絡的方法

過去幾年深度學習技術興起,以神經網絡為代表的技術被用來提取歐氏空間中的數據特征。但是現實世界中還有眾多場景使用的是非歐氏空間數據,其中具有代表性的就是圖數據。圖數據被廣泛應用在多種場景,如電子商務的推薦系統、知識圖譜的在線推理等。但是圖數據結構復雜性較高,之前的神經網絡方法無法直接被使用。因此,研究人員借鑒了卷積神經網絡、循環神經網絡以及深度自動編碼器的思想,設計了一種專門用來處理圖結構數據的神經網絡,即圖神經網絡。圖卷積神經網絡(graph convolutional network, GCN)是指在圖數據中應用卷積操作,其核心思想是學習到一種函數對節點進行表示。通過函數變換,一個節點自身的特征可以結合其臨近節點的特征,從而生成節點新的表示。

圖2???PLMEE模型結構

在事件抽取、關系抽取等任務中,一般利用詞嵌入等方法將輸入序列轉換為連續的向量,并沒有使用句子的結構信息。為了在神經網絡中引入句法結構特征,Nguyen T等人提出了一個基于句法依存樹的GCN模型用于事件抽取。在GCN中,每個節點的卷積向量是由相鄰節點的表示向量計算出來的,可以作為該節點的唯一特征進行分類。另外,模型中通過對當前單詞的卷積向量以及句子中提到的實體進行池化操作,克服實體指稱無法捕捉的問題。池化操作聚合了卷積向量,從而為事件類型預測生成了單個向量表示。該方法在事件抽取中引入了GCN模型,將句法依存樹上的信息進行聚合,首次利用了句子中的結構信息。

除此之外,Liu X等人設計了一個新的聯合多事件抽取(jointly multiple events extraction,JMEE)框架。該框架利用基于注意力機制的圖卷積神經網絡進行建模,并通過引入句法依存樹中的句法捷徑弧來增強信息流,以此來提升在一個句子中抽取多個事件的效果。使用句法捷徑弧可以減少將信息流從一個節點轉換到目標節點的轉換次數。與基于序列的模型相比,該方法會使在同一個句子中從一個事件觸發詞跳到另一個事件觸發詞的跳數明顯減少。GCN會利用輸入的句法捷徑弧,聚合目標節點一階鄰居的信息,為每個節點學習到其句法上下文的表示。之后,模型通過自注意力機制進行信息聚合,保留了多個事件之間的信息,用于抽取事件觸發詞和論元?;趫D神經網絡的方法有效地利用了句法依存樹中包含的信息。但是基于圖神經網絡的模型的計算量比較大,且只適用于對構建好的靜態圖進行處理。

(4)其他神經網絡方法

除了上述方法,還有眾多方法被應用到事件抽取任務中,也取得了良好的效果。例如,Liu J等人設計了一種新的基于對抗模仿的知識蒸餾方法,目的是從句子中獲取知識來進行事件抽取。該方法首先構建了一個教師模塊,充分利用標注數據來學習知識表示,之后建立相應的學生模塊用于測試。在訓練過程中,鑒別器通過檢測教師模塊和學生模塊的輸出來區分兩者。同時,學生模塊會盡可能地模仿教師模塊,生成與教師模塊相似的向量來迷惑鑒別器。該方法有效地完成了知識蒸餾,得到的新模型參數量少,且性能接近復雜模型。

Hong Y等人利用具有自我調節機制的生成式對抗網絡來完成事件抽取任務,提高事件抽取的性能。一般來說,生成模型產生的虛假特征往往來自語義上的偽相關上下文,在訓練過程中神經網絡可能會錯誤地、不自覺地保留記憶,從而產生虛假的特征。因此該模型采用了一種雙通道自調節的學習策略來調節學習過程,還添加了一對生成判別模型。在自學習過程中,生成模型被用來生成虛假特征,而判別模型被用來消除錯誤。該方法減輕了虛假特征對結果的影響,提升了事件抽取的效果。

3.2 開放域事件抽取

開放域事件抽取和限定域事件抽取的不同是事件類型不需要預先指定。因此,開放域事件抽取一般沒有人工標注數據,主要使用無監督的方法。這種方法主要基于統計的思想,當事件觸發詞和事件論元相似時,其表達的事件類型也相似。在此過程中,聚類方法和概率模型的使用較為廣泛。

開放域事件抽取的目標是抽取所有類型的事件,不對事件類型進行限定,有更高的事件覆蓋率。Araki J 等人提出了一種基于遠程監督的自動生成訓練數據的方法,不依賴人工標注的數據。該方法利用WordNet進行遠程監督,以此來生成高質量的事件分類數據。之后,生成的數據被用來對事件判別器進行訓練。該方法可以生成大量的訓練數據,但是訓練數據的準確程度無法保證,會導致判別器的結果較差。

除此之外,目前貝葉斯圖形模型(Bayesian graphical model)被用于對開放域事件進行結構化的表示,但是這種方法假定所有的單詞都是由單個事件產生的,具有一定的局限性。因此Wang R等人提出了一種基于生成式對抗網絡的事件抽取模型,稱之為對抗神經事件模型(adversarial-neural event model, AEM)。該模型使用狄利克雷分布對事件進行建模,并利用生成器網絡捕捉潛在事件。該模型可以用來處理不同長度的文檔,適用范圍比較廣泛。另外,Naik A 等人將對抗域自適應(adversarial domain adaptation,ADA)框架應用到開放域的事件觸發詞識別任務中。該方法是一個無監督的過程,不需要目標域的標記數據,實驗結果顯示了該框架的有效性。

事件抽取技術是用于構建事件圖譜的基礎技術,影響著后續任務的精度,是極其重要的。針對這一任務,研究者提出了眾多新方法。研究者期望通過不斷探索,設計出更多適合此任務的神經網絡,不斷提高事件抽取的準確率。雖然目前已有的方法取得了不錯的結果,但是該領域的評估標準還不是很明確,所使用的標準數據集規模也比較小。未來需要進一步明確評估標準,提出規模更大的標準數據集用于研究。

4 事件信息補全

事件抽取技術主要用于獲取事件知識,但是事件抽取的結果往往是不完整的,存在部分論元缺失、論元抽取不準確等情況。為了對事件抽取的結果進行補全,就需要用到信息補全技術。信息補全技術依托于相應的事件圖譜,根據圖譜中的相關知識對缺失的知識進行補全。目前,信息補全和鏈接預測也是知識圖譜領域的研究熱點,但是研究者們主要關注二元關系事實。二元關系事實通常表示為三元組,即(頭部實體,關系,尾部實體)。而在事件圖譜當中,存在眾多的多元關系事實。多元關系事實一般通過引入虛擬實體分解為多個三元組,例如Freebase中的復合值類型(compound value type, CVT)實體。目前研究者已經開展了對多元關系推理的研究,提出了一些方法。而這些多元關系推理方法可以應用在事件信息補全任務中,多元關系事實的預測對于事件圖譜的補全具有重要意義。

在將實體轉換為多個三元組實體的過程當中,Wen J等人認為在轉換過程中會造成結構信息的丟失,可能導致鏈接預測不準確。因此他們提出了一種基于翻譯的方法m-TransH來對這些實例進行建模。在該方法中,關系(二元關系或多元關系)是由對應于該類型關系的一系列角色到其值的映射來定義的,每個特定的映射都是此關系的一個實例。但是m-TransH并沒有考慮在同一多元關系事實中各成分之間的相關性。在此基礎上,Zhang R C等人提出了一種新穎的相關性關聯嵌入(r elatedness affiliated embedding, RAE)模型,還提出了一種可伸縮實例重構(scalable instance reconstruction, SIR)算法。RAE通過對各成分之間的相關性進行互補建模,進一步改進了m-TransH方法。這里的相關性是指兩個值在共同實例中共同參與的可能性。

而Guan S P等人并沒有對多元關系事實進行分解,而是將每個多元關系事實表示為一組角色-值對。他們提出了一種對多元關系數據進行鏈接預測的方法NaLP,該方法對同一多元關系事實中所有角色值對的相關性進行了建模。在該方法中,他們認為一個角色與其值是緊密相連的,因此應該綁定在一起。同樣地,如果在同一個組中的所有角色-值對都緊密相關,就假定這組角色-值對很有可能構成有效的關系事實?;谏鲜黾僭O,NaLP方法中包含兩個關鍵組件,分別是角色值對嵌入和相關性評估。對于給定的關系事實,需要首先學習到角色-值對的嵌入表示,再在相關性評估組件中計算角色-值對的成對相關性。之后還需要估計關系事實的整體相關性,獲得最終的評估得分,并用于計算損失函數。該方法有效地建模了多元關系事實中角色和值之間的相關性,充分利用了多元關系事實中的內部信息。另外,由于公開可用的多元關系數據集有限,他們基于Wikidata中的原始數據構建了一個實用的多元關系數據集WikiPeople。

Guan S P等人還進一步提出了神經網絡模型NeuInfer,用于對多 元關系事實進行知識推斷。NeuInfer不僅可以用于推斷整個事實的未知元素,還可以用于新型任務,進行靈活知識推斷。該模型使用的事實是由主要三元組以及任意數量的輔助描述組成的。他們假設一個有效事件的主三元組是有效的,而不管其有沒有輔助描述。另外,每個輔助描述都與主三元組相關,可以作為主三元組的某個特征。該模型首先對主三元組的有效性進行評估,得到相應的有效性得分。之后再對主三元組與描述信息的兼容性進行評估,得到兼容性得分。最后,模型將有效性得分和兼容性得分的加權和作為最終的分數。該方法主要利用了事實中的主三元組以及輔助描述,可以根據部分知識進行知識推理。

在事件信息補全的過程中,不僅需要對二元關系事實進行補全,還需要對多元關系事實進行補全。目前多數研究者認為將多元關系事實分解為多個三元組會導致多元關系事實內部的關系信息丟失,可能會加劇信息補全精度不夠高的問題。因此,上述方法都將多元關系事實看作一個整體,保留了原有數據的信息。目前用于事件信息補全的方法還比較少,補全精度還不夠高,需要進行深入研究。

5 事件關系推斷

對于一篇給定的文本,文本中存在多個事件。與此同時,事件之間有可能是相互關聯的,可能存在多種關系。事件關系推斷技術則利用文本中的信息來推斷事件之間的關系,主要包括共指關系、時序關系以及因果關系等。早期基于規則的方法實現簡單,但依賴于人工制定的規則,實用性不高。隨著深度學習技術的發展,眾多深度學習方法被應用到關系推斷任務中,本文簡要介紹了相關的方法。

5.1 事件共指關系

事件共指關系指的是給定描述事件的文本,如果兩個事件指向同一個事件實例,則這兩個事件之間存在共指關系。當文本中的多個事件指向一個事件實例時,則多個事件組成了一個共指事件鏈。在共指事件鏈中的任意兩個事件都具有共指關系。事件共指關系可以分為文檔內事件共指和跨文檔事件共指。進行事件共指關系的推斷有助于計算機更好地理解事件發展的脈絡,對于綜合全局信息、推測事件演變、預測未來事件具有重要的意義。

Zeng Y T等人提出了一種新的基于事件轉述和論元感知語義嵌入的EPASE模型。該模型會在特定事件的上下文中識別深層次的轉述關系,并且可以涵蓋更多情況的事件轉述。另外,由于自變量角色的嵌入被編碼為事件嵌入,無須依賴固定數量和類型的自變量,因此該模型具有良好的可伸縮性。該方法首次將轉述關系引入了事件共指任務,通過句子中的完整語義信息來識別句子之間的轉述關系,充分利用了上下文信息。該方法有效地將自注意力機制和特殊事件的標識結合起來,只對選取的特定事件進行關注,排除了文本中噪聲信息的干擾。

5.2 事件時序關系

事件時序關系是指兩個事件發生的先后關系。時間是事件的一個天然屬性,事件發生時間的不同揭示了事件之間存在的先后關系。通過對時序關系的分析可以獲取事件從開始到結束的演化過程,有助于對未來事件進行預測。事件時序關系抽取是自然語言處理領域中的重要研究方向,受到了越來越多研究者的關注。

Cheng F等人提出了一個基于雙向長短期記憶的神經網絡模型進行時序關系抽取。該方法使用了句子的依存路徑,將詞向量、詞性向量和依存關系向量拼接,并將拼接后的向量作為模型輸入的向量。在此基礎上,為了解決跨句子實體之間不存在依存路徑的問題,假設兩個相鄰的句子共享一個根節點。通過在模型中加入多種特征,該方法的實驗結果取得了有效的提升。Han R J等人為了解決在事件抽取和事件時序關系識別兩階段任務中存在的誤差傳遞問題,提出了一種聯合學習方法,同時進行事件抽取以及時序關系識別。他們在兩個子任務中共享了事件表達,利用結構化約束和整數線性規劃來優化問題,提升了事件表達效果,緩解了誤差傳遞的問題。另外,他們還提出了深度結構化學習框架的方法,利用遞歸神經網絡學習事件的時序關系表示,同時采用結構化支持向量機(structured support vector machine, SSVM)進行預測。該方法在多個數據集上取得了優秀的結果,作者還通過消融實驗進行了廣泛的誤差分析。

在此基礎上Han R J等人還指出,之前的方法中只利用了例如硬約束的結構化知識,同時因為訓練數據有限,進行時序關系分類時會引起偏差。因此他們提出了一個新的框架,通過概率領域知識構建的分布約束來增強深度神經網絡的性能。新的方法還將拉格朗日松弛方法應用到時序關系抽取任務中,取得了最優性能。Wang H Y等人設計了一種新的聯合約束學習框架,利用時間和子事件關系之間的邏輯約束對模型進行正則化。同時,他們設計了新的事件復合結構,用來描述事件提及之間的關系結構。

5.3 事件因果關系

事件因果關系是指兩個事件之間的因果聯系,是一種復雜的語義關系。通過對事件因果關系進行分析,事件發生的前因后果會更加清晰。清晰的因果關系有助于進一步認識事件發展的過程,使得事件推理與事件預測更加準確,可以避免風險、提高收益,為決策者提供有力的支持。事件因果關系識別在事件預測中的重要性,吸引了眾多學者對其進行研究。

因為在事件關系推斷任務中缺少標準數據集,所以Caselli T等人提出了一個用于事件時序和因果關系檢測的數據集ESC(event storyline corpus)。ESC數據集的構建為之后的研究提供了便利。針對文檔級事件因果關系的識別任務,Gao L等人建模了粗粒度和細粒度的文檔級因果結構,在ESC數據集上取得了不錯的效果。他們設計了豐富的特征進行事件因果關系識別,包括詞法特征、因果潛在特征、句法特征,還利用事件共指鏈接將效果較差的句間預測問題轉換為句內預測問題。最后,他們使用整數線性規劃的方法來進行文檔級全局推理,用來抽取文檔中所有事件對的因果關系。該方法專門用于對事件因果關系進行識別,但是其并沒有對因果關系的方向進行區分。

Liu J等人還利用外部知識來提升事件的表示,設計了一種事件提及屏蔽機制來挖掘歷史數據中存在的因果關系。該方法將ConceptNet的知識引入了原有文本數據中,擴展了已有事件,涵蓋了更多的信息。另外,為了處理數據中新出現的事件,該方法利用事件提及屏蔽機制來發現因果關系模式,增加對上下文信息的關注。最后,模型對兩個組件做了權衡,用來充分發揮兩個組件的優點。實驗結果顯示,該方法效果顯著,在跨主題應用中也展現出很強的魯棒性。

事件關系推斷用于對事件之間的關系進行判斷,在此基礎上可以對事件圖譜進行完善,更好地刻畫事件之間的關系。之前研究者主要利用規則的方法進行事件關系推斷,現在已經引入了深度學習的方法,取得了不錯的效果。但是總體來說,目前對事件關系推斷技術的研究還不夠充分,尤其是事件因果關系這一方面。在事件因果關系的研究領域中缺少明確的任務定義以及足夠的標準數據集,這就需要研究人員在此領域中投入更多的精力,廣泛開展研究。

6 事件預測

事件預測主要指的是根據歷史事件來預測未來發生的事件。對未來事件進行準確預測具有十分重要的意義,既可以減少突發事件帶來的損失,也可以針對未來事件做出相應的應對部署,為整個社會帶來巨大的經濟效益。但與此同時,對未來事件進行預測是十分困難的,需要面臨很多的問題。這是因為對于許多事件來說,很難知道其發生的機制以及其背后的原因。隨著大數據時代的來臨,相關數據的規模不斷擴大,為事件預測的研究提供了基礎。因此,眾多研究者開始探索如何進行事件預測,提出了眾多有意義的方法。后文主要介紹腳本事件預測技術和基于圖卷積網絡的事件預測技術。

腳本事件預測技術根據給出故事的上下文來推斷出故事的結尾。在這一任務當中,事件是用腳本結構描述的,即利用腳本描述事件的參與者、事件類型、事件觸發詞等多個元素,之后利用現有腳本對未來的事件進行預測。腳本事件預測是由Chambers N等人在2008年提出的,需要在候選事件列表中選擇最有可能發生的事件,利用填空式的評估標準來評估模型,這種思路被稱為統計腳本學習。Chambers N等人設計了點互信息(pointwise mutual information,PMI)來計算事件對之間的關系。

目前腳本事件預測任務廣泛使用的評測方法是多選項完形填空(multiple choice narrative cloze,MCNC),該方法是由Granroth-Wilding M等人提出的。在MCNC任務中,完整的事件鏈中存在某處缺失,給定多個候選的后續事件,模型需要從多個候選項中選擇最符合邏輯的一項內容。Granroth-Wilding M等人采用深度學習的方法,設計了一種神經網絡來對事件鏈進行建模。他們設計了一個EventComp模型,使用孿生神經網絡(siamese network)代替原有的PMI。模型結構包含3層,分別是輸入層、論元組合層和事件組合層。最終,訓練后的模型與統計學習方法相比取得了極大的進步,證明深度學習方法在這一領域是有效的。

上述方法對事件對之間的關系進行了建模,并取得了不錯的效果,但是文本中事件之間豐富的連接信息并沒有被充分地利用。正因如此,研究者開始利用圖的方法對事件之間的連接信息進行建模。在事件構成的圖中,圖的節點表示單個事件,節點之間的邊表示事件之間的關系。Li B等人提出了一種眾包的構建事件圖的方法。另外,Glava? G等人提出了一種從文本中構建事件圖的有效方法。在此基礎上,Li Z Y等人提出了一種新的方法來充分利用事件之間稠密的連接信息。該方法首先構建了敘事事理圖譜,之后基于事理圖譜進行網絡表示學習,最后再利用得到的表示向量預測后續事件,模型結構如圖3所示。具體來說,在構建敘事事理圖譜的過程中,首先需要抽取腳本事件鏈條,之后利用抽取出來的鏈條構建圖譜。在構建好事理圖譜之后,模型每次會從中抽取一個子圖,學習并更新所選子圖上的事件表示。其中每個子圖都包括故事上下文、所有候選事件的節點以及這些節點之間的有向邊。該方法通過構建好的事理圖譜來學習事件表示,有效地利用了事件之間的關系。但是構建事理圖譜的過程較為復雜,構建好的圖譜規模較大,每次只能選取一個子圖來更新子圖上的事件表示。

圖3???SGNN模型結構

基于 圖卷積網絡的事件預測技術主要指的是在時序知識圖譜上利用圖卷積網絡進行推理的技術。時序知識圖譜主要由四元組構成,是在原有知識圖譜的三元組上添加了時間維度得到的。通過引入時間維度,時序知識圖譜可以更好地描述事件信息。因此對時序知識圖譜的未來狀態進行推理就是對未來的事件進行預測。

Han Z等人提出了一種全新的圖霍克斯神經網絡(graph Hawkes neural network,GHNN)。該神經網絡首次利用霍克斯過程進行建模,主要用于捕捉過去事件對未來事件的影響。通過捕捉時序知識圖譜上潛在的動態關系,該神經網絡可以用于對大規模時序多關系型數據進行分析,更加準確地對未來某一時刻發生的事件進行預測。與此同時,Jin W等人提出了一種新的循環事件網絡(recurrent event network,RE -NET)來預測將要發生的事件。該網絡主要分為兩個部分,一部分是對歷史事件的信息進行循環編碼,另一部分是對時序相鄰事件的信息進行聚合。RE-NET充分利用了歷史事件的信息、時序相鄰事件的信息以及同時發生事件的信息。通過聚合多種信息,該方法給出了所有事件的聯合概率分布,用來預測未來事件發生的概率?;趫D卷積網絡的事件預測方法可以利用歷史數據中蘊含的信息,捕捉到歷史事件對未來事件的影響。但是目前這種方法的準確率還比較低,需要開展進一步的研究。

對事件預測的研究是十分重要的,其具有廣闊的應用場景,事件預測是對事件圖譜的高級應用。目前在腳本事件預測任務中已經有了相對清晰的評測方法,研究者也提出了許多方法對事件鏈以及事件圖進行建模。除此之外,研究者還提出了基于圖卷積網絡的事件預測方法,采用新的方法對將來的事件進行預測??傮w來說,研究者對事件預測的關注度較高,期待取得更多的研究進展。

7 事件圖譜的應用場景

目前,知識圖譜已經被應用到各行各業,成為人工智能技術的重要組成部分。但是知識圖譜具有一定的局限性,只能描述與實體相關的知識。而現實世界中存在著大量的事件,事件是日常生活中不可或缺的一部分,充分利用與事件相關的知識會更加真實、具體地刻畫現實世界。因此,事件知識構成的事件圖譜具有廣闊的應用前景。將事件圖譜應用到人工智能技術中可以使產品的智能化水平更高,更加方便人們的生產和生活。具體來說,事件圖譜主要有熱點事件檢測、事件脈絡分析以及未來事件預測等應用場景。

7.1 熱點事件檢測

事件圖譜可以用于對熱點事件進行檢測。熱點事件發生突然,會在短時間內形成,而且時時刻刻在發生變化,傳統的方法難以應對。而采用與事件圖譜相關的分析技術可以對網絡上的輿論內容進行分析,實時地捕捉熱點事件。另外,還可以對行業熱點、地域熱點事件進行檢測,從多個方面展現熱點事件。該技術可以被應用到媒體機構中,將檢測到的熱點事件實時地推送給用戶,讓用戶在第一時間獲得更多的熱點資訊。

7.2 事件脈絡分析

事件圖譜的另一重要應用場景是事件脈絡分析。針對特定的事件,事件圖譜可以利用事件之間的關系,對事件的前因后果進行關聯,形成事件發展的脈絡,并展示給用戶。具體來說,可以將事件圖譜與搜索引擎結合,當用戶對感興趣的事件進行搜索時,就可以得到事件發生的來龍去脈,清晰地反映事件發展的脈絡,極大地提高知識檢索的效率,給用戶提供更多的便利。

7.3 未來事件預測

事件圖譜還可以在未來事件預測方面發揮重要的作用。通過分析歷史事件的發展過程,可以預測未來可能發生的事件。在金融領域,可以基于歷史事件掌握行業動態,預測行業發展的趨勢。這樣就能夠準確地把握市場發展動向,針對市場的變化做出相應的調整。在輿情預警方面,可以在現階段發生事件的基礎上預測未來可能會發生的事件,對事件的演化過程做出預測。一旦事件發生不良演變或者有不可控的趨勢,監測系統可以及時發出預警,由相關部門第一時間介入處理。未來事件預測在現實生活中有重要的作用,可以做到預測預警,及時規避風險,創造出巨大的社會價值。

8 事件圖譜的研究展望

目前,在研究者的共同努力下,對事件圖譜的研究取得了不錯的進展,越來越多的學者開始關注這一領域。對事件圖譜的研究有助于人們進一步了解事件的發展歷程以及事件背后的影響因素,可以更加容易地獲取知識,提高生產效率。雖然事件圖譜具有廣闊的應用場景,但是現在對事件圖譜相關技術的研究還不夠深入,距離事件圖譜的大規模應用還有很長的路要走,還面臨很多新的挑戰。未來事件圖譜可向以下幾個方向發展。

(1)提升事件抽取與事件推理的精度

目前事件抽取的準確率還不夠高,而事件抽取是事件圖譜構建的基礎,只有從文本中準確地抽取出事件知識,才能推動后續技術的發展,因此需要進一步提升事件抽取的準確率。之后是事件推理,雖然研究者對其進行了眾多有意義的探索,但是目前提出的方法也存在準確率低、限制條件多等問題。正因如此,需要繼續進行廣泛的研究,不斷提高事件推理的精度,進行更加準確的事件預測。

(2)自動構建事件抽取與事件關系推斷數據集

目前在事件抽取與事件關系推斷的研究中,缺少數據集是一個嚴重的問題。數據集的匱乏制約了事件抽取與事件關系推斷技術的發展。因此,未來應當關注數據集的構造方法,目標是實現自動化地構建高質量的數據集。自動構建高質量的事件抽取、事件關系推斷數據集具有重要的意義,是未來技術發展的重要方向。

(3)廣泛開展事件時序、因果關系研究

在事件圖譜中,事件之間的時序關系和因果關系占據重要的地位,但是目前對其進行的研究還不夠多。只有獲取到準確的時序關系以及因果關系,才能推斷出事件的發展歷程,實現對事件的溯源。另外,事件預測的研究也離不開事件時序關系以及因果關系的支撐。因此,廣泛開展事件時序、因果關系研究是十分必要的,也是十分有意義的,需要研究人員的共同努力。

(4)研究事件間關系可信性的界定方法

事件之間的關系是事件圖譜的重要組成部分,反映了復雜事件背后的關聯關系。在事件推理的過程中,必然要用到事件之間的關系。而事件之間的關系是否可信、如何界定事件間關系的可信性是個十分重要的問題,對事件推理技術的發展有重要的影響。因此事件間關系的可信性的界定方法值得研究者關注,需要在深入研究的基礎上提出較為合理的界定方法。

(5)深入研究復雜事件的推理

目前事件推理研究的內容大多是簡單事件,缺乏對復雜事件的研究。為了更好地利用事件圖譜,對復雜事件的研究是不可或缺的。因為現實世界中的事件錯綜復雜,不再是單一的簡單事件,所以未來需要開展對復雜事件的研究,挖掘復雜事件之間的關聯。只有這樣才能不斷提高事件推理技術的水平,最終實現對事件的智能分析。

9 結束語

事件圖譜中包含大量的事件知識,現代社會智能化水平的提升需要事件圖譜的輔助。事件圖譜中的事件涉及的維度較多,導致事件圖譜的構建與推理具有一定的難度。基于事件圖譜的重要性,研究人員已經開始對這一領域展開積極的探索,推動著該領域的快速發展。本文簡單介紹了知識圖譜和事件圖譜,從事件圖譜的構建、推理與應用方面對事件圖譜的研究現狀做了總結。之后,本文給出了事件圖譜具體的應用場景,并展望了事件圖譜的研究方向。

目前,事件圖譜是自然語言處理領域中的前沿研究方向。為了更好地發揮事件圖譜的價值,利用事件圖譜服務社會,需要更多研究者進行深入研究。希望本文可以為事件圖譜相關的研究提供一些幫助。

作者簡介

胡志磊(1996-),男,中國科學院計算技術研究所博士生,主要研究方向為知識圖譜、信息抽取、自然語言處理。

靳小龍(1976-),男,博士,中國科學院計算技術研究所研究員,主要研究方向為知識工程、知識計算、知識圖譜。

陳劍赟(1977-),女,博士,北京市信息技術研究所高級工程師,主要研究方向為智能信息處理、系統工程。

黃冠利(1975-),女,博士,北京電子科技職業學院基礎學院數學部副教授,主要研究方向為計算數學、智能信息處理。

聯系我們:

Tel:010-81055448

? ? ? ?010-81055490

? ? ? ?010-81055534

E-mail:bdr@bjxintong.com.cn?

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

轉載、合作:010-81055307

大數據期刊

《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,以及信息通信領域高質量科技期刊分級目錄、計算領域高質量科技期刊分級目錄,并多次被評為國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。

關注《大數據》期刊微信公眾號,獲取更多內容

總結

以上是生活随笔為你收集整理的虚拟专题:知识图谱 | 事件图谱的构建、推理与应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。