日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

工程实践:基于规则句法的事件关系与主谓宾三元组抽取项目实现

發布時間:2024/7/5 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 工程实践:基于规则句法的事件关系与主谓宾三元组抽取项目实现 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目前,知識圖譜在學術界如火如荼地進行,但受限于知識圖譜各個環節中的性能問題,還尚未能夠在工業界大規模運用。而與知識圖譜中以實體為知識節點,實體關系為實體關系邊對知識進行組織不同,以事件作為節點,事件關系作為節點關聯的三元組信息的抽取和應用,當前也是大家在探索的一個方向(即事理圖譜,先撇開其建模和應用現狀不講)。
筆者之前圍繞事件關系三元組抽取,結合語言學背景,嘗試了一些樸素方式下的事件關系三元組、事件主謂賓三元組抽取的工作。如:
順承事件關系三元組抽取,地址:
https://github.com/liuhuanyong/SequentialEventExtration
因果事件關系三元組抽取,地址:
https://github.com/liuhuanyong/CausalityEventExtraction
復合事件關系三元組抽取,地址:
https://github.com/liuhuanyong/ComplexEventExtraction
事件主謂賓三元組抽取,地址:
https://github.com/liuhuanyong/EventTriplesExtraction
本文選擇復合事件關系三元組抽取和事件主謂賓三元組抽取兩個實踐項目進行介紹。前者的輸出可以作為后者的輸入,通過識別出事件關系的兩頭事件實體,再通過主謂賓關系抽取,可以進一步得到事件的主體和客體,主體和客體可以進一步成為事件實體鏈接的橋梁,以實現與實體知識的聯合建模。

一、ComplexEventExtraction復合事件關系三元組抽取

chinese compound event extraction,中文復合事件抽取,包括條件事件、因果事件、順承事件、反轉事件等事件抽取,并形成事件關系三元組。

1、復合事件關系中事件的界定
如果要做事件關系三元組抽取,那么就務必要回答其中的事件形態是什么,其邊界在哪兒。基于框架體系FrameNet那套的ACE將事件表示成為一個個論元集合,CEC事件數據集、SemEval等數據集中將事件界定為一個動詞。不同的事件界定方式,直接決定了后續技術的選擇以及對應的技術難度下圖總結了當前遇到的幾種工業界事件表示方式:
以因果事件為例, 已知句子:這幾天非洲鬧豬瘟,導致國內豬肉漲價。

圖1-復合事件關系的界定

2、事件關系的幾種類型
坦白的說,對于事件關系的界定,當下有不同的標準。下表列舉了當下的幾個典型的事件關系類型。而通過結合語言學規則,利用顯式的關系詞和模式詞進行觸發、統計,可以發現,因果事件關系是最為明顯的,最有規律可循的。

圖2-復合事件關系的類型

3、事件關系抽取的實施
當前樸素的事件關系抽取,還是以顯式的關系觸發詞展開,可以針對因果關系【導致、造成、所以】、條件關系【如果、前提、要是】、反轉關系【雖然、但是、盡管】、順承關系【緊接著、然后、接下來】,構造對應的句法模式,將以該觸發詞為核心的主語和賓語部分抽取出來,即可以得到事件關系三元組。
例如:
1)轉折關系三元組模板

2)因果關系三元組模版

4、事件關系抽取的效果
通過對已有的非結構化文本如新聞報道等進行模板抽取,我們可以得到相應的關系三元組抽取效果,如下所示:
1)因果事件三元組圖譜可視化效果

圖2-美國攻打伊拉克因果事件關系三元組效果

圖3-壽光發生洪水因果事件關系三元組效果

2)反轉與條件事件關系三元組抽取數據表結果

3)反轉事件關系三元組抽取結果圖譜可視化結果

圖4-反轉事件關系可視化效果

4)條件事件關系三元組抽取結果圖譜可視化結果

圖5-條件事件關系可視化效果

二、EventTriplesExtraction事件主謂賓三元組抽取

基于依存句法與語義角色標注的事件三元組抽取,文本表示一直是個重要問題,如何以清晰,簡介的方式對一個文本信息進行有效表示是個長遠的任務,我嘗試過使用關鍵詞,實體之間的關聯關系,并使用textgrapher的方式進行展示,但以詞作為文本信息單元表示這種效果不是特別好,所以,本項目想嘗試從事件三元組的方式出發,對文本進行表示。
項目地址:
https://github.com/liuhuanyong/EventTriplesExtraction

1、基于依存句法分析和語義角色標注的事件三元組抽取
當前開源的句法分析組件,包括LTP、hannlp、百度DDParse等為我們進行特定句子的依存分析和語義角色標注提供了快速調用的接口。通過對一個句子進行依存句法分析,可以得到一個句子的核心動詞、與該動詞直接依存的詞,如SBV主語關系、VOB動賓關系、OBJ謂語關系集合。因此,我們可以在此基礎上,以句子的動詞為核心,先后找出其主語和謂語,并通過ATT修飾關系、COO并列關系等進行主語和賓語的擴展,形成三元組。

1)抽取實施
本項目分別使用LTP、百度DDParse作為句法分析器針對輸入的文本進行抽取,先進行長句切分,然后進行依存句法分析,并設定擴展規則,可以快速得到三元組集合。

2)抽取結果
本項目的抽取結果如下,選取了“以色列對加沙地帶進行轟炸”這一新聞快訊進行處理,得到svos等主謂賓集合。

2、基于詞性模板規則的事件三元組抽取
基于依存句法的方式進行事件三元組抽取,其性能受限于依存句法性能的精度,但坦白的說,當前的依存句法分析器的性能并不是特別高,中文的精度在80%-85%之間。因此,我們可以有另一種方式來實現三元組抽取,即基于詞性模板的方式,其思想在于,通過構造事件三元組的成詞詞性模板,如一個典型的IP短語、NP短語、VP短語等,就可以得到三元組結果:

1)抽取實施
本項目分別使用開源jieba分詞器作為分詞和詞性標注組件,針對輸入的文本進行抽取,先進行長句切分,然后進行處理,并設定三元組詞性模板,快速得到三元組集合。

2)抽取結果
同樣的,本項目選取了“以色列對加沙地帶進行轟炸”這一新聞快訊進行處理,得到svos等主謂賓集合。

三、項目總結

1、ComplexEventExtraction復合事件關系三元組抽取總結
本項目對事件圖譜的類型、表現形式進行了歸納,并結合復合事件模式與語料進行了實驗。實驗表明,反轉事件,其實在某種程度上可以用來構造反義詞詞典,例如"不是A而是B"這種模式,可以得到很多反義的詞或短語,這讓我想到了我的一個反義詞項目接口:(https://github.com/liuhuanyong/ChineseAntiword) ,我們可以用wordvector找相近詞,可以靠這種方式收集反義詞,對了,還可以加上情緒。
實驗表明,漢語顯示標記其實在中文文本當中還是用的很普遍的,統計了以下,跑了1000W文本,有超過半數的文本中包含以上模式。因此,如果能夠把顯式的事件關系三元組做好,感覺用處還是很多的。本項目還有很多不足,比如模式上,比如對事件類型和事件表示的z總結上,而且,事件關系三元組還是限定在句子級別,這是一種討巧的方式,因為放在篇章級上,實施的難度會更大。

2、EventTriplesExtraction事件主謂賓三元組抽取總結
本項目公開了基于ltp句法分析和語義角色標注、基于百度DDParser以及基于詞法模式的事件三元組抽取方法,并給了實驗示例。通過實驗,我們發現
LTP在DDParser之外,還提供了語義角色標注的功能,這個可以用于事件三元組抽取的有效補充,LTP速度比DDParser要快,但語義角色標注模塊存在明顯的內存泄漏問題。此外,基于詞法模式的事件三元組抽取速度最快,但效果取決于分詞、詞性標注性能,基于詞法模式,可以得到語義更長的三元組元素信息。

關于作者

劉煥勇,liuhuanyong,現任360人工智能研究院算法專家,前中科院軟件所工程師,主要研究方向為知識圖譜、事件圖譜在實際業務中的落地應用。
得語言者得天下,得語言資源者,分得天下,得語言邏輯者,爭得天下。
1、個人主頁:https://liuhuanyong.github.io。
2、個人博客:https://blog.csdn.net/lhy2014/。
歡迎對自然語言處理、知識圖譜、事件圖譜理論技術、技術實踐等落地應用的朋友一同交流。

總結

以上是生活随笔為你收集整理的工程实践:基于规则句法的事件关系与主谓宾三元组抽取项目实现的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。