ACL 2021 | 基于依存句法驱动注意力图卷积神经网络的关系抽取
?作者?|?陳桂敏
來源?|?QTrade AI研究中心
QTrade 的 AI研究中心是一支將近 30 人的團隊,主要研究方向包括:預訓練模型、信息抽取、對話機器人、內(nèi)容推薦等。本文介紹的是一篇信息抽取相關的論文,收錄于 ACL 2021,論文提出了基于依存句法驅動的注意力圖卷積神經(jīng)網(wǎng)絡模型 A-GCN,用于關系抽取任務,利用依存句法中的有用信息,幫助模型提升模型。
論文標題:
Dependency-driven Relation Extraction with Attentive Graph Convolutional Networks
論文鏈接:
https://aclanthology.org/2021.acl-long.344.pdf
代碼鏈接:
https://github.com/cuhksz-nlp/RE-AGCN
背景介紹
關系抽取(Relation Extraction)是 NLP 領域最重要的研究任務之一,其目標是識別文本中兩個實體之間的關系類型。在已有的研究里,句法信息(譬如依存句法)被廣泛應用于關系抽取任務,利用句法中的有用信息幫助模型提升性能。
圖 1 是依存句法的例子,在句子“We poured the milk into the pumpkin mixture which is contained in a bowl”中,要預測實體“milk”和“pumpkin mixture”之間的關系標簽(content-container),兩者之間的依存句法關系以及關系類型能夠提供豐富的上下文信息,幫助模型識別實體之間的關系標簽,不過,并不是所有依存句法知識都是有用的,譬如實體“pumpkin mixture”和“bowl”之間的依存句法知識會成為噪聲,影響模型的性能。
▲ 圖1:帶依存句法樹的例子
與前人工作相比,該論文采用了注意力圖卷積神經(jīng)網(wǎng)絡模型 A-GCN,基于剪枝的依存句法知識,對詞與詞之間的依存關系以及關系類型進行上下文建模,通過注意力機制區(qū)分不同上下文特征的重要性,識別句法知識中的噪聲,從而提升模型在關系抽取任務中的性能。
?
模型架構
論文中的模型結構如圖 2,展示了模型如何基于輸入句子的依存句法樹構建關系圖及其關系類型,通過注意力圖卷積神經(jīng)網(wǎng)絡模型對上下文信息進行建模。具體地,對于每一個輸入的文本,首先使用依存句法工具自動處理文本并生成依存句法樹,構建詞與詞之間的關系圖(關聯(lián)矩陣,Adjacency Matrix)及其關系類型(依存類型矩陣,Dependency Type Matrix)。
然后,使用 BERT 作為編碼器,提取文本序列的表征 h,并將文本序列表征 h 和關聯(lián)矩陣 Adjacency Matrix、依存類型矩陣 Dependency Type Matrix 輸入 A-GCN 模塊。
在 A-GCN 模塊里,對于序列中的每一個詞,將其與相關上下文詞的依存關系和關系類型作為上下文特征進行編碼,同時,為了區(qū)分不同上下文特征的重要性,采用注意力機制,通過計算詞與詞之間的點積,以此構建注意力矩陣(Attention Matrix),作為權重分配給其上下文特征,進而識別句法知識中的噪聲,突出重要信息的作用。最后,基于 A-GCN 的輸出,預測兩個實體之間的關系標簽。
▲ 圖2:基于依存句法驅動的注意力圖卷積神經(jīng)網(wǎng)絡模型架構圖
實驗結果
該論文在兩個基準數(shù)據(jù)集上評測了模型的性能。表 1 展示了模型跟前人的模型在兩個基準數(shù)據(jù)集上 F1 值對比。從實驗結果可以看出,該研究提出的注意力圖卷積神經(jīng)網(wǎng)絡模型在兩個基準數(shù)據(jù)集上都超過了前人的研究,達到了目前最高的關系抽取任務成績,充分表明了該研究提出的模型能夠有效利用上下文信息來提升模型性能。
▲ 表1:模型在兩個基準數(shù)據(jù)集上的性能
此外,在論文中,該研究對不同類型的依存信息進行了分析,表 2 展示了模型利用不同類型依存信息在兩個基準數(shù)據(jù)集上的性能。其中,L 指基于實體的一階依存信息構建關聯(lián)圖,G 指沿著實體之間的依存路徑構建關聯(lián)圖。從實驗結果看,基于 L+G 構建關聯(lián)圖能使模型 A-GCN 達到最佳效果。
▲ 表2:模型利用不同類型依存信息,在兩個基準數(shù)據(jù)集上的性能
該研究還設置幾組不同設定的實驗來分析注意力機制和依存類型對模型的重要性。圖 3 展示的是模型 A-GCN 和普通 GCN、基準模型 BERT 在 SemEval 數(shù)據(jù)集上不同實體距離組的性能,實驗結果驗證了注意力機制對模型在長距離實體上的有效性。
表 3 展示的是不同設定下模型在兩個基準數(shù)據(jù)集上的性能,從實驗結果看,不管是移除注意力機制還是依存類型,都有損模型的性能,建議同時使用注意力機制和依存類型來提升模型性能。
▲ 圖3:模型在SemEval數(shù)據(jù)集上不同實體距離組的性能
▲ 表3:不同設定下模型在兩個基準數(shù)據(jù)集上的性能
論文總結
該論文針對關系抽取任務,設計了基于依存句法驅動的注意力圖卷積神經(jīng)網(wǎng)絡模型,其創(chuàng)新點在于:將依存信息及其關系類型用于上下文信息的建模,通過注意力機制區(qū)分上下文特征的重要性,在兩個基準數(shù)據(jù)集上的實驗結果超過了前人成績,達到了目前最好的效果。
關于 QTrade
QTrade 是騰訊旗下領先的金融科技與監(jiān)管科技公司,致力于為金融固定收益行業(yè)提供專業(yè)化、智能化的交易解決方案。以騰訊的即時通訊工具(IM)為入口、金融市場實時行情數(shù)據(jù)為依托、AI 語義解析能力為核心,QTrade 通過深耕固收市場交易業(yè)務流程、深挖交易痛點,搭建了以連接市場、提升效率、發(fā)現(xiàn)價值、滿足合規(guī)為四大價值體系的產(chǎn)品版圖,為固收市場及從業(yè)者提供自動化、集成化的智能平臺服務。
歡迎 AI 領域志同道合的伙伴與騰訊 QTrade 取得聯(lián)系:
zhaopin@qtrade.com.cn
?
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的ACL 2021 | 基于依存句法驱动注意力图卷积神经网络的关系抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微星主板怎么用usb启动 微星主板如何使
- 下一篇: keras从入门到放弃(十二)卷积神经网