ACL 2021 | 基于依存句法驱动注意力图卷积神经网络的关系抽取
?作者?|?陳桂敏
來源?|?QTrade AI研究中心
QTrade 的 AI研究中心是一支將近 30 人的團(tuán)隊(duì),主要研究方向包括:預(yù)訓(xùn)練模型、信息抽取、對(duì)話機(jī)器人、內(nèi)容推薦等。本文介紹的是一篇信息抽取相關(guān)的論文,收錄于 ACL 2021,論文提出了基于依存句法驅(qū)動(dòng)的注意力圖卷積神經(jīng)網(wǎng)絡(luò)模型 A-GCN,用于關(guān)系抽取任務(wù),利用依存句法中的有用信息,幫助模型提升模型。
論文標(biāo)題:
Dependency-driven Relation Extraction with Attentive Graph Convolutional Networks
論文鏈接:
https://aclanthology.org/2021.acl-long.344.pdf
代碼鏈接:
https://github.com/cuhksz-nlp/RE-AGCN
背景介紹
關(guān)系抽取(Relation Extraction)是 NLP 領(lǐng)域最重要的研究任務(wù)之一,其目標(biāo)是識(shí)別文本中兩個(gè)實(shí)體之間的關(guān)系類型。在已有的研究里,句法信息(譬如依存句法)被廣泛應(yīng)用于關(guān)系抽取任務(wù),利用句法中的有用信息幫助模型提升性能。
圖 1 是依存句法的例子,在句子“We poured the milk into the pumpkin mixture which is contained in a bowl”中,要預(yù)測(cè)實(shí)體“milk”和“pumpkin mixture”之間的關(guān)系標(biāo)簽(content-container),兩者之間的依存句法關(guān)系以及關(guān)系類型能夠提供豐富的上下文信息,幫助模型識(shí)別實(shí)體之間的關(guān)系標(biāo)簽,不過,并不是所有依存句法知識(shí)都是有用的,譬如實(shí)體“pumpkin mixture”和“bowl”之間的依存句法知識(shí)會(huì)成為噪聲,影響模型的性能。
▲ 圖1:帶依存句法樹的例子
與前人工作相比,該論文采用了注意力圖卷積神經(jīng)網(wǎng)絡(luò)模型 A-GCN,基于剪枝的依存句法知識(shí),對(duì)詞與詞之間的依存關(guān)系以及關(guān)系類型進(jìn)行上下文建模,通過注意力機(jī)制區(qū)分不同上下文特征的重要性,識(shí)別句法知識(shí)中的噪聲,從而提升模型在關(guān)系抽取任務(wù)中的性能。
?
模型架構(gòu)
論文中的模型結(jié)構(gòu)如圖 2,展示了模型如何基于輸入句子的依存句法樹構(gòu)建關(guān)系圖及其關(guān)系類型,通過注意力圖卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)上下文信息進(jìn)行建模。具體地,對(duì)于每一個(gè)輸入的文本,首先使用依存句法工具自動(dòng)處理文本并生成依存句法樹,構(gòu)建詞與詞之間的關(guān)系圖(關(guān)聯(lián)矩陣,Adjacency Matrix)及其關(guān)系類型(依存類型矩陣,Dependency Type Matrix)。
然后,使用 BERT 作為編碼器,提取文本序列的表征 h,并將文本序列表征 h 和關(guān)聯(lián)矩陣 Adjacency Matrix、依存類型矩陣 Dependency Type Matrix 輸入 A-GCN 模塊。
在 A-GCN 模塊里,對(duì)于序列中的每一個(gè)詞,將其與相關(guān)上下文詞的依存關(guān)系和關(guān)系類型作為上下文特征進(jìn)行編碼,同時(shí),為了區(qū)分不同上下文特征的重要性,采用注意力機(jī)制,通過計(jì)算詞與詞之間的點(diǎn)積,以此構(gòu)建注意力矩陣(Attention Matrix),作為權(quán)重分配給其上下文特征,進(jìn)而識(shí)別句法知識(shí)中的噪聲,突出重要信息的作用。最后,基于 A-GCN 的輸出,預(yù)測(cè)兩個(gè)實(shí)體之間的關(guān)系標(biāo)簽。
▲ 圖2:基于依存句法驅(qū)動(dòng)的注意力圖卷積神經(jīng)網(wǎng)絡(luò)模型架構(gòu)圖
實(shí)驗(yàn)結(jié)果
該論文在兩個(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)測(cè)了模型的性能。表 1 展示了模型跟前人的模型在兩個(gè)基準(zhǔn)數(shù)據(jù)集上 F1 值對(duì)比。從實(shí)驗(yàn)結(jié)果可以看出,該研究提出的注意力圖卷積神經(jīng)網(wǎng)絡(luò)模型在兩個(gè)基準(zhǔn)數(shù)據(jù)集上都超過了前人的研究,達(dá)到了目前最高的關(guān)系抽取任務(wù)成績(jī),充分表明了該研究提出的模型能夠有效利用上下文信息來提升模型性能。
▲ 表1:模型在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的性能
此外,在論文中,該研究對(duì)不同類型的依存信息進(jìn)行了分析,表 2 展示了模型利用不同類型依存信息在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的性能。其中,L 指基于實(shí)體的一階依存信息構(gòu)建關(guān)聯(lián)圖,G 指沿著實(shí)體之間的依存路徑構(gòu)建關(guān)聯(lián)圖。從實(shí)驗(yàn)結(jié)果看,基于 L+G 構(gòu)建關(guān)聯(lián)圖能使模型 A-GCN 達(dá)到最佳效果。
▲ 表2:模型利用不同類型依存信息,在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的性能
該研究還設(shè)置幾組不同設(shè)定的實(shí)驗(yàn)來分析注意力機(jī)制和依存類型對(duì)模型的重要性。圖 3 展示的是模型 A-GCN 和普通 GCN、基準(zhǔn)模型 BERT 在 SemEval 數(shù)據(jù)集上不同實(shí)體距離組的性能,實(shí)驗(yàn)結(jié)果驗(yàn)證了注意力機(jī)制對(duì)模型在長(zhǎng)距離實(shí)體上的有效性。
表 3 展示的是不同設(shè)定下模型在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的性能,從實(shí)驗(yàn)結(jié)果看,不管是移除注意力機(jī)制還是依存類型,都有損模型的性能,建議同時(shí)使用注意力機(jī)制和依存類型來提升模型性能。
▲ 圖3:模型在SemEval數(shù)據(jù)集上不同實(shí)體距離組的性能
▲ 表3:不同設(shè)定下模型在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的性能
論文總結(jié)
該論文針對(duì)關(guān)系抽取任務(wù),設(shè)計(jì)了基于依存句法驅(qū)動(dòng)的注意力圖卷積神經(jīng)網(wǎng)絡(luò)模型,其創(chuàng)新點(diǎn)在于:將依存信息及其關(guān)系類型用于上下文信息的建模,通過注意力機(jī)制區(qū)分上下文特征的重要性,在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果超過了前人成績(jī),達(dá)到了目前最好的效果。
關(guān)于 QTrade
QTrade 是騰訊旗下領(lǐng)先的金融科技與監(jiān)管科技公司,致力于為金融固定收益行業(yè)提供專業(yè)化、智能化的交易解決方案。以騰訊的即時(shí)通訊工具(IM)為入口、金融市場(chǎng)實(shí)時(shí)行情數(shù)據(jù)為依托、AI 語(yǔ)義解析能力為核心,QTrade 通過深耕固收市場(chǎng)交易業(yè)務(wù)流程、深挖交易痛點(diǎn),搭建了以連接市場(chǎng)、提升效率、發(fā)現(xiàn)價(jià)值、滿足合規(guī)為四大價(jià)值體系的產(chǎn)品版圖,為固收市場(chǎng)及從業(yè)者提供自動(dòng)化、集成化的智能平臺(tái)服務(wù)。
歡迎 AI 領(lǐng)域志同道合的伙伴與騰訊 QTrade 取得聯(lián)系:
zhaopin@qtrade.com.cn
?
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的ACL 2021 | 基于依存句法驱动注意力图卷积神经网络的关系抽取的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微星主板怎么用usb启动 微星主板如何使
- 下一篇: keras从入门到放弃(十二)卷积神经网