知识图谱最新权威综述论文解读:关系抽取
上期我們介紹了2020年知識圖譜最新權(quán)威綜述論文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的知識圖譜實體發(fā)現(xiàn)部分,本期我們將一起學(xué)習(xí)這篇論文的關(guān)系抽取部分。
論文地址:
https://arxiv.org/pdf/2002.00388.pdf?arxiv.org
?
?
關(guān)系抽取作為自動化構(gòu)建知識圖譜過程中非常重要的一個技術(shù),近年來得到越來越多的關(guān)注。
關(guān)系抽取
關(guān)系抽取是從純文本中提取未知關(guān)系事實并將其加入到知識圖譜中,是自動構(gòu)建大規(guī)模知識圖譜的關(guān)鍵。由于缺少標(biāo)記的關(guān)系數(shù)據(jù),遠(yuǎn)程監(jiān)控(distance supervision)也稱為弱監(jiān)控或自監(jiān)督,通過假設(shè)包含相同實體的語句在關(guān)系數(shù)據(jù)庫的監(jiān)督下可以表示相同的關(guān)系,使用啟發(fā)式匹配來創(chuàng)建訓(xùn)練數(shù)據(jù)。Mintz等人采用了遠(yuǎn)程監(jiān)控的關(guān)系分類方法,文本特征包括詞匯和句法特征、命名實體標(biāo)記和連接特征。傳統(tǒng)方法高度依賴于特征工程,最近一種方法探索了特征之間的內(nèi)在關(guān)聯(lián)。深度學(xué)習(xí)正在改變知識圖譜和文本的表示學(xué)習(xí)。本節(jié)回顧了神經(jīng)關(guān)系提取(NRE)方法的最新進(jìn)展,如下圖所示。
1 神經(jīng)關(guān)系抽取
神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于關(guān)系抽取任務(wù)中。具有相對實體距離位置特征的CNN最早用來進(jìn)行關(guān)系分類,然后利用多窗口CNN和多尺度卷積核進(jìn)行關(guān)系抽取。多示例學(xué)習(xí)以一個bag的句子作為輸入,預(yù)測實體對之間的關(guān)系。PCNN對按實體位置劃分的卷積表示段應(yīng)用分段最大池化。與普通的CNN相比,PCNN能夠更有效地捕捉實體對內(nèi)的結(jié)構(gòu)信息。MIMLCNN進(jìn)一步將其擴(kuò)展到多標(biāo)簽學(xué)習(xí)中,使用跨句子最大值池化進(jìn)行特征選擇。此外,還利用了諸如類關(guān)聯(lián)和關(guān)系路徑等邊信息。
文中還介紹了RNN,如SDP-LSTM采用多通道LSTM,同時利用實體對之間的最短依賴路徑等。BRCNN使用雙通道雙向LSTM和CNN,其結(jié)合了用于捕捉序列依賴的RNN和用于表示局部語義的CNN。
2 注意機(jī)制
attention機(jī)制的許多變體與CNN相結(jié)合,例如,單詞級attention捕捉單詞的語義信息和對多個實例的選擇性注意以減輕噪聲實例的影響。APCNN引入了PCNN的實體描述和句子級注意力機(jī)制,而HATT提出了層次選擇性attention,通過連接每層的attention表示來捕捉關(guān)系層次信息。Att BLSTM提出了用BiLSTM進(jìn)行單詞級的注意力,而不是基于CNN的句子編碼。
3 圖卷積網(wǎng)絡(luò)
GCN用于對句子的依賴樹進(jìn)行編碼,或者學(xué)習(xí)知識圖譜嵌入以利用關(guān)系知識進(jìn)行句子編碼。C-GCN是以路徑為中心的句子剪枝依賴樹上的上下文GCN模型。AGGCN也對依賴樹應(yīng)用GCN,但以軟加權(quán)的方式利用多頭注意力進(jìn)行邊緣選擇。與前兩種基于GCN的模型不同,Zhang等人將GCN應(yīng)用于知識圖譜中的關(guān)系嵌入,用于基于句子的關(guān)系抽取。進(jìn)一步提出了一種粗到細(xì)的知識感知注意力機(jī)制,用于信息實例的選擇。
4 對抗訓(xùn)練
在多標(biāo)簽多示例學(xué)習(xí)環(huán)境下,利用對抗訓(xùn)練(AT)在基于CNN和RNN的詞嵌入中加入對抗噪聲進(jìn)行關(guān)系抽取。DSGAN采用GAN來實現(xiàn)去除遠(yuǎn)程監(jiān)督的關(guān)系抽取。
5 強化學(xué)習(xí)
近年來,利用策略網(wǎng)絡(luò)訓(xùn)練實例選擇器,將深度學(xué)習(xí)技術(shù)引入到神經(jīng)關(guān)系抽取中。Qin等訓(xùn)練了基于策略的句子級關(guān)系分類器的agent,將假陽性實例重新分配到負(fù)樣本中,以減輕噪聲數(shù)據(jù)的影響。以F1得分作為評價指標(biāo),以基于F1得分的性能變化作為策略網(wǎng)絡(luò)的獎勵。同樣,Zeng等人和Feng等人提出了不同的獎勵策略。基于強化學(xué)習(xí)的神經(jīng)關(guān)系抽取的優(yōu)點是關(guān)系抽取不依賴于模型。因此,它可以很容易地適應(yīng)任何神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以有效地抽取關(guān)系。最近,HRL提出了一個高層關(guān)系檢測和底層實體抽取的分層策略學(xué)習(xí)框架。
6 其它研究
Huang和Wang注意到目前的NRE方法并不使用非常深的網(wǎng)絡(luò),因此將深度殘差網(wǎng)絡(luò)應(yīng)用于關(guān)系抽取,發(fā)現(xiàn)9層的CNN具有更好的性能。Liu等人提出通過實體分類的遷移學(xué)習(xí)來初始化神經(jīng)網(wǎng)絡(luò)模型。CORD通過雙向知識蒸餾和自適應(yīng)模仿,將文本語料庫和知識圖譜與外部邏輯規(guī)則結(jié)合起來。TK-MF通過句子和主題詞的匹配,豐富了句子表示學(xué)習(xí)。知識圖譜中低頻關(guān)系的存在要求用不可見的類或少數(shù)實例進(jìn)行小樣本關(guān)系分類。Gao等人提出了用于小樣本學(xué)習(xí)的基于混合注意力的原型網(wǎng)絡(luò)來計算原型關(guān)系嵌入,并比較其與查詢嵌入之間的距離。
7 總結(jié)
在遠(yuǎn)程監(jiān)控的假設(shè)下,關(guān)系抽取會受到噪聲的影響,特別是在不同領(lǐng)域的文本語料庫中。因此,弱監(jiān)督關(guān)系抽取對于減輕噪聲標(biāo)簽的影響是非常重要的,例如,以句子bag為輸入的多示例學(xué)習(xí)、對實例進(jìn)行軟選擇以減少噪聲模式的注意力機(jī)制AGGCN和將實例選擇作為硬決策的基于強化學(xué)習(xí)的方法。另一個原則是學(xué)習(xí)盡可能豐富的表示。由于深度神經(jīng)網(wǎng)絡(luò)可以解決傳統(tǒng)特征提取方法中的誤差傳播問題,因此該領(lǐng)域主要由基于深度神經(jīng)網(wǎng)絡(luò)的模型主導(dǎo),各類方法的經(jīng)典神經(jīng)關(guān)系抽取模型的總結(jié)如下表所示。
?
往期精選:
知識圖譜最新權(quán)威綜述論文解讀:實體發(fā)現(xiàn)
知識圖譜最新權(quán)威綜述論文解讀:知識圖譜補全部分
對知識圖譜的告白:斯坦福大學(xué)CS520課程介紹
知識圖譜最新權(quán)威綜述論文解讀:知識表示學(xué)習(xí)部分
知識圖譜最新權(quán)威綜述論文解讀:開篇部分
手把手教你搭建一個中式菜譜知識圖譜可視化系統(tǒng)
?
如果對文章感興趣歡迎關(guān)注知乎專欄“人工智能遇上知識圖譜“,也歡迎關(guān)注同名微信公眾號“人工智能遇上知識圖譜”,讓我們一起學(xué)習(xí)并交流討論人工智能與知識圖譜技術(shù)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
總結(jié)
以上是生活随笔為你收集整理的知识图谱最新权威综述论文解读:关系抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 03.Mybatis优化
- 下一篇: java运行字符串代码