日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

远程监督关系抽取漫谈:结合知识图谱和图神经网络

發(fā)布時(shí)間:2024/10/8 编程问答 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 远程监督关系抽取漫谈:结合知识图谱和图神经网络 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

遠(yuǎn)程監(jiān)督關(guān)系抽取是一種用知識圖譜去對齊樸素文本的標(biāo)注方法,屬于半監(jiān)督學(xué)習(xí)算法,自然而然提取特征的時(shí)候就會(huì)出現(xiàn)很多噪聲。比如兩個(gè)實(shí)體之間還有別的關(guān)系或者是沒有關(guān)系,這樣的訓(xùn)練數(shù)據(jù)會(huì)對關(guān)系抽取器產(chǎn)生影響。現(xiàn)有算法的難點(diǎn)是:

1)在處理多實(shí)體對以及它們的關(guān)系問題中,不能充分利用多跳推理模式。

2)最近研究考慮基于知識圖譜擴(kuò)展上下文知識,以便改進(jìn)關(guān)系抽取性能。然而,靜態(tài)地添加知識圖譜的所有上下文信息會(huì)產(chǎn)生負(fù)面影響。如何能夠動(dòng)態(tài)地利用來自知識圖譜的上下文,以及所選知識圖譜上下文是否會(huì)對整體性能產(chǎn)生積極的影響?

圖神經(jīng)網(wǎng)絡(luò)解決了現(xiàn)有模型只能顯示提取兩實(shí)體之間的關(guān)系,不能進(jìn)行關(guān)系信息的傳遞和推理問題。本篇綜述集中于利用圖嵌入和動(dòng)態(tài)選擇知識圖譜上下文來解決關(guān)系抽取問題。針對這兩個(gè)主要問題,選取比較經(jīng)典的三篇文獻(xiàn)來和大家交流討論。

GP-GNNs

論文標(biāo)題:

Graph Neural Networks with Generated Parameters for Relation Extraction

論文鏈接:

https://arxiv.org/abs/1902.00756

1.1 論文工作

這是一篇比較經(jīng)典的遠(yuǎn)程監(jiān)督關(guān)系抽取論文,由于現(xiàn)存的方法很容易進(jìn)行關(guān)系抽取,卻忽略了關(guān)系推理過程。論文提出了一種根據(jù)自然語言句子生成圖神經(jīng)網(wǎng)絡(luò)參數(shù)的方法,使其能夠處理非結(jié)構(gòu)化文本輸入的關(guān)系推理。

1.2 論文方法

GP-GNN 首先用文本序列中的實(shí)體構(gòu)造一個(gè)全連接圖, 之后使用三個(gè)模塊來處理關(guān)系推理:(1)使邊能夠?qū)ψ匀徽Z言中的豐富信息進(jìn)行編碼的編碼模塊;(2)在各個(gè)節(jié)點(diǎn)之間傳播關(guān)系信息的傳播模塊;(3)使用節(jié)點(diǎn)表示進(jìn)行預(yù)測的分類模塊。編碼模塊將一系列向量表示作為輸入,并輸出一個(gè)轉(zhuǎn)移矩陣, 傳播模塊利用生成的轉(zhuǎn)移矩陣將隱藏狀態(tài)從節(jié)點(diǎn)傳播到其鄰居,分類模塊根據(jù)節(jié)點(diǎn)表示提供與任務(wù)相關(guān)的預(yù)測

1.2.1 Encoding Module

通過以下公式,編碼模塊將序列轉(zhuǎn)換為邊相關(guān)的轉(zhuǎn)移矩陣,即傳播模塊的參數(shù):

1.2.2 Propagation Module

傳播模塊逐層學(xué)習(xí)節(jié)點(diǎn)的表示形式,節(jié)點(diǎn)的初始嵌入(即第 0 層的表示)與任務(wù)相關(guān),可以是對節(jié)點(diǎn)特征進(jìn)行編碼的嵌入,也可以是 one-hot 編碼嵌入。

1.2.3 Classification Module

分類模塊將節(jié)點(diǎn)表示作為輸入和輸出預(yù)測,GP-GNN 的損失公式為:

1.2.4 Relation Extraction with GP-GNNs

給定句子 ,此句子中的一組關(guān)系 和一組實(shí)體,其中每個(gè) 由一個(gè)或一系列 token 組成,從文本中提取關(guān)系是為了識別每個(gè)實(shí)體 之間的成對關(guān)系 。

Encoding Module

首先將句子中的位置嵌入與單詞嵌入連接起來:。

BiLSTM 通過將前向 LSTM 的尾部隱藏狀態(tài)和后向 LSTM 的頭部隱藏狀態(tài)串聯(lián)在一起來編碼序列,MLP 表示具有非線性激活的多層感知器。

Propagation Module

提取實(shí)體 和實(shí)體? 之間的關(guān)系,它們的初始嵌入記為 ,,而其他實(shí)體的初始嵌入全部設(shè)置為零。為頭、尾實(shí)體的初始嵌入設(shè)置特殊值作為一種“flag”消息,并通過傳播模塊來傳遞這些消息。, 也可以攜帶有關(guān) subject 和 object 實(shí)體的先驗(yàn)知識,實(shí)驗(yàn)中設(shè)置 ,。

Classification Module

輸出模塊采用目標(biāo)實(shí)體對的嵌入作為輸入,并運(yùn)用 softmax 函數(shù)來進(jìn)行分類:

損失函數(shù)為:

1.3 實(shí)驗(yàn)

論文在人工標(biāo)注的測試數(shù)據(jù)集和遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。本文最佳模型在所有三個(gè)測試集上的性能均明顯優(yōu)于所有基模型。這些結(jié)果表明 GP-GNN 模型可以使用自然語言生成的參數(shù)對完全連接的圖成功進(jìn)行推理。這些結(jié)果還表明本模型不僅在句子級關(guān)系提取上表現(xiàn)良好,而且在袋級關(guān)系提取上也有所改進(jìn)。

RECON

論文標(biāo)題:

RECON: Relation Extraction using Knowledge Graph Context in a Graph Neural Network

論文來源:

WWW 2021

論文鏈接:

https://dl.acm.org/doi/abs/10.1145/3442381.3449917

2.1 論文工作

論文提出了一種基于知識圖譜上下文的圖神經(jīng)網(wǎng)絡(luò)關(guān)系抽取方法(RECON),能自動(dòng)識別句子中的關(guān)系并且對齊到知識圖譜(KG)。RECON 使用一個(gè)圖神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)句子和存儲在 KG 中的事實(shí)的表示,提高了提取質(zhì)量。

2.2 論文方法

RECON 架構(gòu)如圖 1 所示。句子嵌入模塊對輸入的句子進(jìn)行靜態(tài)嵌入檢索,實(shí)體屬性上下文(EAC)模塊使用實(shí)體屬性(如別名、標(biāo)簽、描述和實(shí)例)從 KG 中獲取句子中的每個(gè)實(shí)體,并使用相應(yīng)的上下文表示來豐富實(shí)體嵌入。三元組語境學(xué)習(xí)模塊學(xué)習(xí)給定實(shí)體的 2 跳鄰域內(nèi)實(shí)體和關(guān)系的表示。圖神經(jīng)網(wǎng)絡(luò)最終被用來聚合實(shí)體屬性、KG 三元組和句子上下文,并使用一個(gè)關(guān)系分類層生成最終輸出。

2.2.1 Entity Attribute Context (EAC)

EAC 模塊使用實(shí)體屬性(如別名、標(biāo)簽、描述和實(shí)例),從 KG 中獲取句子中的每個(gè)實(shí)體,并使用相應(yīng)的上下文表示來豐富實(shí)體嵌入。對于每一個(gè)屬性中,將單詞和字符嵌入連接起來,并將它們通過 BiLSTM 編碼器傳遞。BiLSTM 網(wǎng)絡(luò)的最終輸出被堆疊并送入圖2中描述的一維卷積網(wǎng)絡(luò)(CNN)。

2.2.2 Triple Context Learner

因?yàn)槊總€(gè)實(shí)體可能在不同的上下文中涉及多個(gè)關(guān)系,論文的思想是學(xué)習(xí)在獨(dú)立的向量空間中三元組的實(shí)體和關(guān)系嵌入,以捕捉更有表現(xiàn)力的表示。三元組的向量表示分別由初始頭實(shí)體向量、初始尾實(shí)體向量和初始關(guān)系向量表示:

每個(gè)三元組的相對重要性即可由三元組的向量表示得到:

頭實(shí)體新的嵌入向量為三元組嵌入的加權(quán)和:

對于關(guān)系嵌入,將初始關(guān)系嵌入矩陣進(jìn)行線性轉(zhuǎn)換,得到新的關(guān)系嵌入向量。對于一個(gè)有效的三元組嵌入,必須使下面的式子成立:

與之前的方法所不同的是,論文將實(shí)體和關(guān)系嵌入在了不同的空間中。因此,需要將實(shí)體從實(shí)體空間轉(zhuǎn)換到關(guān)系空間,論文解決此問題應(yīng)用了一個(gè)非線性轉(zhuǎn)換過程(證明過程見原文)。

因此,上面的滿足公式修正為:

定義距離公式為:

因此 loss 函數(shù)定義為:

表示有效三元組, 表示無效三元組。作者認(rèn)為在數(shù)據(jù)集中出現(xiàn)的實(shí)際三元組是正的(有效的)三元組,而不在數(shù)據(jù)集中的其他三元組是無效的。例如,如果在 KG 中,實(shí)體 Barack Obama 和 Michelle Obama 有一個(gè)有效的關(guān)系“配偶”,那么有效的三聯(lián)體是 <Barack Obama, spouse, Michelle Obama>。無效的三元組將包含這兩個(gè)實(shí)體之間不存在的關(guān)系。

2.2.3 ?Aggregating KG Context

Aggregating KG Context 由編碼器模塊、傳播模塊和分類模塊組成。編碼器將單詞向量連接到句子中的位置向量作為輸入。

編碼器模塊將句子中的詞語向量和位置向量串聯(lián)起來,論文在 BiLSTM 中使用連接詞嵌入,然后使用全連接網(wǎng)絡(luò)生成轉(zhuǎn)換矩陣,如下所示:

然后,傳播模塊根據(jù)下式分層學(xué)習(xí)實(shí)體節(jié)點(diǎn) 的表示:

在分類模塊中,將傳播模塊中每一層學(xué)習(xí)到的向量串聯(lián)起來,用于連接關(guān)系,并將從三元組內(nèi)容學(xué)習(xí)到的內(nèi)容與其串聯(lián)送入分類層得到每個(gè)關(guān)系的概率:

上式是在同一個(gè)向量空間的嵌入,對于從不同向量空間的嵌入,論文計(jì)算了對應(yīng)關(guān)系向量的相似性,并利用不同空間的實(shí)體嵌入,并應(yīng)用了非線性函數(shù)來得到聚合器的最終表示:

作者對于每一個(gè)關(guān)系取實(shí)體對的平移向量,得到距離度量的范數(shù),并將每個(gè)關(guān)系的這些范數(shù)連接起來,得到一個(gè)平移向量。

最后將從傳播階段和實(shí)體嵌入中學(xué)習(xí)到的向量連接起來,對目標(biāo)關(guān)系進(jìn)行分類。

2.3 實(shí)驗(yàn)

作者使用兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別為 Wikidata dataset 和 NYT Freebase dataset,并且對比了最新的研究方法。作者配置 RECON 模型應(yīng)用各種上下文輸入向量,具體模型主要有:KGGAT-SEP,RECON-EAC,RECON-EAC-KGGAT和 RECON。從實(shí)驗(yàn)結(jié)果可以看出,模型的每一個(gè)部分都對精度提升有不同程度的貢獻(xiàn)。

KGPool

論文標(biāo)題:

KGPool: Dynamic Knowledge Graph Context Selection for Relation Extraction

論文來源:

ACL-IJCNLP 2021

論文鏈接:

https://arxiv.org/abs/2106.00459

3.1 論文工作

在這篇論文中,KGPool 利用圖卷積網(wǎng)絡(luò)(GCN)中的自注意機(jī)制從 KG 中選擇一個(gè)子圖來擴(kuò)展句子上下文,它使用神經(jīng)方法學(xué)習(xí)這些事實(shí)的表示(實(shí)體別名、實(shí)體描述等),補(bǔ)充句子上下文。與靜態(tài)地使用所有擴(kuò)展事實(shí)的現(xiàn)有方法不同,KGPool 將這種擴(kuò)展條件設(shè)置在句子上。

3.2 論文方法

KGPool 由三個(gè)部分組成:Graph Construction 將句子、實(shí)體及其屬性聚合為異質(zhì)信息圖(HIG)用于輸入表示,Context Pooling 利用圖卷積中的自注意機(jī)制,利用節(jié)點(diǎn)特征和圖拓?fù)溆?jì)算實(shí)體屬性的注意分?jǐn)?shù),Context Aggregator 將 HIG 的句子、實(shí)體、上下文表示作為輸入,并對實(shí)體之間的目標(biāo)關(guān)系進(jìn)行分類。

3.2.1 Graph Construction

圖 2 給出了不同實(shí)體屬性構(gòu)建圖的步驟,通過連接句子的單詞和字符嵌入,使用Bi-LSTM 將句子 轉(zhuǎn)換為另一種表示形式。

并且為每個(gè)實(shí)體和實(shí)體屬性創(chuàng)建類似的表示:

對于關(guān)于句子上下文的知識表示,論文引入了特殊的圖 ,表示一個(gè)異構(gòu)信息圖,其中 表示鄰接矩陣, 表示節(jié)點(diǎn)特征。

3.2.2 Context Pooling

context pooling 建立在圖卷積網(wǎng)絡(luò)(GCN)的三層和與它們相關(guān)聯(lián)的讀出層之上。在 HIG 中,實(shí)體節(jié)點(diǎn)不包含其鄰居的信息。因此,論文的目標(biāo)是利用相鄰節(jié)點(diǎn)的上下文信息來豐富每個(gè)實(shí)體節(jié)點(diǎn)。采用 GNN 變體,利用其消息傳遞體系結(jié)構(gòu),從消息傳播函數(shù)中學(xué)習(xí)節(jié)點(diǎn)嵌入。

圖讀出層定義為:

以上主要集中學(xué)習(xí)節(jié)點(diǎn)的特征,下面 KGpool 將使用自注意力機(jī)制來學(xué)習(xí)每個(gè)實(shí)體屬性節(jié)點(diǎn)的重要程度。

并且提出了一種基于上下文系數(shù)的節(jié)點(diǎn)選擇方法:

并且過濾掉不太重要的節(jié)點(diǎn)屬性,形成 Context Graph:

中間表示如下所示:

3.2.3 Context Aggregator

最后,KGPool 將潛在表示(句子上下文)與學(xué)習(xí)到的結(jié)構(gòu)化表示相結(jié)合,以 CG 和句子上下文的形式共同學(xué)習(xí)豐富的 KG 上下文,得到最終的關(guān)系為:

3.3 實(shí)驗(yàn)

論文所用數(shù)據(jù)集與上一篇文章相同是 Wikidata dataset 和 NYT Freebase 數(shù)據(jù)集,并與最先進(jìn)的方法做了對比實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果可以看出,總的來說,KGPool 為句子上下文稀疏的結(jié)構(gòu)提供了一種有效的知識表示。隨著選擇系數(shù) 的不同,對實(shí)驗(yàn)結(jié)果也有比較重要的影響。

總結(jié)

這三篇文獻(xiàn)集中于基于知識圖譜和圖神經(jīng)網(wǎng)絡(luò)的遠(yuǎn)程監(jiān)督關(guān)系抽取。在關(guān)系抽取任務(wù)中,多跳關(guān)系推理是必不可少的。目前,圖神經(jīng)網(wǎng)絡(luò)是比較有效的方法之一。第一篇文獻(xiàn)介紹了利用圖神經(jīng)在無結(jié)構(gòu)化數(shù)據(jù)上進(jìn)行關(guān)系推理。

考慮到知識庫中除了實(shí)體關(guān)系之外,還有很多其他的信息可以加以利用,因此在第二篇模型中考慮了這部分特征信息,比如關(guān)系的別名信息以及實(shí)體的類別信息。在第三篇論文中,通過篩選不重要的節(jié)點(diǎn)特征信息來提升模型精度。總的來說,遠(yuǎn)程監(jiān)督關(guān)系抽取需要結(jié)合重要的實(shí)體特征信息和句子的上下文語境信息才能很好地提升抽取性能。

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識真正流動(dòng)起來。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時(shí)聯(lián)系方式(微信),以便我們在稿件選用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的远程监督关系抽取漫谈:结合知识图谱和图神经网络的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。