日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

發(fā)布時間:2024/7/5 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記整理:王狄烽,南京大學(xué)碩士,研究方向為關(guān)系抽取、知識庫補(bǔ)全。


鏈接:https://arxiv.org/pdf/1903.01306.pdf

發(fā)表會議:NAACL2019


動機(jī)

現(xiàn)有的利用遠(yuǎn)程監(jiān)督進(jìn)行實體關(guān)系抽取的方法大多關(guān)注于如何對訓(xùn)練數(shù)據(jù)進(jìn)行降噪,從而提升模型效果,而忽略了長尾關(guān)系的抽取,使得長尾關(guān)系抽取效果極差。但是長尾關(guān)系的存在是不可忽略的,在NYT數(shù)據(jù)集中,大約70%的關(guān)系屬于長尾關(guān)系(即該關(guān)系訓(xùn)練實例數(shù)量較少,少于1000)。如何提高模型對長尾關(guān)系抽取效果是該篇論文主要出發(fā)點。


貢獻(xiàn)

該篇論文的主要貢獻(xiàn)如下:

1、提出了一種長尾關(guān)系遠(yuǎn)程監(jiān)督抽取的模型;

2、聯(lián)合使用KG embeddings 和 GCNs 來學(xué)習(xí)關(guān)系豐富的語義信息;

3、利用coarse-to-fine knowledge-aware mechanism 來利用關(guān)系語義信息;

4、在NYT數(shù)據(jù)集上的結(jié)果表明當(dāng)前模型在長尾關(guān)系的抽取上取得了state-of-the-art的效果。


方法

在方法整體思路上,遵從前人工作,利用語義相近的head關(guān)系,輔助訓(xùn)練長尾關(guān)系,從而縮小關(guān)系抽取時潛在的搜索空間、減少關(guān)系之間的不確定性。該思路的兩個要點在于:1、如何學(xué)習(xí)得到關(guān)系語義信息;2、如何利用學(xué)習(xí)得到的關(guān)系語義信息。

對于如何學(xué)習(xí)得到關(guān)系語義信息,該論文首先利用現(xiàn)有的KG embeddings方法(如TransE等)學(xué)習(xí)得到關(guān)系的隱式語義信息,但是因為TransE等模型無法有效建模關(guān)系的一對多、多對多情況,從而僅僅通過KG embedding方法無法有效獲取關(guān)系的語義信息。因此,論文中使用圖卷積網(wǎng)絡(luò)(GCNs)從關(guān)系的層次結(jié)構(gòu)中獲取關(guān)系的顯式語義信息。最后將關(guān)系的隱式語義信息和顯式語義信息進(jìn)行結(jié)合從而得到最終的關(guān)系語義信息表示。

對于如何利用學(xué)習(xí)得到的關(guān)系語義信息,該論文首先利用CNN將句子編碼為低維向量,然后使用 coarse-to-fine knowledge-aware mechanism 從多個同實體對句子(多實例學(xué)習(xí))加權(quán)得到最終的句子向量表示。

模型的框架圖如下所示:


從模型框架圖中可以看出,其方法主要包含三個部分:

1、實例編碼模塊:利用CNNs對句子進(jìn)行編碼;

2、關(guān)系知識學(xué)習(xí)模塊:利用KG embedding和GCNs得到關(guān)系的語義表示;

3、Knowledge-aware注意力模塊:利用關(guān)系語義信息對同實體對的多個句子進(jìn)行加權(quán)得到最終句子的語義表示。


1、實例編碼模塊

?給定一個句子及其包含的兩個entity mentions,利用CNN或PCNN模型,將原始的句子 s 映射到一個低維連續(xù)空間中,得到向量x,該論文使用的特征包括1、預(yù)訓(xùn)練Skip-Gram word embedding;2、position embeddings

?

2、關(guān)系知識學(xué)習(xí)模塊

在關(guān)系知識學(xué)習(xí)中,綜合利用 KG embedding 和 GCNs 得到關(guān)系的語義表示。對于KG embedding 使用 TransE 對知識進(jìn)行預(yù)訓(xùn)練從而得到關(guān)系的隱式表示

對于如何使用GCNs得到關(guān)系的顯示表示?論文中首先構(gòu)建了關(guān)系的層次結(jié)構(gòu)圖,關(guān)系的層次結(jié)構(gòu)圖可以使用hierarchy clustering (Johnson, 1967) or K-means算法結(jié)構(gòu)構(gòu)建,也可以使用現(xiàn)有知識圖譜中關(guān)系的層次結(jié)構(gòu)。關(guān)系的層次結(jié)構(gòu)圖如下所示。

對于構(gòu)建的關(guān)系層次結(jié)構(gòu)圖,底部的節(jié)點用TransE預(yù)訓(xùn)練的關(guān)系向量進(jìn)行初始化,父節(jié)點初始化為子節(jié)點平均值。

使用兩層GCN,對構(gòu)建的關(guān)系層次圖進(jìn)行迭代訓(xùn)練,GCN 輸出層公式如下:

最終關(guān)系的語義表示為:

3、Knowledge-aware注意力模塊

依從多實例學(xué)習(xí),對于給定的實體對,以及相關(guān)的多個句子,對于一個關(guān)系r,我們可以得到其關(guān)系的層次鏈,其中的子關(guān)系。

我們計算 Attention 操作在關(guān)系層次鏈的每一層,從而得到每一層文本相關(guān)的關(guān)系表示,具體公式如下:


考慮到不同層次的關(guān)系對最終實例表示的貢獻(xiàn)的不同,對每一層關(guān)系表示使用Attention操作,其中使用作為score-function,表示輸入關(guān)系r和該層預(yù)測關(guān)系r之間的匹配層度,計算公式如下:



最后使用來計算,計算公式如下:

實驗

1、數(shù)據(jù)集

NYT dataset

Relations number

53

Training set

522611 sentences


281270 entity pair


18252 relation facts

Test set

172448 sentences


96678 entity pairs


1950 relation facts

2、實驗結(jié)果

3、長尾關(guān)系實驗結(jié)果

說明:為了體現(xiàn)模型在長尾關(guān)系的有效性,作者選擇了實例數(shù)少于100/200的長尾關(guān)系,以長尾關(guān)系構(gòu)建測試子集進(jìn)行實驗,實驗結(jié)果如下。


總結(jié)

本文針對長尾關(guān)系抽取提出了一種利用KG embedding和GCNs學(xué)習(xí)關(guān)系知識以及使用注意力機(jī)制利用學(xué)習(xí)得到的關(guān)系語義信息的模型。

?



OpenKG


開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。