當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 可建模语义分层的知识图谱补全方法

發(fā)布時(shí)間：2024/7/5 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 可建模语义分层的知识图谱补全方法小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載自公眾號(hào)：PaperWeekly。

論文作者：蔡健宇，中國(guó)科學(xué)技術(shù)大學(xué)，研究方向：知識(shí)圖譜

近些年，知識(shí)圖譜（Knowledge Graph）在自然語(yǔ)言處理、問(wèn)答系統(tǒng)、推薦系統(tǒng)等諸多領(lǐng)域取得了廣泛且成功的應(yīng)用。然而，現(xiàn)有知識(shí)圖譜普遍存在鏈接缺失問(wèn)題。為解決該問(wèn)題，知識(shí)圖譜補(bǔ)全任務(wù)應(yīng)運(yùn)而生。目前的知識(shí)圖譜補(bǔ)全模型可分為多個(gè)流派，而基于距離的模型是其中重要一派。這類模型可以建模對(duì)稱、互逆與復(fù)合等不同的抽象關(guān)系模式（Relation Pattern），卻難以對(duì)知識(shí)圖譜中普遍存在的語(yǔ)義分層（Semantic Hierarchies）現(xiàn)象進(jìn)行有效建模。

本文接下來(lái)所介紹的工作 HAKE 使用極坐標(biāo)系對(duì)語(yǔ)義分層現(xiàn)象進(jìn)行建模，并在主流數(shù)據(jù)集上超越了這一流派中現(xiàn)有性能最好的方法。

論文的標(biāo)題為 Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction，發(fā)表于 AAAI 2020。論文代碼已開源至 Github。

論文鏈接：https://arxiv.org/abs/1911.09419

開源代碼：https://github.com/MIRALab-USTC/KGE-HAKE

知識(shí)圖譜與補(bǔ)全任務(wù)

知識(shí)圖譜是一種以圖 (Graph) 的形式存儲(chǔ)人類知識(shí)的大規(guī)模語(yǔ)義網(wǎng)絡(luò)。知識(shí)圖譜中的節(jié)點(diǎn) (Node) 表示實(shí)體 (Entity)，邊 (Edge) 表示關(guān)系 (Relation)。在知識(shí)圖譜中，事實(shí) (Fact) 一般以三元組?(Triple) 的形式進(jìn)行表示。三元組一般記為 < 頭實(shí)體，關(guān)系，尾實(shí)體 > (< head entity, relation, tail entity >)。例如，下圖中的 < 達(dá)芬奇 (Da Vinci)，繪制 (painted)，蒙娜麗莎 (Mona Lisa) > 就是一個(gè)三元組。

然而，知識(shí)圖譜卻普遍存在著三元組缺失（即鏈接缺失）問(wèn)題。因缺失三元組的規(guī)模通常較大，人工尋找這些三元組代價(jià)高昂。因此，研究者們?cè)O(shè)計(jì)了知識(shí)圖譜補(bǔ)全任務(wù) (Knowledge Graph Completion)，旨在通過(guò)機(jī)器學(xué)習(xí)模型自動(dòng)補(bǔ)全缺失三元組。由于該任務(wù)并不會(huì)新增實(shí)體與關(guān)系，只是補(bǔ)全已有實(shí)體間的鏈接 (Link)，因此也被稱為鏈接預(yù)測(cè) (Link Prediction) 任務(wù)。

相關(guān)工作

現(xiàn)有知識(shí)圖譜補(bǔ)全模型首先將實(shí)體與關(guān)系映射為低維嵌入（knowledge graph embeddings，可為向量/矩陣/張量），然后通過(guò)一個(gè)以低維嵌入為輸入的打分模型為給定三元組進(jìn)行打分，從而確定任意三元組真實(shí)存在的概率。

現(xiàn)有的模型主要分為以下三類：

基于距離的模型 (Distance-based Models)
雙線性模型 (Bilinear Models)
神經(jīng)網(wǎng)絡(luò)模型 (Neural Network Models)

本文所介紹的 HAKE 模型屬于“基于距離的模型”這一流派。

基于距離的模型將關(guān)系視為從頭實(shí)體到尾實(shí)體的映射，并通過(guò)計(jì)算映射后的頭實(shí)體與尾實(shí)體之間的距離來(lái)得到三元組的得分，代表性模型包括 TransE 與 RotatE 等。該流派之前的模型能夠?qū)σ恍┏橄蟮年P(guān)系模式進(jìn)行建模，包括對(duì)稱關(guān)系 (Symmetry)，互逆關(guān)系 (Inversion) 和復(fù)合 (Composition) 關(guān)系等。

TransE 將一個(gè)真實(shí)三元組 (h, r, t) 建模為??, 其中?，k 表示向量維度，它可以建模互逆關(guān)系與復(fù)合關(guān)系，卻難以建模對(duì)稱關(guān)系。

RotatE 將一個(gè)真實(shí)三元組 (h, r, t) 建模為?, 其中?，?表示向量間的 Hadamard 積，即?，它能夠建模上述三種關(guān)系。

然而，這些模型難以建模在知識(shí)圖譜中普遍存在的語(yǔ)義分層現(xiàn)象。

模型介紹

1. 語(yǔ)義分層現(xiàn)象

語(yǔ)義分層 (Semantic Hierarchies) 現(xiàn)象在知識(shí)圖譜中普遍存在。以下面兩個(gè)三元組為例：

< 棕櫚樹 (palm)，上位詞 (_hypernym)，樹 (tree) >
< 蘭開斯特 (Lancaster)，位于 (located_in)，英格蘭 (England) >

實(shí)體 <樹> 與 <英格蘭> 更加抽象，屬于更高的范疇，因而在語(yǔ)義分層中屬于高層級(jí)的實(shí)體；實(shí)體 <棕櫚樹> 與 <蘭開斯特> 更加具體，因而在語(yǔ)義分層中屬于低層級(jí)的實(shí)體。

進(jìn)一步，我們發(fā)現(xiàn)知識(shí)圖譜中的語(yǔ)義分層現(xiàn)象可以抽象為樹型 (Tree) 結(jié)構(gòu)。其中：

處于最高語(yǔ)義層級(jí)的實(shí)體對(duì)應(yīng)著樹的根節(jié)點(diǎn)
擁有更高的語(yǔ)義層級(jí)的實(shí)體更加接近根節(jié)點(diǎn)
語(yǔ)義層級(jí)更低的實(shí)體更加接近葉子節(jié)點(diǎn)
處于相同語(yǔ)義層級(jí)的實(shí)體到根節(jié)點(diǎn)的距離相同

也就是說(shuō)，樹中一個(gè)節(jié)點(diǎn)的深度 (Depth) 反映了其對(duì)應(yīng)實(shí)體的語(yǔ)義層級(jí)。基于以上觀察，我們將知識(shí)圖譜中的不同實(shí)體分為兩類：

分屬不同語(yǔ)義層級(jí)的實(shí)體，例如 <哺乳動(dòng)物 (mammal)> 與 <狗 (dog)>；<奔跑 (run)> 與<移動(dòng) (move)>。
屬于相同語(yǔ)義層級(jí)的實(shí)體，例如 <玫瑰 (rose)> 與 <牡丹 (peony)>；<卡車 (truck)> 與 <貨車 (lorry)>。

若要建模知識(shí)圖譜的語(yǔ)義層級(jí)，一個(gè)模型必須能夠建模上述兩類實(shí)體。

2. HAKE 模型

HAKE (Hierarchy-Aware Knowledge Graph Embedding) 模型使用極坐標(biāo)系建模上述表示語(yǔ)義層級(jí)的樹型結(jié)構(gòu)。

極坐標(biāo)系 (Polar Coordinate System) 是一個(gè)二維坐標(biāo)系統(tǒng)，包括半徑坐標(biāo)和角度坐標(biāo)兩部分。該坐標(biāo)系統(tǒng)中任意位置可由一個(gè)半徑??和一個(gè)角度??來(lái)表示。該模型將不同實(shí)體的嵌入向量的相同維都映射到同一個(gè)極坐標(biāo)系中，包括模長(zhǎng)和角度兩部分。其中：

模長(zhǎng)部分用于建模分屬不同層級(jí)的實(shí)體
角度部分用于建模屬于同一層級(jí)的實(shí)體

下面對(duì)這兩部分進(jìn)行詳細(xì)介紹。

2.1 模長(zhǎng)部分

受到前文所述樹型結(jié)構(gòu)的啟發(fā)，我們使用極坐標(biāo)系中的模長(zhǎng)來(lái)表示樹中節(jié)點(diǎn)的深度。即，在語(yǔ)義層級(jí)中，我們使用模長(zhǎng)部分來(lái)區(qū)分那些分屬不同層級(jí)的實(shí)體。

對(duì)于一個(gè)三元組?，?與??分別為頭實(shí)體、尾實(shí)體與關(guān)系向量，我們的建模如下:

對(duì)應(yīng)的距離函數(shù) (Distance Function) 為：

2.2 角度部分

位于同一個(gè)圓上的點(diǎn)（模長(zhǎng)相同）可以有不同的夾角。受其啟發(fā)，我們使用極坐標(biāo)系中的角度來(lái)區(qū)分樹中處于同一深度的不同節(jié)點(diǎn)。即，在語(yǔ)義層級(jí)中，我們使用角度部分來(lái)區(qū)分那些屬于同一層級(jí)的不同實(shí)體。

對(duì)于一個(gè)三元組??，?分別為頭實(shí)體、關(guān)系與尾實(shí)體向量，我們的建模如下:

對(duì)應(yīng)的距離函數(shù) (Distance Function) 為：

2.3 模長(zhǎng) + 角度

綜合模長(zhǎng)部分與角度部分，我們得到

而??、??與??分別表示綜合后的頭實(shí)體、關(guān)系與為實(shí)體向量。

綜合后的距離函數(shù)為：

得分函數(shù) (Score Function) 為：

2.4 基準(zhǔn)模型 ModE

為了更加公平地進(jìn)行對(duì)比實(shí)驗(yàn)，我們僅利用模長(zhǎng)信息設(shè)計(jì)一個(gè)新的模型—ModE，它將作為基準(zhǔn)模型之一與 HAKE 進(jìn)行對(duì)比。

3. 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集

在本次實(shí)驗(yàn)中，我們選擇在 WN18RR、FB15k-237 與 YAGO3-10 這三個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。其中：

WN18RR，主要包含兩種類型的關(guān)系：(a) 對(duì)稱關(guān)系，如 _similar_to，該關(guān)系類型連接的頭尾實(shí)體屬于同一語(yǔ)義層級(jí)；(b) 非對(duì)稱關(guān)系，如 _hypernym，該關(guān)系連接的頭尾實(shí)體屬于不同語(yǔ)義層級(jí)。
FB15k-237，包含的關(guān)系數(shù)量最多，關(guān)系類型最復(fù)雜，僅有部分關(guān)系表示語(yǔ)義層級(jí)。
YAGO3-10，該數(shù)據(jù)集和 FB15k-237 類似，包含許多具有高入度 (Indegree) 的關(guān)系，即在同一個(gè)關(guān)系下，一個(gè)頭/尾實(shí)體可能對(duì)應(yīng)著大量的尾/頭實(shí)體。例如，(?,hasGender,male)(?,hasGender,male) 擁有超過(guò) 1,000 個(gè)正確的頭實(shí)體，但這些頭實(shí)體的含義卻可能相差懸殊，因此建模難度更高。

3.2 實(shí)驗(yàn)結(jié)果

HAKE 與基準(zhǔn)模型 ModE 在 WN18RR、FB15k-237 與 YAGO3-10 上的實(shí)驗(yàn)對(duì)比結(jié)果如下圖所示。

我們可以看到：

ModE 模型的參數(shù)量和 TransE 相同，且模型同樣簡(jiǎn)單，但在各個(gè)數(shù)據(jù)集上的性能都遠(yuǎn)高于它；
HAKE 模型在各個(gè)數(shù)據(jù)集上的表現(xiàn)都顯著優(yōu)于現(xiàn)有的最佳模型。

3.3 可視化分析

3.3.1 關(guān)系的可視化分析

(i) 關(guān)系的模長(zhǎng)部分

基于上文中關(guān)于樹型結(jié)構(gòu)的論述，我們對(duì)于實(shí)體的嵌入向量的表現(xiàn)有如下的期望：

位于更高語(yǔ)義層級(jí)的實(shí)體更加靠近樹的根節(jié)點(diǎn)，故模長(zhǎng)更小
位于更低語(yǔ)義層級(jí)的實(shí)體更加靠近樹的葉節(jié)點(diǎn)，故模長(zhǎng)更大

由于關(guān)系連接著頭尾實(shí)體，我們對(duì)于關(guān)系的嵌入向量的表現(xiàn)有如下期望：

如果頭實(shí)體的語(yǔ)義層級(jí)更高，而尾實(shí)體的語(yǔ)義層級(jí)更低，那么我們期望?
如果頭實(shí)體的語(yǔ)義層級(jí)更低，而尾實(shí)體的語(yǔ)義層級(jí)更高，那么我們期望?
如果頭尾實(shí)體位于相同的語(yǔ)義層級(jí)，那么我們期望?

為了驗(yàn)證上述猜想，我們進(jìn)行了如下實(shí)驗(yàn)分析。首先，我們從三個(gè)數(shù)據(jù)集中選取了一些代表性的關(guān)系。接著，對(duì)于這些關(guān)系在 ModE 與 HAKE 模型中的模長(zhǎng)部分向量，我們繪制了每一維度的取值的分布直方圖，如下圖所示：

對(duì)于圖中的六個(gè)關(guān)系，我們將其分為三組。圖 (a) (b) 中的關(guān)系所連接的頭實(shí)體的語(yǔ)義層級(jí)低于尾實(shí)體；圖 (c)?(d) 中的關(guān)系所連接的頭尾實(shí)體的語(yǔ)義層級(jí)相同；圖 (e) (f) 中的關(guān)系所連接的頭實(shí)體的語(yǔ)義層級(jí)高于尾實(shí)體。

從圖中可以分析得出，當(dāng)頭實(shí)體語(yǔ)義層級(jí)更高時(shí)，關(guān)系的模長(zhǎng)總體大于1；當(dāng)尾實(shí)體語(yǔ)義層級(jí)更高時(shí)，關(guān)系的模長(zhǎng)總體小于1；當(dāng)頭尾實(shí)體的語(yǔ)義層級(jí)相同時(shí)，關(guān)系的模長(zhǎng)總體接近1。

這樣的實(shí)驗(yàn)結(jié)果與上述猜想完全一致。我們還發(fā)現(xiàn)，與 ModE 相比，HAKE 的模長(zhǎng)嵌入向量的取值分布更為集中，方差更小，這表明 HAKE 能夠更加清晰準(zhǔn)確地對(duì)語(yǔ)義層級(jí)進(jìn)行建模。

(ii) 關(guān)系的角度部分

在上述圖 (c) (d) 中，關(guān)系的模長(zhǎng)都接近于 1，因此利用模長(zhǎng)部分難以對(duì)該關(guān)系連接的實(shí)體進(jìn)行區(qū)分。對(duì)于這種情況，我們求助于 HAKE 的角度部分。我們從 WN18RR 和 FB15k-237 中各選取了一種關(guān)系，并繪制了它們角度部分每一維度的取值的的分布直方圖，如下圖所示。

從圖中可以看到，它們每一維度的取值主要集中于三個(gè)值附近：0、π 與 2π，并且取值接近 π 的維度占比為 40%-50%。也就是說(shuō)，這些頭尾實(shí)體中接近一半的維度取值都相差 π。因此位于同一語(yǔ)義層級(jí)的實(shí)體可以被角度部分區(qū)分。

3.3.2 實(shí)體可視化分析

我們接下來(lái)對(duì)實(shí)體進(jìn)行可視化分析。在這部分的實(shí)驗(yàn)中，為了更加清晰的展示出通過(guò) HAKE 建模得到的分層效果，我們將 HAKE 與 RotatE 進(jìn)行對(duì)比，將兩種模型得到的實(shí)體向量的不同維度都繪制成同一個(gè)二維平面上的點(diǎn)。我們從 WN18RR 中選取了三個(gè)不同類型的三元組，得到如下的散點(diǎn)圖。

圖 (a) 中的三元組中，頭實(shí)體位于更低的語(yǔ)義層級(jí)；圖 (b) 中，頭尾實(shí)體的語(yǔ)義層級(jí)相同；圖 (c) 中，頭實(shí)體位于更高的語(yǔ)義層級(jí)。需要注意的是，為了更加直觀地顯示出分層效果，我們繪制散點(diǎn)圖時(shí)對(duì)于每一個(gè)點(diǎn)的模長(zhǎng)使用了對(duì)數(shù)縮放操作。因此，圖中更大的半徑實(shí)際上表示更小的模長(zhǎng)。

從圖中可以看到，在頭尾實(shí)體分屬不同語(yǔ)義層級(jí)的場(chǎng)景下（圖 (a) 與 (c)），HAKE 的散點(diǎn)圖表現(xiàn)出了更加明顯的分層效果，而在 RotatE 的散點(diǎn)圖中，頭尾實(shí)體則難以依靠半徑進(jìn)行區(qū)分。對(duì)于頭尾實(shí)體屬于相同語(yǔ)義層級(jí)的場(chǎng)景下，表示頭尾實(shí)體的點(diǎn)應(yīng)該具有大致相同的半徑。在此場(chǎng)景下，HAKE 依然表現(xiàn)的更好，因?yàn)?HAKE 中的實(shí)體模長(zhǎng)分布的方差更小。

總結(jié)

本文介紹了一個(gè)可建模語(yǔ)義分層的知識(shí)圖譜補(bǔ)全模型：HAKE。該模型使用極坐標(biāo)系對(duì)語(yǔ)義分層進(jìn)行建模。其中，模長(zhǎng)部分用于建模分屬不同語(yǔ)義層級(jí)的實(shí)體；角度部分用于建模屬于相同語(yǔ)義層級(jí)的實(shí)體。實(shí)驗(yàn)結(jié)果表明 HAKE 的性能優(yōu)于現(xiàn)有的性能最好的方法。進(jìn)一步分析結(jié)果顯示，訓(xùn)練得到的模型中模長(zhǎng)與角度的表現(xiàn)與預(yù)期相符，能夠很好地對(duì)語(yǔ)義層級(jí)進(jìn)行建模。

OpenKG

開放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 可建模语义分层的知识图谱补全方法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：会议交流 | 2021年全国知识图谱与语
下一篇：论文浅尝 | SMBOP: Semi-a