當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

18-Gm-TransH：Group-Constrained Embedding of Multi-fold Relations in Knowledge Bases,嵌入,transH,n-ary

發(fā)布時間：2024/7/5 编程问答 61 豆豆

生活随笔收集整理的這篇文章主要介紹了 18-Gm-TransH：Group-Constrained Embedding of Multi-fold Relations in Knowledge Bases,嵌入,transH,n-ary 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

abstract
1. introduction
2 Related Work
- 2.1 Binary Relation Embedding
- 2.2 Multi-fold Relation Embedding
3 Group-Constrained Embedding
- 3.1 Framework
- 3.2 Optimizing Method
- 3.3 Proposed Model
- 3.4 Complexity Analysis
4.實驗
- 4.1 數(shù)據(jù)集
- 4.2 Link Prediction
- 4.3 Instance Classi?cation
5.總結

Huang, Y., et al. (2019). Group-Constrained Embedding of Multi-fold Relations in Knowledge Bases. Natural Language Processing and Chinese Computing: 235-248.

abstract

知識庫的表示學習旨在將實體和關系都嵌入到連續(xù)的向量空間中。大多數(shù)現(xiàn)有模型（例如TransE，DistMult，ANALOGY和ProjE）僅考慮知識庫中涉及的二進制關系，而將多重關系轉(zhuǎn)換為三元組并視為二進制關系的實例，從而導致結構信息丟失。M-TransH是最近提出的用于多重關系的直接建模框架，但忽略了某些事實屬于同一關系的關系級信息。本文提出了一種組約束嵌入方法，該方法將實體節(jié)點和事實節(jié)點從實體空間嵌入到關系空間中，將與同一關系相關的嵌入事實節(jié)點限制為具有零約束，半徑約束或余弦約束的組。使用此方法，提供了一個新模型，即Gm-TransH。我們在鏈接預測和實例分類任務上評估了我們的模型，實驗結果表明Gm-TransH明顯優(yōu)于以前的多重關系嵌入方法，并取得了出色的性能。

實體/關系嵌入（到連續(xù)的向量空間中）
- 二元關系：例如TransE，DistMult，ANALOGY和ProjE）
- 多重關系嵌入
  - 二元關系的方法用于多重關系（多重關系轉(zhuǎn)化為多個三元組，對每個三元組用二元關系的方法）
  - 問題：二元關系的方法若用于多重關系，將之轉(zhuǎn)換為三元組，視為二元關系，導致信息丟失
    - 出現(xiàn)謂詞的異質(zhì)性heterogeneity，不利于嵌入
    - 解決：M-TransH
  - M-TransH的問題：忽略了某些事實屬于同一關系的關系級信息
    - 解決：本文Gm-TransH
Gm-TransH:
- 任務：將實體節(jié)點和事實節(jié)點從實體空間嵌入到關系空間中
- 動機：考慮某些事實屬于同一關系的關系級信息
  - 做法：以使嵌入的事實向量接近超平面上其對應的關系向量
- 優(yōu)化：組約束嵌入方法：Group-Constrained Embedding
  - 約束：
    - 目的：將同一關系的事實節(jié)點限制在組中：
    - 策略：零約束、半徑約束、余弦約束
- 對應于三種策略的三個模型變體：Gm-TransH:zero, Gm-TransH:radius, Gm-TransH:cosine

1. introduction

表示學習[7]已被提出作為一種新的知識庫表示和推理方法。它嵌入了實體和實體之間的關系。實體和關系的表示是通過最小化涉及所有實體和關系的全局損失函數(shù)獲得的。與傳統(tǒng)的基于邏輯的推理方法相比，表示學習在語義搜索，問題解答，藥物發(fā)現(xiàn)和疾病診斷等應用中顯示出強大的可行性和魯棒性。

知識圖譜應用的方法
- 基于邏輯的推理方法
- 表示學習
  - 實體和關系的表示，通過最小化相關的所有實體和關系的全局損失得到
  - 更穩(wěn)定、可行

盡管取得了令人鼓舞的成就，但大多數(shù)現(xiàn)有的表示學習技術（例如TransE [1]，DistMult [18]，ANALOGY [9]和ProjE [12]）僅考慮知識庫中包含的二元關系，即三元組每個都涉及兩個實體和一個關系。例如，“唐納德·J·特朗普是美國總統(tǒng)”由兩個實體組成：“唐納德·J·特朗普。特朗普”，“美國”和二元關系“一國總統(tǒng)”。但是，我們現(xiàn)實生活中大量的知識是具有多重關系（n元， 2）的實例，在一個實例中涉及三個或更多實體（例如“哈利·波特是英美電影系列根據(jù)作者JK羅琳的哈利波特小說”）。解決此問題的通用方法是將每個多重關系轉(zhuǎn)換為具有二進制關系的三元組，并使用現(xiàn)有的Trans（E，H，R）方法學習每個三元組的嵌入。因此，具有N元關系的實例將轉(zhuǎn)換為2）三元組[17]。盡管這種轉(zhuǎn)換能夠捕獲多重關系結構的一部分[11]，但它導致謂詞的異質(zhì)性，不利于嵌入。Wen等。 [17]提倡多重關系的實例表示，并提出了用于知識庫嵌入的直接建模框架“ m-TransH”。但是，m-TransH將事實節(jié)點與一般實體節(jié)點相同，并且忽略某些事實屬于同一關系的關系級別信息。

在本文中，我們首先提出了一種組約束嵌入方法，該方法將實體節(jié)點和事實節(jié)點從實體空間嵌入到關系空間中，使用三種不同的約束策略（）將與同一關系相關的嵌入事實節(jié)點限制在組中。即零約束，半徑約束和余弦約束。

數(shù)據(jù)集
- FB15K [1]
- JF17K [17].
貢獻：
- Group-Constrained Embedding 框架
- 三種約束策略：零約束，半徑約束和余弦約束
- 提出Gm-TransH和三個變體
- 清理冗余數(shù)據(jù)，從JF17K數(shù)據(jù)集生成 $G_{fact}$

（a）提出了用于多重關系嵌入的組約束嵌入框架，該框架將實體和事實節(jié)點都嵌入到低維向量空間中，從而迫使事實嵌入接近其對應的關系向量。
（b)我們引入了三種不同的組約束類型：零約束，半徑約束和余弦約束。對它們的優(yōu)缺點進行了經(jīng)驗分析。
（c）整合了TransH模型，并提出了一種新模型Gm-TransH和三個變體Gm-TransH：Zero，Gm-TransH：Radius和GmTransH：Cosine用于多重關系嵌入。鏈接預測和實例分類任務的實驗結果證明了這三種模型變體的有效性。
（d)清理冗余數(shù)據(jù)并為JF17K數(shù)據(jù)集生成一個新的子集 $G_{fact}$ 。

2 Related Work

2.1 Binary Relation Embedding

二元關系
- TransE系列：（transilation embedding)
  - TransE： $(h,r,t)成立：h+r≈t(h,r,t)成立：h+r\approx t$
  - TransH:在不同關系下，實體的表示不同（投影）
  - TransR:實體空間–>關系空間
  - PTransE [7],
  - TranSparse [6],
  - KG2E [3]
- MultiKE [19],
- RotatE [14]
- 張量分解方法
  - LFM [4],
  - HolE [10]
- 神經(jīng)網(wǎng)絡方法
  - ProjE [12]
  - Conv2D [2],
  - NKGE [15],
  - CrossE [20]

2.2 Multi-fold Relation Embedding

多重關系嵌入
- 通常使用S2C轉(zhuǎn)換和分解框架[17]
  - 多元關系->多個三元組
  - 每個三元組用一次二元關系的方法
- 直接的多重關系框架
  - M-TransH
    - 將TransH直接泛化到multi-fold關系上
    - cost function: $fr(t)=∣∣Σrho∈M(Rr)ar(ρ)Pnr(t(ρ))+br∣∣22,t∈NM(Rr)M(Rr):涉及關系Rr的一組實體N:KB中的所有實體t::Rr的實例t（ρ):ρ角色的實體Pnr(z)：向量z在超平面上的投影,nr：normal向量Pnr(z)=z?nrTznrnr和br：單位長度正交向量f_r(t)=||\Sigma_{rho\in M(R_r)}a_r(\rho)P_{n_r}(t(\rho))+b_r||_2^2,t\in N^{M(R_r)}\\ M(R_r):涉及關系R_r的一組實體\\ N:KB中的所有實體 t::R_r的實例\\ t（\rho):\rho角色的實體\\ P_{n_r}(z)：向量z在超平面上的投影,\\n_r：normal向量\\ P_{n_r}(z)=z-n_r^Tzn_r\\ n_r和b_r：單位長度正交向量$
    - $ar∈RM(Rr),Σrho∈M(Rr)ar(ρ)=0a_r\in R^{M(R_r)},\Sigma_{rho\in M(R_r)}a_r(\rho)=0$

3 Group-Constrained Embedding

3.1 Framework

框架
- 原始文本->知識->知識庫中多重關系的實例
- 事實節(jié)點：特定關系的每個實例（Fact)
  - 實例的實體鏈接到事實節(jié)點（三角形）
  - 事實節(jié)點可以共享：實體（角色）和關系
- 組：同一個關系的屬于一個組
- 組內(nèi)fact距離近，組間距離遠

我們的多重關系建模框架如圖1所示。從原始文本中提取的知識構成了知識庫中多重關系的實例，我們引入事實節(jié)點來表示特定關系的每個實例，并將實例的實體鏈接到相應的事實節(jié)點。這些事實節(jié)點可以共享某些角色（即實體）和關系。例如，在圖1中，事實2和事實4具有相同的“出生”關系，即唐納德·特朗普和伊萬卡·特朗普都出生在紐約。我們將實體和事實節(jié)點都嵌入到低維向量空間中，并使具有相同關系的事實節(jié)點的嵌入接近，從而為每種關系類型生成一個組，而使不同關系的組彼此遠離。

3.2 Optimizing Method

說明了在知識庫中進行多重關系嵌入的三種不同的組約束策略。我們使用零約束，半徑約束或余弦約束方法將實體，事實和多重關系從原始向量空間（即圖A）嵌入到連續(xù)向量空間（即圖B，C，D）。橙色正方形表示多重關系，綠色圓圈表示實例（即事實節(jié)點），藍色三角形表示一般實體。（在線彩色圖）
將多重關系轉(zhuǎn)換為二進制關系會導致謂詞的異構性，這不利于知識庫的嵌入。M-TransH [17]將事實節(jié)點與一般實體節(jié)點相同，忽略了某些事實屬于同一關系的關系級別信息。在這里，我們提出了一種稱為組約束嵌入的優(yōu)化方法，該方法將實體節(jié)點和事實節(jié)點從實體空間嵌入到關系空間中，從而將與同一關系相關的嵌入事實節(jié)點限制為特定組。

優(yōu)化方法：組約束嵌入
- 將同一關系相關的嵌入事實節(jié)點限定為特定組
- cost function: $fr(t)=∣∣Σrho∈M(Rr)ar(ρ)Pnr(t(ρ))+br∣∣22+β×gr(t),t∈NM(Rr)M(Rr):涉及關系Rr的一組實體N:KB中的所有實體t::Rr的實例t（ρ):ρ角色的實體Pnr(z)：向量z在超平面上的投影,nr：normal向量Pnr(z)=z?nrTznrnr和br：單位長度正交向量gr(t):用于限制嵌入事實向量和關系向量的懲罰項。前l(fā)oss,后penalty??偏置向量br:來代表關系相似度：測量事實嵌入與關系向量的距離f_r(t)=||\Sigma_{rho\in M(R_r)}a_r(\rho)P_{n_r}(t(\rho))+b_r||_2^2+\beta\times g_r(t),t\in N^{M(R_r)}\\ M(R_r):涉及關系R_r的一組實體\\ N:KB中的所有實體 t::R_r的實例\\ t（\rho):\rho角色的實體\\ P_{n_r}(z)：向量z在超平面上的投影,\\n_r：normal向量\\ P_{n_r}(z)=z-n_r^Tzn_r\\ n_r和b_r：單位長度正交向量\\ g_r(t):用于限制嵌入事實向量和關系向量的懲罰項。 \\前l(fā)oss,后penalty-- \\偏置向量b_r:來代表關系 \\相似度：測量事實嵌入與關系向量的距離$
  - $ar∈RM(Rr),Σrho∈M(Rr)ar(ρ)=0a_r\in R^{M(R_r)},\Sigma_{rho\in M(R_r)}a_r(\rho)=0$
  - 目標：減少損失和懲罰
  - 懲罰 $g_r(t)$ :(相似度）
    - zero-constraint:強約束，令事實向量=關系向量
      - $gr(t)=∣∣br?Pnr(efact)∣∣2,t∈NM(Rr)g_r(t)=||b_r-P_{n_r}(e_{fact})||_2,t\in N^{M(R_r)}$
      - 優(yōu)點：減少解空間，加快模型收斂
      - 缺點：降低多樣性和表達能力
      - 如圖B:同組內(nèi)事實共享相同的實體表示,組內(nèi)事實表示相同=關系
    - radius
      - $gr(t)=∣∣br?Pnr(efact)∣∣2??,t∈NM(Rr)g_r(t)=||b_r-P_{n_r}(e_{fact})||_2-\epsilon,t\in N^{M(R_r)}$
      - 寬松的約束，在歐幾里得空間的距離＜ $?\epsilon$ （圓）
      - 保證表達能力和多樣性
      - 缺點：每個維度的貢獻均等
      - 同組的事實在以關系為中心的圓內(nèi)（超球體）(圖C)
    - cosine
      - $gr(t)=cos(br,Pnr(efact)),t∈NM(Rr)g_r(t)=cos(b_r,P_{n_r}(e_{fact})),t\in N^{M(R_r)}$
      - 圖D:同組在一條線上(過原點）

在圖A的原始向量空間中，我們有一個三元關系“ relation1”（用橙色正方形表示）和兩個實例（用綠色圓圈表示），它們的FACT-ID為“ f act1”和“ f act2”。兩個實例中的每個實例都通過不同的角色（即role1，role2和role3）與其他三個通用實體（由藍色三角形表示）鏈接。我們在圖A中呈現(xiàn)4個一般實體e1，e2，e3和e4。我們可以看到，f act1和f act2在“ role1”和“ role2”上共享相同的實體，這與“ role3”不同。
在圖B，C和D中，我們通過在實例和實體的名稱上添加單引號來表示實例和實體的嵌入矢量。事實節(jié)點“ f act1”的嵌入向量被標記為“ f act1’”。我們指出嵌入的多重關系“ relation1”與原始向量空間中的關系相同，因為它們是相同的向量，并且沒有映射操作。
圖B顯示了具有零約束的組約束嵌入的結果。當我們強制嵌入的事實向量“ f act1’”，“ f act2’”及其對應的關系向量“ relation1”之間的歐幾里得距離為零時，這三個向量幾乎落入了嵌入向量空間中的同一點。當使用半徑約束時，
如圖C所示，“ f act1’”和“ f act2’”落入超球體，“ relation1”充當球體的中心，半徑?是介于0和0之間的十進制數(shù)。 1。我們可以看到，將?設置為0時，半徑約束退化為零約束。
在圖D中，我們使用余弦距離作為度量，因此嵌入矢量“ f act1’”，“ f act2’”和“ relation1”的角度幾乎相同，投影到超平面時落在一條直線上。

3.3 Proposed Model

Group-constrained m-TransH (Gm-TransH)
- 目標：以使嵌入的事實向量接近超平面上其對應的關系向量

3.4 Complexity Analysis

時間復雜度：TransH>Gm-TransH>M-TransH
- 變體：radius>zero>cosine
參數(shù)數(shù)量：Gm-TransH<M-TransH

4.實驗

4.1 數(shù)據(jù)集

數(shù)據(jù)集
- FB15K [1]
  - 為了驗證我們的模型對特定退化類型的多重（N-ary）關系(N=2)的有效性，我們還對FB15K數(shù)據(jù)集執(zhí)行了實例分類任務[1]
- JF17K [17].
  - 多重關系：
    - $T (F) : G$
    - $T_{id}(F):G_{id}$ ：缺少大量實例的事實節(jié)點
      - FACTID：不適用于本文model，去除
      - 擴充為 $G_{fact}$
  - 用三元關系表示的二元關系的數(shù)據(jù)集（S2C(G)):G_{s2c}
  - 一致的數(shù)據(jù)集
  - 一開始就去除了冗余

FB15K。為了驗證我們的模型對特定退化類型的多重（N-ary）關系，即N = 2的二元關系的有效性，我們還對FB15K數(shù)據(jù)集執(zhí)行了實例分類任務[1]。由于FB15K數(shù)據(jù)集僅由三元組的二進制關系組成，并且不包含事實節(jié)點的信息，因此我們擴展FB15K數(shù)據(jù)集并將唯一的事實節(jié)點附加到每個三元組。因此，我們可以使用擴展的FB15K數(shù)據(jù)集訓練提出的Gm-TransH模型并在僅保持二進制關系的情況下測試其性能。為了與二進制關系的基準模型進行比較，我們使用原始的FB15K數(shù)據(jù)集來訓練NTN，TransE，TransH和TransR模型。為方便起見，我們使用“ Raw”表示原始FB15K數(shù)據(jù)集，并使用“ Ext”表示擴展的FB15K數(shù)據(jù)集。表3列出了原始FB15K和擴展FB15K數(shù)據(jù)集的統(tǒng)計信息。

4.2 Link Prediction

鏈接預測
- （h,r,t)：三缺1，預測缺的部分
- the extended JF17K datasets i
- 給候選實體排序
- Evaluation Protocol
  - 將測試集中的實例
  - 為了公平起見，我們僅替換實例中出現(xiàn)的真實實體，并排除事實節(jié)點。
參數(shù)

按照標準，隨機梯度下降用于訓練。我們將L2作為相異性，遍歷所有訓練樣本1000輪。在我們的實驗中，研究了實體和關系維d的幾種選擇：25、50、100、150、200、250。我們在0.0015、0.005、0.01、0.1中選擇SGD的學習率λ，在0.001、0.01、0.05 0.1中選擇Gm-TransH的平衡因子β，在0.5、1.0、2.0中選擇余量γ，在Gm-TransH中選擇半徑? ：半徑在0.01、0.05、0.1、0.5、1、5之間，批量B在120、480、960、1920之間。三種不同的Gm-TransH模型的最佳配置為Gm-TransH：零：λ= 0.0015，β= 0.01，γ= 0.5，d = 150，B = 960。Gm-TransH：半徑：λ= 0.0015，β= 0.05，γ= 1.0，? = 0.05，d = 250，B = 480。Gm-TransH：余弦：λ= 0.0015，β= 0.01，γ= 1.0，d = 200，B = 1920。

結果
- 總體而言，模型效果好
- zero:利于判別
- cosine:均值度量上好，具有整體優(yōu)化能力

結果。表5中顯示了在清潔和擴展的JF17K數(shù)據(jù)集上進行鏈接預測的實驗結果，該結果顯示了尺寸分別為25、50、100、150、200、250的不同嵌入模型的Hit @ 10結果和平均排名結果。這三個Gm-TransH模型在Hit @ 10和平均排名指標上均大大優(yōu)于Trans（E，H，R）模型。與m-TransH模型相比，我們的模型提高了Hit @ 10的概率，并通過m-TransH：inst獲得了近似的平均排名。結果表明，我們的方法對于通過多重關聯(lián)嵌入提高鏈接預測的準確性是有效的。此外，相比之下，Gm-TransH：zero優(yōu)于Hit @ 10度量上的Radius約束和余弦約束，表明Zero Constraint更好用于判別。Gm-TransH：cosine在均值秩度量上表現(xiàn)最佳，并且具有更高的整體優(yōu)化能力。

4.3 Instance Classi?cation

實例分類任務：判斷給定實例（h,r,t)是否正確
構建否定實例
我們選擇與鏈接預測中使用的相同的超參數(shù)，并獲得20次重復試驗的平均準確性。
有效

評估協(xié)議。對于實例分類任務，我們在NTN和TransH中遵循相同的協(xié)議。由于分類的評估需要否定標記，因此JF17K和FB15K數(shù)據(jù)集都只包含肯定實例，因此我們按照文獻[13]中對FB13使用的相同步驟構造否定實例。對于每個黃金實例，都會創(chuàng)建一個否定實例。
通過最大化訓練集的分類精度，我們?yōu)槊總€關系r設置閾值。對于測試集中的給定實例，如果相異性得分低于 $δr\delta_r$ ，它將被分類為正，否則為負。

結果。表6詳細列出了實例分類的評估結果。我們可以觀察到，在FB15K和JF17K數(shù)據(jù)集上，Gm-TransH模型都可以達到90％的精度，明顯優(yōu)于包括NTN，Trans（E，H，R）和m-TransH在內(nèi)的基線模型。這表明我們的模型可以有效，富有表現(xiàn)力地學習關系級信息。此外，從FB15K（Raw）和FB15K（Ext）數(shù)據(jù)集的結果中，我們看到，即使對于二進制關系，組約束嵌入模型也是可行且可靠的。

5.總結

我們提出了具有三種不同類型的多重關系約束策略的群約束嵌入框架，并提出了一種新的表示學習模型Gm-TransH。我們在擴展的FB15K和JF17K數(shù)據(jù)集上評估所提出模型的有效性和性能。實驗結果表明，在鏈接預測和實例分類任務上，Gm-TransH模型優(yōu)于所有基線模型。將來，我們將針對知識庫中日趨復雜的數(shù)據(jù)探索更多的表示和嵌入框架，例如事件和過程，并結合了二進制關系學習中的最新進展以進行多重關系嵌入。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結

以上是生活随笔為你收集整理的18-Gm-TransH：Group-Constrained Embedding of Multi-fold Relations in Knowledge Bases,嵌入,transH,n-ary的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ACM 杰出会员姬水旺：量子化学和物理的
下一篇：论文阅读课11-TEMPROB：Impr