當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 解决知识图谱补全中的长尾关系和不常见实体问题

發布時間：2024/7/5 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 解决知识图谱补全中的长尾关系和不常见实体问题小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理：汪寒，浙江大學碩士。

鏈接：https://www.aclweb.org/anthology/P19-1024.pdf

動機

KG的分布遵循長尾分布，大部分關系只有很少的三元組，且大體趨勢是關系出現的頻率和與之相關的不常見實體的比例呈反比關系。而之前的知識圖譜補全工作都圍繞在那些出現頻率較高的實體和關系，忽略了剩下的那些infrequent relation和uncommon entities，所以作者就將針對 infrequent relations 和uncommon entities的KGC構造成一個few-shot learning的問題，并提出了一個meta-learning框架。

亮點

本文的亮點主要包括：

（1）提出了entity trait的概念，即實體的表示應該是relation-specific的，也就是不同的關系與實體的表述的不同部分相關，利用文本信息作為補充信息。

（2）提出了一個Triplet Generator，在meta-testing的訓練階段用一個VAE網絡生成一些三元組進行數據增強。

概念及模型

Overview of Learning Method

將每種關系的KGC看作是一個task，把所有task分為訓練集R_train，驗證集R_val，以及測試集R_test。在meta-training的階段每次都隨機抽取B個task訓練模型，得到模型參數W。在meta-testing的階段對每個task都隨機抽r個三元組繼續訓練模型，得到模型參數W^’，再在剩下的三元組上測試模型性能。

Description Encoder

從description生成三元組的embedding O=(o_h,o_r, o_t)

1.????relation embedding生成

用一個CNN網絡將relation的description映射成一個向量o_r

2.????entity trait計算

entitytrait表示與某個關系相連所有的實體的共有特征，這個部分由兩個memory matrix完成，其中M_rh形狀為[m,u]，表示relation memory，M_h形狀也為[m,u]，表示entity memory，這兩個記憶矩陣可以記錄實體和關系的全局信息。

3.????relation-specific entity embedding生成

先將entity的description通過一個CNN網絡生成hidden states，再用上一步生成的entity trait作為key計算隱狀態權重，最后生成entity embedding。

Triplet Generator

用一個復雜版的VAE來生成一些三元組補充訓練數據。

Meta-Learner

用Reptile算法優化。

理論分析

實驗

1.?????數據集

作者通過Wikidata和DBPedia人工構造了兩個數據集，只選擇那些對應三元組出現次數多于5次少于1000次的關系。

2.?????One-shot和Four-shot KGC 實驗結果

其中Ours-TCVAE是指去掉Triplet Generator。

3.?????TripletGenerator study

表示用Triplet Generator生成不同個數三元組時模型在One-shot場景的表現。

總結

本文在few-shot問題上引入了文本信息作為補充信息，并提出了entity trait的概念，也就是實體的embedding應該是relation-specific。同時為了解決在meta-testing的訓練階段訓練不足的問題，還提出了一個基于VAE的Triplet Generator來人工生成三元組補充訓練數據。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 解决知识图谱补全中的长尾关系和不常见实体问题的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | 动态知识图谱对齐
下一篇：论文浅尝 | 基于知识图谱 Embedd