论文浅尝 | 解决知识图谱补全中的长尾关系和不常见实体问题
論文筆記整理:汪寒,浙江大學碩士。
鏈接:https://www.aclweb.org/anthology/P19-1024.pdf
動機
KG的分布遵循長尾分布,大部分關系只有很少的三元組,且大體趨勢是關系出現的頻率和與之相關的不常見實體的比例呈反比關系。而之前的知識圖譜補全工作都圍繞在那些出現頻率較高的實體和關系,忽略了剩下的那些infrequent relation和uncommon entities,所以作者就將針對 infrequent relations 和uncommon entities的KGC構造成一個few-shot learning的問題,并提出了一個meta-learning框架。
亮點
本文的亮點主要包括:
(1)提出了entity trait的概念,即實體的表示應該是relation-specific的,也就是不同的關系與實體的表述的不同部分相關,利用文本信息作為補充信息。
(2)提出了一個Triplet Generator,在meta-testing的訓練階段用一個VAE網絡生成一些三元組進行數據增強。
概念及模型
Overview of Learning Method
將每種關系的KGC看作是一個task,把所有task分為訓練集Rtrain,驗證集Rval,以及測試集Rtest。在meta-training的階段每次都隨機抽取B個task訓練模型,得到模型參數W。在meta-testing的階段對每個task都隨機抽r個三元組繼續訓練模型,得到模型參數W’,再在剩下的三元組上測試模型性能。
Description Encoder
從description生成三元組的embedding O=(oh,or, ot)
1.????relation embedding生成
用一個CNN網絡將relation的description映射成一個向量or
?
2.????entity trait計算
entitytrait表示與某個關系相連所有的實體的共有特征,這個部分由兩個memory matrix完成,其中Mrh形狀為[m,u],表示relation memory,Mh形狀也為[m,u],表示entity memory,這兩個記憶矩陣可以記錄實體和關系的全局信息。
?
3.????relation-specific entity embedding生成
先將entity的description通過一個CNN網絡生成hidden states,再用上一步生成的entity trait作為key計算隱狀態權重,最后生成entity embedding。
?
Triplet Generator
用一個復雜版的VAE來生成一些三元組補充訓練數據。
Meta-Learner
用Reptile算法優化。
理論分析
實驗
1.?????數據集
作者通過Wikidata和DBPedia人工構造了兩個數據集,只選擇那些對應三元組出現次數多于5次少于1000次的關系。
?
2.?????One-shot和Four-shot KGC 實驗結果
其中Ours-TCVAE是指去掉Triplet Generator。
3.?????TripletGenerator study
表示用Triplet Generator生成不同個數三元組時模型在One-shot場景的表現。
總結
本文在few-shot問題上引入了文本信息作為補充信息,并提出了entity trait的概念,也就是實體的embedding應該是relation-specific。同時為了解決在meta-testing的訓練階段訓練不足的問題,還提出了一個基于VAE的Triplet Generator來人工生成三元組補充訓練數據。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 解决知识图谱补全中的长尾关系和不常见实体问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 动态知识图谱对齐
- 下一篇: 论文浅尝 | 基于知识图谱 Embedd