论文浅尝 - AAAI2020 | 小样本知识图谱补全
筆記整理 | 劉克欣,天津大學碩士
鏈接:https://arxiv.org/pdf/1911.11298.pdf
動機
知識圖譜對于許多下游應用(例如搜索,知識問答和語義網)至關重要。然而,現有知識圖譜面臨不完整的問題。知識圖譜補全工作能讓知識圖譜變得更加完整,是目前人工智能領域的一個研究熱點。現有的知識圖譜補全工作大多需要大量的實體對來進行關系推斷。但是,實際數據集中關系的頻率分布通常具有長尾問題, 關系的很大一部分在知識圖譜中只有很少的實體對。處理數量有限(數量很少)的實體對的關系是非常重要且具有挑戰性的。針對上述問題,文章提出了一種少樣本關系學習模型FewShot Relation Learning model(FSRL),其目的是學習一個匹配函數,該函數可以在給定每個關系的少量參考實體對的情況下,有效地推斷出真正的實體對。
亮點
文章的亮點主要包括:
(1)首次提出小樣本情景下的知識圖譜補全任務,更適合實際場景;
(2)提出了一種融合了一些可學習神經網絡模塊的小樣本關系學習模型解決小樣本知識圖譜補全問題。
概念及模型
針對小樣本知識圖譜預測,FSRL要解決的具體問題是:給出少量實體對(參考集)的情況下,根據給定頭實體??和查詢關系??預測尾實體??。
FSRL由三個主要部分組成:
(1)為每個實體編碼異構鄰居;?
(2)對每個關系的少量參考實體對進行匯總;?
(3)將查詢對與參考集進行匹配以進行關系預測。
模型整體框架如下:
編碼異構鄰居
此模塊功能為一個關系可感知的異構鄰居編碼器。基于給定頭實體??的關系鄰居的集合被表示為:
其中,表示背景知識圖譜,?, 分別表示第個關系和相應的的尾部實體。
文章引入注意力機制計算的異構鄰居特征,并使用以下公式計算的embedding:
其中,和分別表示預學習的和的embedding。
融合小樣本參考集
此部分的功能是對參考集中的每個關系的embedding進行聚合。
其中,??是一個聚合函數。
基于圖的embedding,作者設計了一個循環自編碼聚合器。更具體來說,實體對embeddings 被順序喂到循環自編碼器:
其中,是參考集的大小。編碼器和解碼器的隱藏狀態和通過以下公式計算:
優化自編碼器的重構損失如下:
為了形成參考集的embedding,作者聚合了所有編碼的隱層狀態并通過殘差連接與注意力權重機制進行拓展。的計算公式如下:
其中,為聚合的embedding的維度。
匹配查詢集和參考集
在前兩個模塊的基礎上,現在可以基于參考集有效的對每個查詢實體對進行匹配操作。首先通過對查詢實體對和參考集分別進行與操作,從而分別得到兩個embedding向量: 和。
為了衡量兩個向量的相似性,作者采用了一個循環處理器 去完成多步匹配。第個過程步的如下:
其中,輸入為,隱藏狀態為,細胞狀態為。過程步后的隱層狀態記為:。
目標函數和模型訓練
對于每一個關系,我們隨機選擇一些正樣本實體對并把它們作為參考集。剩余的實體對作為正樣本查詢對。此外,也構建了負樣本實體對。排列損失記為:
其中, 為標準的hinge 損失,表示安全邊界距離(本文取值為5)。
最終優化函數如下:
其中,表示參考集聚合的重構損失。表示兩者的權衡因子(本文取值為0.0001)。
理論分析
實驗
作者采用了2個公開數據集進行實驗,分別是:NELL (Mitchell et al. 2018)和Wikidata (Vrandeˇci′c and Kr¨otzsch 2014)。首先是有效性實驗,模型的評價指標為:Hits@k 和 MRR。
圖鄰居編碼器方法(GMatching)優于關系嵌入方法,表明將圖局部結構和匹配網絡相結合對于學習實體嵌入和預測新關系的事實是有效的。
本文提出的FSRL在所有情況下均能達到最佳性能。在NELL和Wiki數據中,相對于最佳基準方法的平均相對改進分別高達34%和15%。它證明了FSRL模型的有效性。異構鄰居編碼器和遞歸自動編碼器聚合網絡有利于知識圖譜中的小樣本關系預測。
除了所有關系預測的整體性能,我們還進行實驗以評估模型對于NELL測試數據中每個關系的預測性能。在大多數情況下,FSRL的性能要優于GMatching。它證明了我們的模型對于不同的關系是魯棒的,并且在大多數關系上都優于GMatching。
作者還進行了實驗以分析小樣本中每類樣本數K的影響。
隨著K的增加,兩個模型的性能都會提高。這表明較大的參考集可以為該關系產生更好的參考集嵌入。在不同的K中,本文的模型始終優于GMatching,這證明了所提出的模型對于知識圖譜中的小樣本關系補全的穩定性。
文章還可視化了每個關系的正候選實體對和負候選實體對的2D嵌入。
從圖中可以看出,兩種方法都能很好地區分正候選和負候選的嵌入。然而,本文的模型取得了更好的性能,并且兩個類的嵌入明顯不同,這進一步證明了所提出的模型在可視化方面的優越性能。
總結
文章提出了一個新的小樣本知識圖譜補全問題,并提出了一種創新的小樣本關系學習模型,即FSRL,以解決該問題。FSRL對關系感知的異構鄰居編碼器、遞歸自動編碼器聚合網絡和匹配網絡進行聯合優化。在兩個公共數據集上的實驗表明,FSRL方法的性能優于現有的基準方法。此外,消融研究驗證了每個模型組件的有效性。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - AAAI2020 | 小样本知识图谱补全的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - ACL2020 | 利用常
- 下一篇: 论文浅尝 | 基于时序知识图谱的问答