论文浅尝 - AAAI2021 | 从历史中学习:利用时间感知拷贝生成网络建模时态知识图谱...
筆記整理 |?朱珈徵,天津大學(xué)碩士
鏈接:https://arxiv.org/pdf/2012.08492.pdf
動(dòng)機(jī)
大型知識(shí)圖通常會(huì)增長(zhǎng)以存儲(chǔ)時(shí)態(tài)事實(shí),這些時(shí)間事實(shí)對(duì)實(shí)體沿時(shí)間線的動(dòng)態(tài)關(guān)系或交互進(jìn)行建模。因?yàn)檫@樣的時(shí)態(tài)知識(shí)圖經(jīng)常遭受不完全性的困擾,所以開(kāi)發(fā)有助于推斷缺失的時(shí)態(tài)事實(shí)的時(shí)間感知表示學(xué)習(xí)模型是很重要的。雖然時(shí)間事實(shí)通常是不斷演變的,但據(jù)觀察,許多事實(shí)往往沿著時(shí)間線呈現(xiàn)出重復(fù)的模式,例如經(jīng)濟(jì)危機(jī)和外交活動(dòng)。這一觀察表明,一個(gè)模型可能從歷史上出現(xiàn)的已知事實(shí)中學(xué)到很多東西。為此,作者基于一種新穎的時(shí)間感知拷貝生成機(jī)制,提出了一種新的時(shí)態(tài)知識(shí)圖表示學(xué)習(xí)模型——CyGNet。CyGNet不僅能夠從整個(gè)實(shí)體詞匯中預(yù)測(cè)未來(lái)的事實(shí),而且能夠通過(guò)重復(fù)識(shí)別事實(shí),并相應(yīng)地參考過(guò)去已知的事實(shí)來(lái)預(yù)測(cè)未來(lái)的事實(shí)。實(shí)驗(yàn)使用五個(gè)基準(zhǔn)數(shù)據(jù)集在知識(shí)圖完成任務(wù)上評(píng)估了所提出的方法。大量的實(shí)驗(yàn)證明了CyGNet預(yù)測(cè)未來(lái)重復(fù)事實(shí)和從頭預(yù)測(cè)事實(shí)的有效性。
亮點(diǎn)
CyGNet的亮點(diǎn)主要包括:
(1)研究重復(fù)的時(shí)間事實(shí)的潛在現(xiàn)象,并建議在TKGs(temporal knowledge graphs,時(shí)態(tài)知識(shí)圖譜)中學(xué)習(xí)推斷未來(lái)事實(shí)時(shí)參考?xì)v史上已知的事實(shí);
(2)作者通過(guò)時(shí)間感知復(fù)制生成機(jī)制提出了一個(gè)新的TKG嵌入模型CyGNet,它結(jié)合了兩種推理模式,基于歷史詞匯或整個(gè)實(shí)體詞匯進(jìn)行預(yù)測(cè),因此更符合前面提到的TKG事實(shí)的演化模式。
概念及模型
CyGNet模型主要結(jié)合了兩種推理模式,即復(fù)制模式和生成模式,前者試圖從特定的歷史詞匯中選擇實(shí)體,形成歷史中的重復(fù)事實(shí),而后者從整個(gè)實(shí)體詞匯中預(yù)測(cè)實(shí)體。模型整體框架如下:
復(fù)制模式
復(fù)制模式旨在通過(guò)重復(fù)來(lái)識(shí)別事實(shí),并通過(guò)從歷史上已知的事實(shí)中復(fù)制來(lái)相應(yīng)地預(yù)測(cè)未來(lái)的事實(shí)。對(duì)于一個(gè)四元組(s, p,?, tk) 復(fù)制模式首先用MLP生成一個(gè)索引向量Vq:
然后CyGNet通過(guò)添加索引向量Vq和改變的multi-hot指示向量來(lái)界定候選空間,最小化不感興趣實(shí)體的概率,然后用softmax函數(shù)估計(jì)歷史詞匯中對(duì)象實(shí)體的概率:
p(c)是一個(gè)向量,其大小等于整個(gè)實(shí)體詞匯的大小,并且表示歷史詞匯上的預(yù)測(cè)概率。最終,p(c)的最大維度表示要從歷史詞匯中復(fù)制的對(duì)象實(shí)體。復(fù)制模式的優(yōu)點(diǎn)是,它能夠從一個(gè)比整個(gè)實(shí)體詞匯表更分隔的候選空間中學(xué)習(xí)預(yù)測(cè)。然而,事實(shí)也可以在即將到來(lái)的快照中出現(xiàn)。因此,需要一個(gè)生成模式來(lái)預(yù)測(cè)這些事實(shí)。
生成模式
給定相同的前述查詢(s, p,?, tk),生成模式負(fù)責(zé)通過(guò)從整個(gè)實(shí)體詞匯中選擇對(duì)象實(shí)體來(lái)預(yù)測(cè)事實(shí)。由生成模式做出的預(yù)測(cè)將預(yù)測(cè)的事實(shí)視為完全新的事實(shí),而不參考?xì)v史。與復(fù)制模式類似,生成模式還生成一個(gè)索引向量gq,其大小等于候選空間的大小,并使用softmax函數(shù)進(jìn)行歸一化以進(jìn)行預(yù)測(cè):
類似于Copy模式中的p(c),p(g)表示整個(gè)實(shí)體詞匯上的預(yù)測(cè)概率。p(g)中的最大值表示作者通過(guò)生成模式在整個(gè)實(shí)體詞匯表中預(yù)測(cè)的對(duì)象實(shí)體。“生成”模式是對(duì)“復(fù)制”模式的補(bǔ)充,具有從頭預(yù)測(cè)事實(shí)的能力。
學(xué)習(xí)目標(biāo)
當(dāng)給定一個(gè)查詢時(shí)預(yù)測(cè)(對(duì)象)實(shí)體(s, p,?, tk)可以看作是一個(gè)多類分類任務(wù),其中每個(gè)類對(duì)應(yīng)一個(gè)對(duì)象。學(xué)習(xí)目標(biāo)是最小化訓(xùn)練期間存在的TKG快照的所有事實(shí)的交叉熵?fù)p失:
推論
為了確保候選空間中所有實(shí)體的概率和等于1,引入了系數(shù)α來(lái)調(diào)整復(fù)制模式和生成模式之間的權(quán)重。CyGNet將復(fù)制模式和生成模式的概率預(yù)測(cè)相結(jié)合,將這兩種模式給出的每個(gè)實(shí)體的概率相加。最終預(yù)測(cè)結(jié)果將是獲得最高組合概率的實(shí)體,定義如下:
理論分析
實(shí)驗(yàn)
在這一部分,作者用五個(gè)公開(kāi)的TKG數(shù)據(jù)集證明了CyGNet的有效性,公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別是:ICEWS18,ICEWS14, GDELT, WIKI 和 YAGO。模型的評(píng)價(jià)指標(biāo)為:MRR和Hits@1/3/10 (排名在前1/3/10的正確測(cè)試結(jié)果的比例)。作者還實(shí)施了已在先前工作中廣泛采用的過(guò)濾評(píng)估約束。
如圖所示,CyGNet在所有情況下都能獲得最佳性能。靜態(tài)KGE方法通常展現(xiàn)足夠的結(jié)果,而很大程度上落后于表現(xiàn)最好的TKGE方法,因?yàn)樗鼈儧](méi)有捕捉時(shí)間動(dòng)態(tài)。還可以觀察到,所有靜態(tài)KGE方法的性能通常都優(yōu)于TransE和HyTE。作者認(rèn)為這是由于TransE和HyTE為每個(gè)快照獨(dú)立學(xué)習(xí)表示,而不是捕獲長(zhǎng)期依賴。CyGNet在ICEWS18、ICEWS14和GDELT上的表現(xiàn)明顯優(yōu)于其他基線方法。特別是在GDELT上,因?yàn)镚DELT在每個(gè)快照中比其他數(shù)據(jù)集具有更密集的訓(xùn)練事實(shí),并且具有更完整的歷史信息。在另外兩個(gè)數(shù)據(jù)集上CyGNet也始終超越靜態(tài)的KGE和TKGE方法。這意味著CyGNet通過(guò)從歷史中學(xué)習(xí),從零開(kāi)始識(shí)別和預(yù)測(cè)新的事實(shí),有效地預(yù)測(cè)未來(lái)的事實(shí)。
為了幫助理解CyGNet不同模型成分的貢獻(xiàn),作者還進(jìn)行了一個(gè)消融研究。根據(jù)表中的結(jié)果,作者發(fā)現(xiàn)復(fù)制模式和生成模式都很重要。取消復(fù)制模式可能會(huì)導(dǎo)致MRR下降7.66%,以及其他指標(biāo)的大幅下降,這表明通過(guò)參考過(guò)去已知的事實(shí)來(lái)學(xué)習(xí)預(yù)測(cè)未來(lái)的事實(shí)可能會(huì)有所幫助。另一方面,生成模式的取消導(dǎo)致MRR下降了5.71%,這也是該模型重新進(jìn)行事實(shí)預(yù)測(cè)的能力喪失的原因之一。這些結(jié)果進(jìn)一步解釋了CyGNet的良好表現(xiàn)是由于從歷史中學(xué)習(xí)的能力,以及從零開(kāi)始識(shí)別和預(yù)測(cè)新事實(shí)的能力。
總結(jié)
表征和推斷時(shí)態(tài)知識(shí)是一個(gè)具有挑戰(zhàn)性的問(wèn)題。在本文中,作者第一次利用復(fù)制機(jī)制來(lái)解決這個(gè)問(wèn)題,基于一個(gè)假設(shè),即未來(lái)的事實(shí)可以從歷史事實(shí)中預(yù)測(cè)。提出的CyGNet不僅能夠預(yù)測(cè)整個(gè)開(kāi)放世界的事實(shí),還能夠重復(fù)識(shí)別事實(shí),并根據(jù)過(guò)去出現(xiàn)的已知事實(shí)相應(yīng)地選擇未來(lái)的事實(shí)。在五個(gè)基準(zhǔn)數(shù)據(jù)集上給出的結(jié)果證明了CyGNet在預(yù)測(cè)TKGs未來(lái)事實(shí)方面的良好表現(xiàn)。
?
?
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - AAAI2021 | 从历史中学习:利用时间感知拷贝生成网络建模时态知识图谱...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | 虚拟知识图谱:软件系统和应
- 下一篇: 论文浅尝 - AAAI2020 | 通过