日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

發(fā)布時(shí)間:2024/7/5 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理:譚亦鳴,東南大學(xué)博士。


來(lái)源:Knowledge-Based Systems 197 (2020) 105910

鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839

概要與動(dòng)機(jī)

知識(shí)圖譜推理是圖譜構(gòu)建的關(guān)鍵技術(shù)之一,它在包括垂直搜索和智能問(wèn)答等應(yīng)用場(chǎng)景中有著重要作用。推理的目標(biāo)是根據(jù)已知實(shí)體和關(guān)系推斷所需的未知實(shí)體。現(xiàn)有的推理方法主要基于embedding實(shí)現(xiàn)(即對(duì)所有的實(shí)體和關(guān)系做整體embedding,然后利用向量相似度推斷實(shí)體間的關(guān)系或者給定三元組是否為真)。但是在真實(shí)的應(yīng)用場(chǎng)景中,我們需要一個(gè)清晰且可解釋的實(shí)體作為輸出。本文提出一種基于注意力機(jī)制的知識(shí)圖譜深度強(qiáng)化學(xué)習(xí)框架ADRL,用于學(xué)習(xí)多跳關(guān)系路徑,通過(guò)深度學(xué)習(xí)及強(qiáng)化學(xué)習(xí)結(jié)構(gòu)化感知,從而提高傳統(tǒng)方法效率,泛化能力及可解釋性。

貢獻(xiàn)

本文的主要貢獻(xiàn)包括:

1.提出了一個(gè)面向知識(shí)圖譜推理的基于深度學(xué)習(xí)的新框架,相較傳統(tǒng)方法,該框架科研有效提升性能及可解釋性

2.設(shè)計(jì)了一個(gè)關(guān)系模型,作為推理框架的通用插件,其中的self-attention能夠循環(huán)推斷實(shí)體之間的關(guān)系以引導(dǎo)一個(gè)model-free的策略,這一做法相對(duì)前人工作更有助于agent推斷關(guān)系路徑

3.利用actor-critic方法有效解決了獎(jiǎng)勵(lì)系數(shù)問(wèn)題,其中獎(jiǎng)勵(lì)取決于價(jià)值函數(shù),并將同策略一起被訓(xùn)練和優(yōu)化

模型與算法

本文提出框架的整個(gè)過(guò)程如下圖所示,其過(guò)程大體可以描述為:

1.首先將知識(shí)圖譜的agent環(huán)境輸入卷積神經(jīng)網(wǎng)絡(luò)(CNN);

2.利用深度CNN將其映射到低維向量,且可以在每個(gè)級(jí)別可以傳遞信息

3.接著使用LSTM(使用校正的線路單ReLU激活函數(shù)),用于儲(chǔ)存生成的歷史軌跡,構(gòu)成策略與價(jià)值函數(shù)

4.上述步驟的輸出被輸入進(jìn)一個(gè)關(guān)系模型,模型中包含一個(gè)self-attention模塊用于推斷和分享實(shí)體向量及關(guān)系向量的權(quán)值

5.利用一個(gè)特征感知的最大池化層對(duì)關(guān)系模型的輸出進(jìn)行聚合,最后傳遞給一個(gè)MLP接著是ReLU激活函數(shù)用于產(chǎn)生一個(gè)策略以及一個(gè)基準(zhǔn)標(biāo)量?jī)r(jià)值函數(shù),可以被用作一個(gè)agent獎(jiǎng)勵(lì)

在優(yōu)化算法方面,作者考慮到基于梯度下降的方法效率較低,而蒙特卡洛抽樣依賴于大量積極獎(jiǎng)勵(lì)(尤其是學(xué)習(xí)初始階段),為了解決這些問(wèn)題,作者選擇Actor-Critic,一種結(jié)合策略梯度和順序差異學(xué)習(xí)的強(qiáng)化學(xué)習(xí)方法。Actor-Critic算法可以執(zhí)行單步更新參數(shù),使用值函數(shù)作為基礎(chǔ)函數(shù)來(lái)減少策略梯度的差異,而無(wú)需等待回合結(jié)束,并且在訓(xùn)練過(guò)程中可以同時(shí)學(xué)習(xí)策略和價(jià)值函數(shù),算法流程如下圖:

實(shí)驗(yàn)與結(jié)果

實(shí)驗(yàn)數(shù)據(jù):

本文實(shí)驗(yàn)所使用的數(shù)據(jù)是目前較為流行的KG推理數(shù)據(jù)集(WN18RR,FB15K-237,NELL-995),其統(tǒng)計(jì)信息如表1.

表2是linkprediction實(shí)驗(yàn)結(jié)果,本文方法展現(xiàn)出了更好的性能,作者認(rèn)為是共享的實(shí)體及關(guān)系權(quán)值帶來(lái)了更佳的性能表現(xiàn)。

表3是factprediction的結(jié)果,作者認(rèn)為本文方法的優(yōu)勢(shì)在于“the reason is that our model is more complex than the previous model, introducing more state-of-the-art methods”

?


?

OpenKG

開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。