當(dāng)前位置：首頁(yè) >

论文浅尝 | ADRL：一个基于注意力机制的知识图谱深度强化学习框架

發(fā)布時(shí)間：2024/7/5 44 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | ADRL：一个基于注意力机制的知识图谱深度强化学习框架小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理：譚亦鳴，東南大學(xué)博士。

來(lái)源：Knowledge-Based Systems 197 (2020) 105910

鏈接：https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839

概要與動(dòng)機(jī)

知識(shí)圖譜推理是圖譜構(gòu)建的關(guān)鍵技術(shù)之一，它在包括垂直搜索和智能問(wèn)答等應(yīng)用場(chǎng)景中有著重要作用。推理的目標(biāo)是根據(jù)已知實(shí)體和關(guān)系推斷所需的未知實(shí)體。現(xiàn)有的推理方法主要基于embedding實(shí)現(xiàn)（即對(duì)所有的實(shí)體和關(guān)系做整體embedding，然后利用向量相似度推斷實(shí)體間的關(guān)系或者給定三元組是否為真）。但是在真實(shí)的應(yīng)用場(chǎng)景中，我們需要一個(gè)清晰且可解釋的實(shí)體作為輸出。本文提出一種基于注意力機(jī)制的知識(shí)圖譜深度強(qiáng)化學(xué)習(xí)框架ADRL，用于學(xué)習(xí)多跳關(guān)系路徑，通過(guò)深度學(xué)習(xí)及強(qiáng)化學(xué)習(xí)結(jié)構(gòu)化感知，從而提高傳統(tǒng)方法效率，泛化能力及可解釋性。

貢獻(xiàn)

本文的主要貢獻(xiàn)包括：

1.提出了一個(gè)面向知識(shí)圖譜推理的基于深度學(xué)習(xí)的新框架，相較傳統(tǒng)方法，該框架科研有效提升性能及可解釋性

2.設(shè)計(jì)了一個(gè)關(guān)系模型，作為推理框架的通用插件，其中的self-attention能夠循環(huán)推斷實(shí)體之間的關(guān)系以引導(dǎo)一個(gè)model-free的策略，這一做法相對(duì)前人工作更有助于agent推斷關(guān)系路徑

3.利用actor-critic方法有效解決了獎(jiǎng)勵(lì)系數(shù)問(wèn)題，其中獎(jiǎng)勵(lì)取決于價(jià)值函數(shù)，并將同策略一起被訓(xùn)練和優(yōu)化

模型與算法

本文提出框架的整個(gè)過(guò)程如下圖所示，其過(guò)程大體可以描述為：

1.首先將知識(shí)圖譜的agent環(huán)境輸入卷積神經(jīng)網(wǎng)絡(luò)（CNN）；

2.利用深度CNN將其映射到低維向量，且可以在每個(gè)級(jí)別可以傳遞信息

3.接著使用LSTM（使用校正的線路單ReLU激活函數(shù)），用于儲(chǔ)存生成的歷史軌跡，構(gòu)成策略與價(jià)值函數(shù)

4.上述步驟的輸出被輸入進(jìn)一個(gè)關(guān)系模型，模型中包含一個(gè)self-attention模塊用于推斷和分享實(shí)體向量及關(guān)系向量的權(quán)值

5.利用一個(gè)特征感知的最大池化層對(duì)關(guān)系模型的輸出進(jìn)行聚合，最后傳遞給一個(gè)MLP接著是ReLU激活函數(shù)用于產(chǎn)生一個(gè)策略以及一個(gè)基準(zhǔn)標(biāo)量?jī)r(jià)值函數(shù)，可以被用作一個(gè)agent獎(jiǎng)勵(lì)

在優(yōu)化算法方面，作者考慮到基于梯度下降的方法效率較低，而蒙特卡洛抽樣依賴于大量積極獎(jiǎng)勵(lì)（尤其是學(xué)習(xí)初始階段），為了解決這些問(wèn)題，作者選擇Actor-Critic，一種結(jié)合策略梯度和順序差異學(xué)習(xí)的強(qiáng)化學(xué)習(xí)方法。Actor-Critic算法可以執(zhí)行單步更新參數(shù)，使用值函數(shù)作為基礎(chǔ)函數(shù)來(lái)減少策略梯度的差異，而無(wú)需等待回合結(jié)束，并且在訓(xùn)練過(guò)程中可以同時(shí)學(xué)習(xí)策略和價(jià)值函數(shù)，算法流程如下圖：

實(shí)驗(yàn)與結(jié)果

實(shí)驗(yàn)數(shù)據(jù)：

本文實(shí)驗(yàn)所使用的數(shù)據(jù)是目前較為流行的KG推理數(shù)據(jù)集（WN18RR,FB15K-237,NELL-995）,其統(tǒng)計(jì)信息如表1.

表2是linkprediction實(shí)驗(yàn)結(jié)果，本文方法展現(xiàn)出了更好的性能，作者認(rèn)為是共享的實(shí)體及關(guān)系權(quán)值帶來(lái)了更佳的性能表現(xiàn)。

表3是factprediction的結(jié)果，作者認(rèn)為本文方法的優(yōu)勢(shì)在于“the reason is that our model is more complex than the previous model, introducing more state-of-the-art methods”

OpenKG

開(kāi)放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | ADRL：一个基于注意力机制的知识图谱深度强化学习框架的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：阿里P8架构师谈：大数据架构设计(文章合
下一篇：论文浅尝 | 用于低资源条件下知识图谱补

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

论文浅尝 | ​ADRL：一个基于注意力机制的知识图谱深度强化学习框架

總結(jié)

论文浅尝 | ADRL：一个基于注意力机制的知识图谱深度强化学习框架