當(dāng)前位置：首頁(yè) >

“知识图谱+”系列：知识图谱+强化学习

發(fā)布時(shí)間：2024/7/5 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 “知识图谱+”系列：知识图谱+强化学习小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

澤宇個(gè)人一直認(rèn)為強(qiáng)化學(xué)習(xí)是建模動(dòng)態(tài)系統(tǒng)最好的方法之一，通過(guò)與環(huán)境的不斷交互，在動(dòng)作選擇和狀態(tài)更新的動(dòng)態(tài)過(guò)程中逐漸達(dá)到優(yōu)化目標(biāo)。因此，本期澤宇將從知識(shí)圖譜結(jié)合強(qiáng)化學(xué)習(xí)的角度介紹幾個(gè)不同的研究方向的內(nèi)容，包括知識(shí)圖譜推理、自動(dòng)駕駛、時(shí)序推理、對(duì)話(huà)式問(wèn)答系統(tǒng)和推薦系統(tǒng)。

1?知識(shí)圖譜推理

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.

Wenhan Xiong,?Thien Hoang,?and?William Yang Wang

核心貢獻(xiàn)：這篇論文是最早將強(qiáng)化學(xué)習(xí)應(yīng)用于知識(shí)圖譜推理的研究。由于基于路徑的知識(shí)圖譜推理需要在知識(shí)圖譜中找到能夠從頭實(shí)體走到尾實(shí)體的一條多跳路徑，這個(gè)路徑搜索的過(guò)程就可以看成是一個(gè)馬爾可夫決策過(guò)程，因此很自然的可以想到用強(qiáng)化學(xué)習(xí)來(lái)建模這個(gè)馬爾可夫決策過(guò)程。這篇論文通過(guò)巧妙的設(shè)計(jì)了一個(gè)獎(jiǎng)勵(lì)函數(shù)，保證在知識(shí)圖譜推理中能夠同時(shí)考慮精度、多樣性和效率。

這個(gè)任務(wù)簡(jiǎn)單來(lái)說(shuō)可以看成是一個(gè)簡(jiǎn)單的問(wèn)答系統(tǒng)，給定一個(gè)實(shí)體和關(guān)系，智能體在不斷交互中從知識(shí)圖譜中找到一條連通給定實(shí)體和答案實(shí)體的路徑，且這條路徑能夠很好的表示給定的關(guān)系。

了解強(qiáng)化學(xué)習(xí)基本概念的朋友應(yīng)該知道，強(qiáng)化學(xué)習(xí)具體的方法主要有深度Q網(wǎng)絡(luò)（DQN）和基于策略梯度的方法（Policy-based），其中基于策略梯度的方法更滿(mǎn)足知識(shí)圖譜路徑搜索的任務(wù)要求，而基于策略梯度的方法最核心的幾個(gè)組成部分包括：環(huán)境、動(dòng)作（Actions）、狀態(tài)（States）、獎(jiǎng)勵(lì)（Rewards）、策略網(wǎng)絡(luò)（Policy Network）。接下來(lái)，針對(duì)這篇論文分別介紹這幾個(gè)部分對(duì)應(yīng)的內(nèi)容。

環(huán)境：整個(gè)知識(shí)圖譜就是強(qiáng)化學(xué)習(xí)任務(wù)中的環(huán)境，需要從知識(shí)圖譜中找到滿(mǎn)足目標(biāo)的路徑。

動(dòng)作：所有的關(guān)系組成動(dòng)作空間，每一步智能體選擇“下一步走向何方”其實(shí)就是在選擇當(dāng)前實(shí)體關(guān)聯(lián)的哪一個(gè)關(guān)系。

狀態(tài)：智能體的狀態(tài)就是智能體當(dāng)前在知識(shí)圖譜中所處的位置，狀態(tài)向量包括當(dāng)前實(shí)體embedding和當(dāng)前實(shí)體與目標(biāo)實(shí)體embedding的距離。

獎(jiǎng)勵(lì)：獎(jiǎng)勵(lì)可以評(píng)價(jià)當(dāng)前所處狀態(tài)的質(zhì)量，這篇論文中用三種評(píng)價(jià)指標(biāo)來(lái)定義獎(jiǎng)勵(lì)，包括：

全局精度：站在全局的角度來(lái)看，如果智能體走到這一步之后的路徑能否到達(dá)目標(biāo)實(shí)體。

路徑效率：通過(guò)觀察發(fā)現(xiàn)短路徑比長(zhǎng)路徑更加可靠，因此可以用路徑的長(zhǎng)度來(lái)衡量推理效率。

路徑多樣性：為了讓每一次訓(xùn)練選擇的路徑能夠更加多樣，而不是重復(fù)選擇到之前已經(jīng)走過(guò)的路徑，定義當(dāng)前路徑與已存在路徑之間的多樣性。

策略網(wǎng)絡(luò)：這里策略網(wǎng)絡(luò)的設(shè)計(jì)就是一個(gè)兩層的全連接網(wǎng)絡(luò)，將當(dāng)前狀態(tài)向量映射為可能動(dòng)作的分布概率。

訓(xùn)練過(guò)程中，為了加速?gòu)?qiáng)化學(xué)習(xí)的收斂，類(lèi)似于AlphaGo，這篇論文也采用了廣度優(yōu)先搜索學(xué)習(xí)有監(jiān)督的策略，然后用蒙特卡洛策略梯度更新參數(shù)，更多的訓(xùn)練細(xì)節(jié)詳見(jiàn)論文。

之后也有一些研究在這篇論文的基礎(chǔ)上進(jìn)行了改進(jìn)，總體框架都是一樣的，知識(shí)加入了一些訓(xùn)練策略，例如action drupout和reward shaping，可以增加動(dòng)作選擇的多樣性和提供更有效的獎(jiǎng)勵(lì)函數(shù)。此外，還有一些在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入邏輯規(guī)則來(lái)引導(dǎo)路徑的搜索。

2?自動(dòng)駕駛

Reinforcement?Learning?for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships. ICRA?2021.

Xiaobai Ma,?Jiachen Li,?Mykel J. Kochenderfer,?David Isele,?Kikuo Fujimura

核心貢獻(xiàn)：這篇論文發(fā)表在機(jī)器人頂會(huì)ICRA，研究了在自動(dòng)駕駛領(lǐng)域，駕駛員會(huì)受到周?chē)?chē)輛的影響的現(xiàn)實(shí)情況，通過(guò)對(duì)駕駛員隱狀態(tài)中編碼先驗(yàn)知識(shí)來(lái)優(yōu)化強(qiáng)化學(xué)習(xí)，并結(jié)合周?chē)?chē)輛構(gòu)建知識(shí)圖譜進(jìn)一步采用基于圖神經(jīng)網(wǎng)絡(luò)的圖表示學(xué)習(xí)方法來(lái)更新駕駛員的隱狀態(tài)，在自動(dòng)導(dǎo)航任務(wù)中加速?gòu)?qiáng)化學(xué)習(xí)的過(guò)程。

對(duì)應(yīng)強(qiáng)化學(xué)習(xí)過(guò)程中的幾個(gè)概念，本研究分別定義：

狀態(tài)：這里特別的是定義了一個(gè)聯(lián)合狀態(tài)，包括進(jìn)入或離開(kāi)環(huán)境的每個(gè)車(chē)輛自身的位置和速度，及每個(gè)車(chē)輛鄰域車(chē)輛信息的表示。

觀測(cè)值：每個(gè)車(chē)輛自身狀態(tài)疊加一個(gè)高斯噪聲組成觀測(cè)值。

動(dòng)作：控制車(chē)輛自身速度的選擇空間。

轉(zhuǎn)移：車(chē)輛自身是通過(guò)一個(gè)PD控制器跟蹤期望的速度來(lái)實(shí)現(xiàn)軌跡控制。

獎(jiǎng)勵(lì)：獎(jiǎng)勵(lì)函數(shù)由任務(wù)完成是否完成的打分和速度組成，目標(biāo)是在盡量快的速度下完成車(chē)輛右轉(zhuǎn)。

這里特別的是，論文中將建模時(shí)間序列模型的LSTM和圖表示學(xué)習(xí)中的GraphSAGE結(jié)合，實(shí)現(xiàn)對(duì)于動(dòng)態(tài)車(chē)輛及周?chē)徲蜍?chē)輛狀態(tài)的表示學(xué)習(xí)，頂層LSTM網(wǎng)絡(luò)的輸出就是動(dòng)作分布，這個(gè)時(shí)空GNN網(wǎng)絡(luò)結(jié)構(gòu)在整個(gè)模型的策略網(wǎng)絡(luò)和隱式推理中都會(huì)用到。

3?時(shí)序推理

Search from History and Reason for Future: Two-stage Reasoning on Temporal?KnowledgeGraphs.?ACL 2021.

Zixuan Li,?Xiaolong Jin,?Saiping Guan,?Wei Li,?Jiafeng Guo,?Yuanzhuo Wang,?Xueqi Cheng

核心貢獻(xiàn)：這篇論文研究了動(dòng)態(tài)知識(shí)圖譜的時(shí)序推理。通過(guò)設(shè)計(jì)了包含線(xiàn)索搜索和時(shí)序推理的兩階段模式，預(yù)測(cè)未來(lái)將發(fā)生的事件。在線(xiàn)索搜索階段，通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練一個(gè)集束搜索策略，以從歷史事件中推斷多條線(xiàn)索。在時(shí)序推理階段，使用基于GCN的時(shí)序模型從線(xiàn)索中推理答案。

這里我們重點(diǎn)討論基于強(qiáng)化學(xué)習(xí)的線(xiàn)索搜索部分，對(duì)應(yīng)強(qiáng)化學(xué)習(xí)過(guò)程中的幾個(gè)概念，本研究分別定義：

環(huán)境：整個(gè)知識(shí)圖譜就是強(qiáng)化學(xué)習(xí)任務(wù)中的環(huán)境。

狀態(tài)：智能體的狀態(tài)是一個(gè)五元組，其中包含給定需要查詢(xún)的頭實(shí)體、關(guān)系、時(shí)間點(diǎn)和智能體當(dāng)前到達(dá)的實(shí)體和時(shí)間點(diǎn)。

時(shí)間約束的動(dòng)作：與靜態(tài)知識(shí)圖譜不同，動(dòng)態(tài)知識(shí)圖譜中的時(shí)間維度會(huì)極大的增加動(dòng)作空間的規(guī)模，并且人類(lèi)記憶集中在最近的一段時(shí)間內(nèi)。因此，這里動(dòng)作定義為在智能體當(dāng)前到達(dá)的實(shí)體，一段時(shí)間區(qū)間內(nèi)的能夠到達(dá)的（實(shí)體，關(guān)系，時(shí)間點(diǎn)）組成的三元組。

轉(zhuǎn)移：智能體通過(guò)動(dòng)作選擇從當(dāng)前狀態(tài)更新到新的實(shí)體。

獎(jiǎng)勵(lì)：獎(jiǎng)勵(lì)由評(píng)價(jià)是否達(dá)到正確的尾實(shí)體的二值獎(jiǎng)勵(lì)和在階段二中得到的實(shí)值獎(jiǎng)勵(lì)組成。

策略網(wǎng)絡(luò)包括：

編碼線(xiàn)索路徑的LSTM網(wǎng)絡(luò)。
計(jì)算動(dòng)作分布的多層感知器。

論文中介紹的隨機(jī)集束搜索策略和時(shí)序推理部分可以詳見(jiàn)論文。

4?對(duì)話(huà)式問(wèn)答系統(tǒng)

Reinforcement?Learning?from Reformulations in Conversational Question Answering over?Knowledge?Graphs. SIGIR?2021

Magdalena Kaiser,?Rishiraj Saha?Roy,?Gerhard Weikum

核心貢獻(xiàn)：類(lèi)似于多輪對(duì)話(huà)系統(tǒng)，這篇論文研究了對(duì)話(huà)式問(wèn)答。利用強(qiáng)化學(xué)習(xí)從提問(wèn)和復(fù)述的對(duì)話(huà)流中學(xué)習(xí)有效信息以從知識(shí)圖譜中找到正確的答案。論文中設(shè)計(jì)的模型通過(guò)將回答的過(guò)程建模為在知識(shí)圖譜中多個(gè)智能體并行游走，如何游走通過(guò)策略網(wǎng)絡(luò)選擇的動(dòng)作決定，策略網(wǎng)絡(luò)的輸入包括對(duì)話(huà)上下文和知識(shí)圖譜中的路徑。

對(duì)應(yīng)強(qiáng)化學(xué)習(xí)過(guò)程中的幾個(gè)概念，本研究分別定義：

狀態(tài)：第t輪的問(wèn)句表示+之前對(duì)話(huà)的一個(gè)子集作為上下文問(wèn)句+上下文實(shí)體中的其中一個(gè)作為智能體出發(fā)的起始點(diǎn)。

動(dòng)作：從當(dāng)前實(shí)體出發(fā)的所有路徑，每條路徑到達(dá)的end point實(shí)體都是候選答案。

轉(zhuǎn)移：轉(zhuǎn)移函數(shù)將狀態(tài)更新為智能體到達(dá)的end point實(shí)體。

獎(jiǎng)勵(lì)：獎(jiǎng)勵(lì)函數(shù)為二值獎(jiǎng)勵(lì)，如果用戶(hù)下一次說(shuō)的是一個(gè)新的問(wèn)題，說(shuō)明模型給出的回答解決了用戶(hù)的問(wèn)題給正向獎(jiǎng)勵(lì)，如果用戶(hù)下一次說(shuō)的是相近意圖的復(fù)述內(nèi)容，說(shuō)明沒(méi)有回答用戶(hù)的問(wèn)題給負(fù)向獎(jiǎng)勵(lì)。

這篇論文中采用策略梯度訓(xùn)練強(qiáng)化學(xué)習(xí)模型，由于這個(gè)模型中涉及多智能體，動(dòng)作選擇是從每個(gè)智能體選擇top-k個(gè)動(dòng)作。多個(gè)智能體都可能得到候選答案，按照被智能體選擇為候選答案的次數(shù)對(duì)實(shí)體進(jìn)行排序，排名最高的實(shí)體為預(yù)測(cè)的答案。

5?推薦系統(tǒng)

Interactive Recommender System via?Knowledge?Graph-enhanced?Reinforcement?Learning. Arxiv 2021.

Sijin Zhou,?Xinyi Dai,?Haokun Chen,?Weinan Zhang,?Kan Ren,?Ruiming Tang,?Xiuqiang He,?Yong Yu

核心貢獻(xiàn)：這篇論文研究了能夠和用戶(hù)交互的推薦系統(tǒng)。為了處理用戶(hù)的興趣變化和逐漸積累的項(xiàng)目，將交互式推薦看成一個(gè)決策制定和長(zhǎng)期規(guī)劃的馬爾科夫決策問(wèn)題，就可以將強(qiáng)化學(xué)習(xí)引入交互式推薦系統(tǒng)。然而強(qiáng)化學(xué)習(xí)的訓(xùn)練效率較低，為了解決這一問(wèn)題，利用知識(shí)圖譜中項(xiàng)目相關(guān)的先驗(yàn)知識(shí)來(lái)指導(dǎo)候選推薦項(xiàng)的選擇。

對(duì)應(yīng)強(qiáng)化學(xué)習(xí)過(guò)程中的幾個(gè)概念，本研究分別定義：

狀態(tài)：當(dāng)前項(xiàng)目及其多跳鄰域組成的子圖。

動(dòng)作：接下來(lái)選擇推薦的項(xiàng)目。

轉(zhuǎn)移：轉(zhuǎn)移函數(shù)將狀態(tài)更新為智能體到達(dá)的end point實(shí)體。

獎(jiǎng)勵(lì)：對(duì)于系統(tǒng)傳遞給用戶(hù)的推薦項(xiàng)目，根據(jù)用戶(hù)的反饋是“點(diǎn)擊”，“購(gòu)買(mǎi)”還是“跳過(guò)”來(lái)給定獎(jiǎng)勵(lì)。

由于在強(qiáng)化學(xué)習(xí)中，狀態(tài)的表示是非常關(guān)鍵的，這篇論文中提出一個(gè)知識(shí)圖譜增強(qiáng)的狀態(tài)表示機(jī)制。其中，將已經(jīng)點(diǎn)擊的項(xiàng)目轉(zhuǎn)換為embedding表示，并利用GCN對(duì)項(xiàng)目在知識(shí)圖譜中的鄰域信息進(jìn)行聚合更新項(xiàng)目的embedding，得到鄰域表示。

進(jìn)一步，為了編碼對(duì)用戶(hù)的觀測(cè)信息，采用GRU聚合用戶(hù)的歷史行為并蒸餾用戶(hù)的狀態(tài)表示，其中得到的當(dāng)前用戶(hù)狀態(tài)的表示可以輸入Q網(wǎng)絡(luò)中。

此外，論文中提出了的一個(gè)基于鄰域的候選選擇機(jī)制，從已點(diǎn)擊項(xiàng)目在知識(shí)圖譜中多跳鄰域中選擇候選推薦項(xiàng)目，可以利用知識(shí)圖譜提供的語(yǔ)義相關(guān)性有效縮小動(dòng)作空間的大小，便于提高模型的計(jì)算效率。

這篇論文采用DQN來(lái)學(xué)習(xí)最優(yōu)策略，訓(xùn)練整個(gè)強(qiáng)化學(xué)習(xí)模型。

從以上幾個(gè)不同領(lǐng)域的研究?jī)?nèi)容可以發(fā)現(xiàn)，只要是需要和環(huán)境交互的動(dòng)態(tài)系統(tǒng)，都有可能通過(guò)強(qiáng)化學(xué)習(xí)的方法來(lái)進(jìn)行建模，知識(shí)圖譜不僅可以是強(qiáng)化學(xué)習(xí)的對(duì)象例如知識(shí)圖譜推理，也可能為強(qiáng)化學(xué)習(xí)的狀態(tài)和動(dòng)作選擇提供語(yǔ)義信息得到更好的表示來(lái)優(yōu)化強(qiáng)化學(xué)習(xí)的過(guò)程。

以上就是本期所有對(duì)于知識(shí)圖譜+強(qiáng)化學(xué)習(xí)的學(xué)習(xí)分享了。所有內(nèi)容都是澤宇經(jīng)過(guò)調(diào)研和學(xué)習(xí)理解總結(jié)的，之后還會(huì)陸續(xù)分享知識(shí)圖譜+各類(lèi)方向的技術(shù)介紹，如果大家有對(duì)某個(gè)方向感興趣的可以聯(lián)系澤宇，敬請(qǐng)關(guān)注啊。

往期精選：

“知識(shí)圖譜+”系列：知識(shí)圖譜+圖神經(jīng)網(wǎng)絡(luò)

年末巨制：知識(shí)圖譜嵌入方法研究總結(jié)

介紹一些知識(shí)圖譜的實(shí)際應(yīng)用類(lèi)項(xiàng)目

知識(shí)圖譜最新權(quán)威綜述論文解讀：知識(shí)表示學(xué)習(xí)部分

手把手教你搭建一個(gè)中式菜譜知識(shí)圖譜可視化系統(tǒng)

如果對(duì)文章感興趣歡迎關(guān)注知乎專(zhuān)欄“人工智能遇上知識(shí)圖譜“，也可以?huà)呙柘路蕉S碼關(guān)注同名微信公眾號(hào)“人工智能遇上知識(shí)圖譜”，讓我們一起學(xué)習(xí)并交流討論人工智能與知識(shí)圖譜技術(shù)。

總結(jié)

以上是生活随笔為你收集整理的“知识图谱+”系列：知识图谱+强化学习的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Python:绘图保存时出现空白图像的解
下一篇：国科大高级人工智能2-人工神经网络（ML

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

“知识图谱+”系列：知识图谱+强化学习

1?知識(shí)圖譜推理

2?自動(dòng)駕駛

3?時(shí)序推理

4?對(duì)話(huà)式問(wèn)答系統(tǒng)

5?推薦系統(tǒng)

往期精選：

總結(jié)