日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

“知识图谱+”系列:知识图谱+强化学习

發(fā)布時(shí)間:2024/7/5 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 “知识图谱+”系列:知识图谱+强化学习 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

澤宇個(gè)人一直認(rèn)為強(qiáng)化學(xué)習(xí)是建模動(dòng)態(tài)系統(tǒng)最好的方法之一,通過(guò)與環(huán)境的不斷交互,在動(dòng)作選擇和狀態(tài)更新的動(dòng)態(tài)過(guò)程中逐漸達(dá)到優(yōu)化目標(biāo)。因此,本期澤宇將從知識(shí)圖譜結(jié)合強(qiáng)化學(xué)習(xí)的角度介紹幾個(gè)不同的研究方向的內(nèi)容,包括知識(shí)圖譜推理自動(dòng)駕駛時(shí)序推理對(duì)話(huà)式問(wèn)答系統(tǒng)推薦系統(tǒng)

1?知識(shí)圖譜推理

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.

Wenhan Xiong,?Thien Hoang,?and?William Yang Wang

核心貢獻(xiàn):這篇論文是最早將強(qiáng)化學(xué)習(xí)應(yīng)用于知識(shí)圖譜推理的研究。由于基于路徑的知識(shí)圖譜推理需要在知識(shí)圖譜中找到能夠從頭實(shí)體走到尾實(shí)體的一條多跳路徑,這個(gè)路徑搜索的過(guò)程就可以看成是一個(gè)馬爾可夫決策過(guò)程,因此很自然的可以想到用強(qiáng)化學(xué)習(xí)來(lái)建模這個(gè)馬爾可夫決策過(guò)程。這篇論文通過(guò)巧妙的設(shè)計(jì)了一個(gè)獎(jiǎng)勵(lì)函數(shù),保證在知識(shí)圖譜推理中能夠同時(shí)考慮精度、多樣性和效率。

這個(gè)任務(wù)簡(jiǎn)單來(lái)說(shuō)可以看成是一個(gè)簡(jiǎn)單的問(wèn)答系統(tǒng),給定一個(gè)實(shí)體和關(guān)系,智能體在不斷交互中從知識(shí)圖譜中找到一條連通給定實(shí)體和答案實(shí)體的路徑,且這條路徑能夠很好的表示給定的關(guān)系。

了解強(qiáng)化學(xué)習(xí)基本概念的朋友應(yīng)該知道,強(qiáng)化學(xué)習(xí)具體的方法主要有深度Q網(wǎng)絡(luò)(DQN)基于策略梯度的方法(Policy-based),其中基于策略梯度的方法更滿(mǎn)足知識(shí)圖譜路徑搜索的任務(wù)要求,而基于策略梯度的方法最核心的幾個(gè)組成部分包括:環(huán)境動(dòng)作(Actions)狀態(tài)(States)獎(jiǎng)勵(lì)(Rewards)策略網(wǎng)絡(luò)(Policy Network)。接下來(lái),針對(duì)這篇論文分別介紹這幾個(gè)部分對(duì)應(yīng)的內(nèi)容。

環(huán)境:整個(gè)知識(shí)圖譜就是強(qiáng)化學(xué)習(xí)任務(wù)中的環(huán)境,需要從知識(shí)圖譜中找到滿(mǎn)足目標(biāo)的路徑。

動(dòng)作:所有的關(guān)系組成動(dòng)作空間,每一步智能體選擇“下一步走向何方”其實(shí)就是在選擇當(dāng)前實(shí)體關(guān)聯(lián)的哪一個(gè)關(guān)系。

狀態(tài):智能體的狀態(tài)就是智能體當(dāng)前在知識(shí)圖譜中所處的位置,狀態(tài)向量包括當(dāng)前實(shí)體embedding和當(dāng)前實(shí)體與目標(biāo)實(shí)體embedding的距離。

獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)可以評(píng)價(jià)當(dāng)前所處狀態(tài)的質(zhì)量,這篇論文中用三種評(píng)價(jià)指標(biāo)來(lái)定義獎(jiǎng)勵(lì),包括:

  • 全局精度:站在全局的角度來(lái)看,如果智能體走到這一步之后的路徑能否到達(dá)目標(biāo)實(shí)體。

  • 路徑效率:通過(guò)觀察發(fā)現(xiàn)短路徑比長(zhǎng)路徑更加可靠,因此可以用路徑的長(zhǎng)度來(lái)衡量推理效率。

  • 路徑多樣性:為了讓每一次訓(xùn)練選擇的路徑能夠更加多樣,而不是重復(fù)選擇到之前已經(jīng)走過(guò)的路徑,定義當(dāng)前路徑與已存在路徑之間的多樣性。

策略網(wǎng)絡(luò):這里策略網(wǎng)絡(luò)的設(shè)計(jì)就是一個(gè)兩層的全連接網(wǎng)絡(luò),將當(dāng)前狀態(tài)向量映射為可能動(dòng)作的分布概率。

訓(xùn)練過(guò)程中,為了加速?gòu)?qiáng)化學(xué)習(xí)的收斂,類(lèi)似于AlphaGo,這篇論文也采用了廣度優(yōu)先搜索學(xué)習(xí)有監(jiān)督的策略,然后用蒙特卡洛策略梯度更新參數(shù),更多的訓(xùn)練細(xì)節(jié)詳見(jiàn)論文。

之后也有一些研究在這篇論文的基礎(chǔ)上進(jìn)行了改進(jìn),總體框架都是一樣的,知識(shí)加入了一些訓(xùn)練策略,例如action drupout和reward shaping,可以增加動(dòng)作選擇的多樣性和提供更有效的獎(jiǎng)勵(lì)函數(shù)。此外,還有一些在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入邏輯規(guī)則來(lái)引導(dǎo)路徑的搜索。

2?自動(dòng)駕駛

Reinforcement?Learning?for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships. ICRA?2021.

Xiaobai Ma,?Jiachen Li,?Mykel J. Kochenderfer,?David Isele,?Kikuo Fujimura

核心貢獻(xiàn):這篇論文發(fā)表在機(jī)器人頂會(huì)ICRA,研究了在自動(dòng)駕駛領(lǐng)域,駕駛員會(huì)受到周?chē)?chē)輛的影響的現(xiàn)實(shí)情況,通過(guò)對(duì)駕駛員隱狀態(tài)中編碼先驗(yàn)知識(shí)來(lái)優(yōu)化強(qiáng)化學(xué)習(xí),并結(jié)合周?chē)?chē)輛構(gòu)建知識(shí)圖譜進(jìn)一步采用基于圖神經(jīng)網(wǎng)絡(luò)的圖表示學(xué)習(xí)方法來(lái)更新駕駛員的隱狀態(tài),在自動(dòng)導(dǎo)航任務(wù)中加速?gòu)?qiáng)化學(xué)習(xí)的過(guò)程。

對(duì)應(yīng)強(qiáng)化學(xué)習(xí)過(guò)程中的幾個(gè)概念,本研究分別定義:

狀態(tài):這里特別的是定義了一個(gè)聯(lián)合狀態(tài),包括進(jìn)入或離開(kāi)環(huán)境的每個(gè)車(chē)輛自身的位置和速度,及每個(gè)車(chē)輛鄰域車(chē)輛信息的表示。

觀測(cè)值:每個(gè)車(chē)輛自身狀態(tài)疊加一個(gè)高斯噪聲組成觀測(cè)值。

動(dòng)作:控制車(chē)輛自身速度的選擇空間。

轉(zhuǎn)移:車(chē)輛自身是通過(guò)一個(gè)PD控制器跟蹤期望的速度來(lái)實(shí)現(xiàn)軌跡控制。

獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)函數(shù)由任務(wù)完成是否完成的打分和速度組成,目標(biāo)是在盡量快的速度下完成車(chē)輛右轉(zhuǎn)。

這里特別的是,論文中將建模時(shí)間序列模型的LSTM和圖表示學(xué)習(xí)中的GraphSAGE結(jié)合,實(shí)現(xiàn)對(duì)于動(dòng)態(tài)車(chē)輛及周?chē)徲蜍?chē)輛狀態(tài)的表示學(xué)習(xí),頂層LSTM網(wǎng)絡(luò)的輸出就是動(dòng)作分布,這個(gè)時(shí)空GNN網(wǎng)絡(luò)結(jié)構(gòu)在整個(gè)模型的策略網(wǎng)絡(luò)和隱式推理中都會(huì)用到。

3?時(shí)序推理

Search from History and Reason for Future: Two-stage Reasoning on Temporal?KnowledgeGraphs.?ACL 2021.

Zixuan Li,?Xiaolong Jin,?Saiping Guan,?Wei Li,?Jiafeng Guo,?Yuanzhuo Wang,?Xueqi Cheng

核心貢獻(xiàn):這篇論文研究了動(dòng)態(tài)知識(shí)圖譜的時(shí)序推理。通過(guò)設(shè)計(jì)了包含線(xiàn)索搜索和時(shí)序推理的兩階段模式,預(yù)測(cè)未來(lái)將發(fā)生的事件。在線(xiàn)索搜索階段,通過(guò)強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練一個(gè)集束搜索策略,以從歷史事件中推斷多條線(xiàn)索。在時(shí)序推理階段,使用基于GCN的時(shí)序模型從線(xiàn)索中推理答案。

這里我們重點(diǎn)討論基于強(qiáng)化學(xué)習(xí)的線(xiàn)索搜索部分,對(duì)應(yīng)強(qiáng)化學(xué)習(xí)過(guò)程中的幾個(gè)概念,本研究分別定義:

環(huán)境:整個(gè)知識(shí)圖譜就是強(qiáng)化學(xué)習(xí)任務(wù)中的環(huán)境。

狀態(tài):智能體的狀態(tài)是一個(gè)五元組,其中包含給定需要查詢(xún)的頭實(shí)體、關(guān)系、時(shí)間點(diǎn)和智能體當(dāng)前到達(dá)的實(shí)體和時(shí)間點(diǎn)。

時(shí)間約束的動(dòng)作:與靜態(tài)知識(shí)圖譜不同,動(dòng)態(tài)知識(shí)圖譜中的時(shí)間維度會(huì)極大的增加動(dòng)作空間的規(guī)模,并且人類(lèi)記憶集中在最近的一段時(shí)間內(nèi)。因此,這里動(dòng)作定義為在智能體當(dāng)前到達(dá)的實(shí)體,一段時(shí)間區(qū)間內(nèi)的能夠到達(dá)的(實(shí)體,關(guān)系,時(shí)間點(diǎn))組成的三元組。

轉(zhuǎn)移:智能體通過(guò)動(dòng)作選擇從當(dāng)前狀態(tài)更新到新的實(shí)體。

獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)由評(píng)價(jià)是否達(dá)到正確的尾實(shí)體的二值獎(jiǎng)勵(lì)和在階段二中得到的實(shí)值獎(jiǎng)勵(lì)組成。

策略網(wǎng)絡(luò)包括

  • 編碼線(xiàn)索路徑的LSTM網(wǎng)絡(luò)。

  • 計(jì)算動(dòng)作分布的多層感知器。

論文中介紹的隨機(jī)集束搜索策略和時(shí)序推理部分可以詳見(jiàn)論文。

4?對(duì)話(huà)式問(wèn)答系統(tǒng)

Reinforcement?Learning?from Reformulations in Conversational Question Answering over?Knowledge?Graphs. SIGIR?2021

Magdalena Kaiser,?Rishiraj Saha?Roy,?Gerhard Weikum

核心貢獻(xiàn):類(lèi)似于多輪對(duì)話(huà)系統(tǒng),這篇論文研究了對(duì)話(huà)式問(wèn)答。利用強(qiáng)化學(xué)習(xí)從提問(wèn)和復(fù)述的對(duì)話(huà)流中學(xué)習(xí)有效信息以從知識(shí)圖譜中找到正確的答案。論文中設(shè)計(jì)的模型通過(guò)將回答的過(guò)程建模為在知識(shí)圖譜中多個(gè)智能體并行游走,如何游走通過(guò)策略網(wǎng)絡(luò)選擇的動(dòng)作決定,策略網(wǎng)絡(luò)的輸入包括對(duì)話(huà)上下文和知識(shí)圖譜中的路徑。

對(duì)應(yīng)強(qiáng)化學(xué)習(xí)過(guò)程中的幾個(gè)概念,本研究分別定義:

狀態(tài):第t輪的問(wèn)句表示+之前對(duì)話(huà)的一個(gè)子集作為上下文問(wèn)句+上下文實(shí)體中的其中一個(gè)作為智能體出發(fā)的起始點(diǎn)。

動(dòng)作:從當(dāng)前實(shí)體出發(fā)的所有路徑,每條路徑到達(dá)的end point實(shí)體都是候選答案。

轉(zhuǎn)移:轉(zhuǎn)移函數(shù)將狀態(tài)更新為智能體到達(dá)的end point實(shí)體。

獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)函數(shù)為二值獎(jiǎng)勵(lì),如果用戶(hù)下一次說(shuō)的是一個(gè)新的問(wèn)題,說(shuō)明模型給出的回答解決了用戶(hù)的問(wèn)題給正向獎(jiǎng)勵(lì),如果用戶(hù)下一次說(shuō)的是相近意圖的復(fù)述內(nèi)容,說(shuō)明沒(méi)有回答用戶(hù)的問(wèn)題給負(fù)向獎(jiǎng)勵(lì)。

這篇論文中采用策略梯度訓(xùn)練強(qiáng)化學(xué)習(xí)模型,由于這個(gè)模型中涉及多智能體,動(dòng)作選擇是從每個(gè)智能體選擇top-k個(gè)動(dòng)作。多個(gè)智能體都可能得到候選答案,按照被智能體選擇為候選答案的次數(shù)對(duì)實(shí)體進(jìn)行排序,排名最高的實(shí)體為預(yù)測(cè)的答案。

5?推薦系統(tǒng)

Interactive Recommender System via?Knowledge?Graph-enhanced?Reinforcement?Learning. Arxiv 2021.

Sijin Zhou,?Xinyi Dai,?Haokun Chen,?Weinan Zhang,?Kan Ren,?Ruiming Tang,?Xiuqiang He,?Yong Yu

核心貢獻(xiàn):這篇論文研究了能夠和用戶(hù)交互的推薦系統(tǒng)。為了處理用戶(hù)的興趣變化和逐漸積累的項(xiàng)目,將交互式推薦看成一個(gè)決策制定和長(zhǎng)期規(guī)劃的馬爾科夫決策問(wèn)題,就可以將強(qiáng)化學(xué)習(xí)引入交互式推薦系統(tǒng)。然而強(qiáng)化學(xué)習(xí)的訓(xùn)練效率較低,為了解決這一問(wèn)題,利用知識(shí)圖譜中項(xiàng)目相關(guān)的先驗(yàn)知識(shí)來(lái)指導(dǎo)候選推薦項(xiàng)的選擇。

對(duì)應(yīng)強(qiáng)化學(xué)習(xí)過(guò)程中的幾個(gè)概念,本研究分別定義:

狀態(tài):當(dāng)前項(xiàng)目及其多跳鄰域組成的子圖。

動(dòng)作:接下來(lái)選擇推薦的項(xiàng)目。

轉(zhuǎn)移:轉(zhuǎn)移函數(shù)將狀態(tài)更新為智能體到達(dá)的end point實(shí)體。

獎(jiǎng)勵(lì):對(duì)于系統(tǒng)傳遞給用戶(hù)的推薦項(xiàng)目,根據(jù)用戶(hù)的反饋是“點(diǎn)擊”,“購(gòu)買(mǎi)”還是“跳過(guò)”來(lái)給定獎(jiǎng)勵(lì)。

由于在強(qiáng)化學(xué)習(xí)中,狀態(tài)的表示是非常關(guān)鍵的,這篇論文中提出一個(gè)知識(shí)圖譜增強(qiáng)的狀態(tài)表示機(jī)制。其中,將已經(jīng)點(diǎn)擊的項(xiàng)目轉(zhuǎn)換為embedding表示,并利用GCN對(duì)項(xiàng)目在知識(shí)圖譜中的鄰域信息進(jìn)行聚合更新項(xiàng)目的embedding,得到鄰域表示。

進(jìn)一步,為了編碼對(duì)用戶(hù)的觀測(cè)信息,采用GRU聚合用戶(hù)的歷史行為并蒸餾用戶(hù)的狀態(tài)表示,其中得到的當(dāng)前用戶(hù)狀態(tài)的表示可以輸入Q網(wǎng)絡(luò)中。

此外,論文中提出了的一個(gè)基于鄰域的候選選擇機(jī)制,從已點(diǎn)擊項(xiàng)目在知識(shí)圖譜中多跳鄰域中選擇候選推薦項(xiàng)目,可以利用知識(shí)圖譜提供的語(yǔ)義相關(guān)性有效縮小動(dòng)作空間的大小,便于提高模型的計(jì)算效率。

這篇論文采用DQN來(lái)學(xué)習(xí)最優(yōu)策略,訓(xùn)練整個(gè)強(qiáng)化學(xué)習(xí)模型。

從以上幾個(gè)不同領(lǐng)域的研究?jī)?nèi)容可以發(fā)現(xiàn),只要是需要和環(huán)境交互的動(dòng)態(tài)系統(tǒng),都有可能通過(guò)強(qiáng)化學(xué)習(xí)的方法來(lái)進(jìn)行建模,知識(shí)圖譜不僅可以是強(qiáng)化學(xué)習(xí)的對(duì)象例如知識(shí)圖譜推理,也可能為強(qiáng)化學(xué)習(xí)的狀態(tài)和動(dòng)作選擇提供語(yǔ)義信息得到更好的表示來(lái)優(yōu)化強(qiáng)化學(xué)習(xí)的過(guò)程。

以上就是本期所有對(duì)于知識(shí)圖譜+強(qiáng)化學(xué)習(xí)的學(xué)習(xí)分享了。所有內(nèi)容都是澤宇經(jīng)過(guò)調(diào)研和學(xué)習(xí)理解總結(jié)的,之后還會(huì)陸續(xù)分享知識(shí)圖譜+各類(lèi)方向的技術(shù)介紹,如果大家有對(duì)某個(gè)方向感興趣的可以聯(lián)系澤宇,敬請(qǐng)關(guān)注啊。

往期精選:

“知識(shí)圖譜+”系列:知識(shí)圖譜+圖神經(jīng)網(wǎng)絡(luò)

年末巨制:知識(shí)圖譜嵌入方法研究總結(jié)

介紹一些知識(shí)圖譜的實(shí)際應(yīng)用類(lèi)項(xiàng)目

知識(shí)圖譜最新權(quán)威綜述論文解讀:知識(shí)表示學(xué)習(xí)部分

手把手教你搭建一個(gè)中式菜譜知識(shí)圖譜可視化系統(tǒng)

如果對(duì)文章感興趣歡迎關(guān)注知乎專(zhuān)欄“人工智能遇上知識(shí)圖譜“,也可以?huà)呙柘路蕉S碼關(guān)注同名微信公眾號(hào)人工智能遇上知識(shí)圖譜”,讓我們一起學(xué)習(xí)并交流討論人工智能與知識(shí)圖譜技術(shù)。

?

總結(jié)

以上是生活随笔為你收集整理的“知识图谱+”系列:知识图谱+强化学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。