日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

“知识图谱+”系列:知识图谱+强化学习

發(fā)布時間:2024/7/5 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 “知识图谱+”系列:知识图谱+强化学习 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

澤宇個人一直認為強化學習是建模動態(tài)系統(tǒng)最好的方法之一,通過與環(huán)境的不斷交互,在動作選擇和狀態(tài)更新的動態(tài)過程中逐漸達到優(yōu)化目標。因此,本期澤宇將從知識圖譜結合強化學習的角度介紹幾個不同的研究方向的內(nèi)容,包括知識圖譜推理自動駕駛時序推理對話式問答系統(tǒng)推薦系統(tǒng)

1?知識圖譜推理

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.

Wenhan Xiong,?Thien Hoang,?and?William Yang Wang

核心貢獻:這篇論文是最早將強化學習應用于知識圖譜推理的研究。由于基于路徑的知識圖譜推理需要在知識圖譜中找到能夠從頭實體走到尾實體的一條多跳路徑,這個路徑搜索的過程就可以看成是一個馬爾可夫決策過程,因此很自然的可以想到用強化學習來建模這個馬爾可夫決策過程。這篇論文通過巧妙的設計了一個獎勵函數(shù),保證在知識圖譜推理中能夠同時考慮精度、多樣性和效率。

這個任務簡單來說可以看成是一個簡單的問答系統(tǒng),給定一個實體和關系,智能體在不斷交互中從知識圖譜中找到一條連通給定實體和答案實體的路徑,且這條路徑能夠很好的表示給定的關系。

了解強化學習基本概念的朋友應該知道,強化學習具體的方法主要有深度Q網(wǎng)絡(DQN)基于策略梯度的方法(Policy-based),其中基于策略梯度的方法更滿足知識圖譜路徑搜索的任務要求,而基于策略梯度的方法最核心的幾個組成部分包括:環(huán)境動作(Actions)狀態(tài)(States)獎勵(Rewards)策略網(wǎng)絡(Policy Network)。接下來,針對這篇論文分別介紹這幾個部分對應的內(nèi)容。

環(huán)境:整個知識圖譜就是強化學習任務中的環(huán)境,需要從知識圖譜中找到滿足目標的路徑。

動作:所有的關系組成動作空間,每一步智能體選擇“下一步走向何方”其實就是在選擇當前實體關聯(lián)的哪一個關系。

狀態(tài):智能體的狀態(tài)就是智能體當前在知識圖譜中所處的位置,狀態(tài)向量包括當前實體embedding和當前實體與目標實體embedding的距離。

獎勵:獎勵可以評價當前所處狀態(tài)的質(zhì)量,這篇論文中用三種評價指標來定義獎勵,包括:

  • 全局精度:站在全局的角度來看,如果智能體走到這一步之后的路徑能否到達目標實體。

  • 路徑效率:通過觀察發(fā)現(xiàn)短路徑比長路徑更加可靠,因此可以用路徑的長度來衡量推理效率。

  • 路徑多樣性:為了讓每一次訓練選擇的路徑能夠更加多樣,而不是重復選擇到之前已經(jīng)走過的路徑,定義當前路徑與已存在路徑之間的多樣性。

策略網(wǎng)絡:這里策略網(wǎng)絡的設計就是一個兩層的全連接網(wǎng)絡,將當前狀態(tài)向量映射為可能動作的分布概率。

訓練過程中,為了加速強化學習的收斂,類似于AlphaGo,這篇論文也采用了廣度優(yōu)先搜索學習有監(jiān)督的策略,然后用蒙特卡洛策略梯度更新參數(shù),更多的訓練細節(jié)詳見論文。

之后也有一些研究在這篇論文的基礎上進行了改進,總體框架都是一樣的,知識加入了一些訓練策略,例如action drupout和reward shaping,可以增加動作選擇的多樣性和提供更有效的獎勵函數(shù)。此外,還有一些在強化學習的基礎上引入邏輯規(guī)則來引導路徑的搜索。

2?自動駕駛

Reinforcement?Learning?for Autonomous Driving with Latent State Inference and Spatial-Temporal Relationships. ICRA?2021.

Xiaobai Ma,?Jiachen Li,?Mykel J. Kochenderfer,?David Isele,?Kikuo Fujimura

核心貢獻:這篇論文發(fā)表在機器人頂會ICRA,研究了在自動駕駛領域,駕駛員會受到周圍車輛的影響的現(xiàn)實情況,通過對駕駛員隱狀態(tài)中編碼先驗知識來優(yōu)化強化學習,并結合周圍車輛構建知識圖譜進一步采用基于圖神經(jīng)網(wǎng)絡的圖表示學習方法來更新駕駛員的隱狀態(tài),在自動導航任務中加速強化學習的過程。

對應強化學習過程中的幾個概念,本研究分別定義:

狀態(tài):這里特別的是定義了一個聯(lián)合狀態(tài),包括進入或離開環(huán)境的每個車輛自身的位置和速度,及每個車輛鄰域車輛信息的表示。

觀測值:每個車輛自身狀態(tài)疊加一個高斯噪聲組成觀測值。

動作:控制車輛自身速度的選擇空間。

轉移:車輛自身是通過一個PD控制器跟蹤期望的速度來實現(xiàn)軌跡控制。

獎勵:獎勵函數(shù)由任務完成是否完成的打分和速度組成,目標是在盡量快的速度下完成車輛右轉。

這里特別的是,論文中將建模時間序列模型的LSTM和圖表示學習中的GraphSAGE結合,實現(xiàn)對于動態(tài)車輛及周圍鄰域車輛狀態(tài)的表示學習,頂層LSTM網(wǎng)絡的輸出就是動作分布,這個時空GNN網(wǎng)絡結構在整個模型的策略網(wǎng)絡和隱式推理中都會用到。

3?時序推理

Search from History and Reason for Future: Two-stage Reasoning on Temporal?KnowledgeGraphs.?ACL 2021.

Zixuan Li,?Xiaolong Jin,?Saiping Guan,?Wei Li,?Jiafeng Guo,?Yuanzhuo Wang,?Xueqi Cheng

核心貢獻:這篇論文研究了動態(tài)知識圖譜的時序推理。通過設計了包含線索搜索和時序推理的兩階段模式,預測未來將發(fā)生的事件。在線索搜索階段,通過強化學習來訓練一個集束搜索策略,以從歷史事件中推斷多條線索。在時序推理階段,使用基于GCN的時序模型從線索中推理答案。

這里我們重點討論基于強化學習的線索搜索部分,對應強化學習過程中的幾個概念,本研究分別定義:

環(huán)境:整個知識圖譜就是強化學習任務中的環(huán)境。

狀態(tài):智能體的狀態(tài)是一個五元組,其中包含給定需要查詢的頭實體、關系、時間點和智能體當前到達的實體和時間點。

時間約束的動作:與靜態(tài)知識圖譜不同,動態(tài)知識圖譜中的時間維度會極大的增加動作空間的規(guī)模,并且人類記憶集中在最近的一段時間內(nèi)。因此,這里動作定義為在智能體當前到達的實體,一段時間區(qū)間內(nèi)的能夠到達的(實體,關系,時間點)組成的三元組。

轉移:智能體通過動作選擇從當前狀態(tài)更新到新的實體。

獎勵:獎勵由評價是否達到正確的尾實體的二值獎勵和在階段二中得到的實值獎勵組成。

策略網(wǎng)絡包括

  • 編碼線索路徑的LSTM網(wǎng)絡。

  • 計算動作分布的多層感知器。

論文中介紹的隨機集束搜索策略和時序推理部分可以詳見論文。

4?對話式問答系統(tǒng)

Reinforcement?Learning?from Reformulations in Conversational Question Answering over?Knowledge?Graphs. SIGIR?2021

Magdalena Kaiser,?Rishiraj Saha?Roy,?Gerhard Weikum

核心貢獻:類似于多輪對話系統(tǒng),這篇論文研究了對話式問答。利用強化學習從提問和復述的對話流中學習有效信息以從知識圖譜中找到正確的答案。論文中設計的模型通過將回答的過程建模為在知識圖譜中多個智能體并行游走,如何游走通過策略網(wǎng)絡選擇的動作決定,策略網(wǎng)絡的輸入包括對話上下文和知識圖譜中的路徑。

對應強化學習過程中的幾個概念,本研究分別定義:

狀態(tài):第t輪的問句表示+之前對話的一個子集作為上下文問句+上下文實體中的其中一個作為智能體出發(fā)的起始點。

動作:從當前實體出發(fā)的所有路徑,每條路徑到達的end point實體都是候選答案。

轉移:轉移函數(shù)將狀態(tài)更新為智能體到達的end point實體。

獎勵:獎勵函數(shù)為二值獎勵,如果用戶下一次說的是一個新的問題,說明模型給出的回答解決了用戶的問題給正向獎勵,如果用戶下一次說的是相近意圖的復述內(nèi)容,說明沒有回答用戶的問題給負向獎勵。

這篇論文中采用策略梯度訓練強化學習模型,由于這個模型中涉及多智能體,動作選擇是從每個智能體選擇top-k個動作。多個智能體都可能得到候選答案,按照被智能體選擇為候選答案的次數(shù)對實體進行排序,排名最高的實體為預測的答案。

5?推薦系統(tǒng)

Interactive Recommender System via?Knowledge?Graph-enhanced?Reinforcement?Learning. Arxiv 2021.

Sijin Zhou,?Xinyi Dai,?Haokun Chen,?Weinan Zhang,?Kan Ren,?Ruiming Tang,?Xiuqiang He,?Yong Yu

核心貢獻:這篇論文研究了能夠和用戶交互的推薦系統(tǒng)。為了處理用戶的興趣變化和逐漸積累的項目,將交互式推薦看成一個決策制定和長期規(guī)劃的馬爾科夫決策問題,就可以將強化學習引入交互式推薦系統(tǒng)。然而強化學習的訓練效率較低,為了解決這一問題,利用知識圖譜中項目相關的先驗知識來指導候選推薦項的選擇。

對應強化學習過程中的幾個概念,本研究分別定義:

狀態(tài):當前項目及其多跳鄰域組成的子圖。

動作:接下來選擇推薦的項目。

轉移:轉移函數(shù)將狀態(tài)更新為智能體到達的end point實體。

獎勵:對于系統(tǒng)傳遞給用戶的推薦項目,根據(jù)用戶的反饋是“點擊”,“購買”還是“跳過”來給定獎勵。

由于在強化學習中,狀態(tài)的表示是非常關鍵的,這篇論文中提出一個知識圖譜增強的狀態(tài)表示機制。其中,將已經(jīng)點擊的項目轉換為embedding表示,并利用GCN對項目在知識圖譜中的鄰域信息進行聚合更新項目的embedding,得到鄰域表示。

進一步,為了編碼對用戶的觀測信息,采用GRU聚合用戶的歷史行為并蒸餾用戶的狀態(tài)表示,其中得到的當前用戶狀態(tài)的表示可以輸入Q網(wǎng)絡中。

此外,論文中提出了的一個基于鄰域的候選選擇機制,從已點擊項目在知識圖譜中多跳鄰域中選擇候選推薦項目,可以利用知識圖譜提供的語義相關性有效縮小動作空間的大小,便于提高模型的計算效率。

這篇論文采用DQN來學習最優(yōu)策略,訓練整個強化學習模型。

從以上幾個不同領域的研究內(nèi)容可以發(fā)現(xiàn),只要是需要和環(huán)境交互的動態(tài)系統(tǒng),都有可能通過強化學習的方法來進行建模,知識圖譜不僅可以是強化學習的對象例如知識圖譜推理,也可能為強化學習的狀態(tài)和動作選擇提供語義信息得到更好的表示來優(yōu)化強化學習的過程。

以上就是本期所有對于知識圖譜+強化學習的學習分享了。所有內(nèi)容都是澤宇經(jīng)過調(diào)研和學習理解總結的,之后還會陸續(xù)分享知識圖譜+各類方向的技術介紹,如果大家有對某個方向感興趣的可以聯(lián)系澤宇,敬請關注啊。

往期精選:

“知識圖譜+”系列:知識圖譜+圖神經(jīng)網(wǎng)絡

年末巨制:知識圖譜嵌入方法研究總結

介紹一些知識圖譜的實際應用類項目

知識圖譜最新權威綜述論文解讀:知識表示學習部分

手把手教你搭建一個中式菜譜知識圖譜可視化系統(tǒng)

如果對文章感興趣歡迎關注知乎專欄“人工智能遇上知識圖譜“,也可以掃描下方二維碼關注同名微信公眾號人工智能遇上知識圖譜”,讓我們一起學習并交流討論人工智能與知識圖譜技術。

?

總結

以上是生活随笔為你收集整理的“知识图谱+”系列:知识图谱+强化学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。