當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres

發(fā)布時(shí)間：2024/1/18 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了 Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

摘要

基于文本的游戲(TBGs)已經(jīng)成為評(píng)估基礎(chǔ)語言理解和強(qiáng)化學(xué)習(xí)(RL)交叉階段進(jìn)展的有用基準(zhǔn)。最近的工作提出了使用外部知識(shí)來提高TBG的RL制劑的效率。在本文中，我們假設(shè)為了在TBG中有效地行動(dòng)，代理必須能夠在檢索和使用相關(guān)常識(shí)知識(shí)的同時(shí)跟蹤游戲的狀態(tài)。因此，我們?yōu)門BG提出了一個(gè)代理，它可以誘導(dǎo)游戲狀態(tài)的圖形表示，并將其與來自ConceptNet的常識(shí)知識(shí)圖形結(jié)合起來。這種結(jié)合是通過兩個(gè)符號(hào)表示之間的雙向知識(shí)圖注意來實(shí)現(xiàn)的。我們表明，將常識(shí)納入博弈狀態(tài)圖的代理優(yōu)于基線代理。

1.介紹

基于文本的游戲(tbg)是一種模擬環(huán)境，在這種環(huán)境中，代理完全以文本的形式與世界進(jìn)行互動(dòng)。TBG已經(jīng)成為研究強(qiáng)化學(xué)習(xí)代理如何解決語言理解、部分可觀察性和在組合大的動(dòng)作空間中生成動(dòng)作的挑戰(zhàn)的關(guān)鍵基準(zhǔn)。TextWorld (C?té et al.， 2018)是一個(gè)基于文本的游戲環(huán)境，近年來備受關(guān)注。

最近的工作表明，需要更多的知識(shí)來解決TBG中的挑戰(zhàn)。Ammanabrolu和Riedl(2019)提出了手工制作的規(guī)則，使用狀態(tài)知識(shí)圖(很像游戲地圖)來表示游戲的當(dāng)前狀態(tài)。我們自己之前的工作(Murugesan等人，2021年)提出了TextWorld的擴(kuò)展，稱為TextWorld Commonsense (TWC)，以測試代理在與世界交互時(shí)使用常識(shí)知識(shí)的能力。TWC背后的假設(shè)是，常識(shí)知識(shí)使行為主體能夠理解當(dāng)前的行為如何影響未來的世界狀態(tài);并支持前瞻性規(guī)劃(Juba, 2016)，從而導(dǎo)致在每一步的行動(dòng)的樣本高效選擇，并推動(dòng)代理更接近最佳性能。

在本文中，我們假設(shè)要在這種基于文本的游戲環(huán)境中有效地行動(dòng)，代理必須能夠有效地跟蹤游戲的狀態(tài)，并利用該狀態(tài)聯(lián)合檢索和利用相關(guān)常識(shí)知識(shí)。例如，常識(shí)知識(shí)，如蘋果應(yīng)該放在冰箱里，將有助于代理行為更接近最佳行為;而像蘋果在桌子上這樣的狀態(tài)信息會(huì)幫助代理更有效地計(jì)劃。因此，我們提出了一種技術(shù):

(a)以符號(hào)圖的形式跟蹤游戲狀態(tài)，該符號(hào)圖代表了主體對(duì)世界狀態(tài)的當(dāng)前信念(Ammanabrolu和Hausknecht, 2020a;Adhikari等人，2020);

(b)從ConceptNet檢索相關(guān)常識(shí)知識(shí)(Speer et al.， 2017)，

(c)聯(lián)合利用狀態(tài)圖和檢索到的720個(gè)常識(shí)圖。這些綜合的信息被用來選擇最優(yōu)的行動(dòng)。最后，我們演示了我們的代理與TWC環(huán)境上最先進(jìn)的基線代理的性能。

2.相關(guān)工作

2.1Text-based reinforcement learning

基于文本的游戲最近成為推動(dòng)RL研究進(jìn)展的一個(gè)有前途的框架。之前的工作探索了基于文本的RL學(xué)習(xí)基于外部文本語料庫(Branavan等人，2012年)或從文本觀察(Narasimhan等人，2015年)的策略。在這兩種情況下，我們都會(huì)分析文本，并利用來自游戲環(huán)境的反饋共同學(xué)習(xí)控制策略。Zahavy等(2018)提出了action - elimination Deep Q-Network (AE-DQN)，學(xué)習(xí)對(duì)無效動(dòng)作進(jìn)行分類，減少動(dòng)作空間。在我們的工作中使用常識(shí)和狀態(tài)圖具有相同的目標(biāo)，即通過對(duì)游戲狀態(tài)和先驗(yàn)知識(shí)的聯(lián)合推理來降低不合理行為的權(quán)重。最近，C?té等人(2018)介紹了TextWorld, Murugesan等人(2021)提出了TextWorld Commonsense (TWC)，這是一種基于文本的游戲環(huán)境，需要代理利用先驗(yàn)知識(shí)來解決游戲。在這項(xiàng)工作中，我們以Murugesan等人(2021)的代理為基礎(chǔ)，表明先驗(yàn)知識(shí)和狀態(tài)信息是互補(bǔ)的，應(yīng)該聯(lián)合學(xué)習(xí)。

2.2KG-based state representations

tbg中最近的一項(xiàng)工作旨在通過使用代理信念的符號(hào)表示來提高泛化性能。值得注意的是，Ammanabrolu和Riedl(2019)提出了KG-DQN, Ammanabrolu和Hausknecht (2020b)提出了KGA2C。這兩種方法背后的理念都是將游戲狀態(tài)表示為信念圖。最近，Adhikari等人(2020)提出了圖形輔助變壓器代理(GATA)，一種在規(guī)劃過程中構(gòu)建和更新潛在信念圖的方法。我們的工作將這些基于圖形的狀態(tài)表示與先驗(yàn)常識(shí)圖集成在一起，允許代理使用先驗(yàn)知識(shí)更好地建模游戲狀態(tài)。

2.3Sample-efficient reinforcement learning

目前RL研究的一個(gè)關(guān)鍵挑戰(zhàn)是低樣本效率(Kaelbling et al.， 1998)。為了解決這個(gè)問題，在RL方法中添加先驗(yàn)或外部知識(shí)的嘗試很少。值得注意的是，Murugesan等人(2020)提出使用從ConceptNet中提取的先驗(yàn)知識(shí)。Garnelo等人(2016)提出了深度符號(hào)RL，它依靠符號(hào)AI技術(shù)作為引入常識(shí)先驗(yàn)的一種方式。還有關(guān)于政策轉(zhuǎn)移的研究(Bianchi等人，2015年)，旨在重用在不同環(huán)境中獲得的知識(shí)。體驗(yàn)重放(Wang et al.， 2016;Lin, 1992, 1993)提供了一個(gè)如何存儲(chǔ)以前的經(jīng)驗(yàn)并在以后重用的框架。在本文中，繼Murugesan等人(2020)之后，我們使用外部KGs作為先驗(yàn)知識(shí)的來源，并將這種知識(shí)表示與基于圖的狀態(tài)建模相結(jié)合，以使代理能夠更有效地行動(dòng)。

3.模型與架構(gòu)

我們的模型的高級(jí)架構(gòu)包含三個(gè)主要組件:(a)輸入編碼器;(b)基于圖的知識(shí)提取器;(c)動(dòng)作預(yù)測模塊。輸入編碼層用于編碼時(shí)間步t的觀察結(jié)果和使用GRUs的可接受動(dòng)作列表(Ammanabrolu和Hausknecht, 2020a)。基于圖的知識(shí)提取器從補(bǔ)充的知識(shí)來源(游戲狀態(tài)和外部常識(shí)知識(shí))中收集相關(guān)知識(shí)。我們?cè)试S來自每個(gè)知識(shí)來源的信息來指導(dǎo)和指導(dǎo)更好的代表學(xué)習(xí)。

最近的工作主要演示了TextWorld RL代理使用兩種不同類型的知識(shí)來源。狀態(tài)圖(SG)捕獲通過基于語言的語義圖表示的環(huán)境的狀態(tài)信息(Ammanabrolu和Riedl, 2019)。圖2中的示例顯示了從環(huán)境的文本觀察中提取Apple→on→Table等信息。具體來說，Ammanabrolu和Riedl(2019)通過使用OpenIE (Angeli等人，2015)和一些手動(dòng)啟發(fā)式提取信息來創(chuàng)建這種知識(shí)圖。常識(shí)圖(CG)捕獲實(shí)體之間的外部常識(shí)知識(shí)(Murugesan等人，2021年)(來自常識(shí)知識(shí)來源，如ConceptNet)。我們假定RL代理可以在不同的子任務(wù)中利用這兩個(gè)圖中的信息，從而實(shí)現(xiàn)高效學(xué)習(xí)。SG為代理提供了一種象征性的方式來表示其當(dāng)前對(duì)游戲狀態(tài)的感知，包括其對(duì)周圍環(huán)境的理解。另一方面，CG為代理提供了關(guān)于在給定狀態(tài)下什么行為有意義的補(bǔ)充類人知識(shí)，因此能夠更有效地探索非常大的基于自然語言的行為空間。

我們使用雙向知識(shí)圖注意(BiKE)機(jī)制將狀態(tài)信息與常識(shí)知識(shí)結(jié)合起來，該機(jī)制將狀態(tài)圖和常識(shí)圖相互重新上下文化，以獲得最佳的行為軌跡。圖2提供了一個(gè)緊湊的可視化。

4.利用BiKE進(jìn)行知識(shí)集成

圖1:TBG的圖解，它既需要游戲的狀態(tài)表示，也需要有效探索和學(xué)習(xí)最佳行動(dòng)軌跡的外部常識(shí)。觀察文本輸入狀態(tài)圖和常識(shí)圖;最佳行動(dòng)軌跡是根據(jù)兩張圖的信息計(jì)算出來的。

總結(jié)

以上是生活随笔為你收集整理的Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。