Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres
摘要
基于文本的游戲(TBGs)已經(jīng)成為評(píng)估基礎(chǔ)語言理解和強(qiáng)化學(xué)習(xí)(RL)交叉階段進(jìn)展的有用基準(zhǔn)。最近的工作提出了使用外部知識(shí)來提高TBG的RL制劑的效率。在本文中,我們假設(shè)為了在TBG中有效地行動(dòng),代理必須能夠在檢索和使用相關(guān)常識(shí)知識(shí)的同時(shí)跟蹤游戲的狀態(tài)。因此,我們?yōu)門BG提出了一個(gè)代理,它可以誘導(dǎo)游戲狀態(tài)的圖形表示,并將其與來自ConceptNet的常識(shí)知識(shí)圖形結(jié)合起來。這種結(jié)合是通過兩個(gè)符號(hào)表示之間的雙向知識(shí)圖注意來實(shí)現(xiàn)的。我們表明,將常識(shí)納入博弈狀態(tài)圖的代理優(yōu)于基線代理。
1.介紹
基于文本的游戲(tbg)是一種模擬環(huán)境,在這種環(huán)境中,代理完全以文本的形式與世界進(jìn)行互動(dòng)。TBG已經(jīng)成為研究強(qiáng)化學(xué)習(xí)代理如何解決語言理解、部分可觀察性和在組合大的動(dòng)作空間中生成動(dòng)作的挑戰(zhàn)的關(guān)鍵基準(zhǔn)。TextWorld (C?té et al., 2018)是一個(gè)基于文本的游戲環(huán)境,近年來備受關(guān)注。
最近的工作表明,需要更多的知識(shí)來解決TBG中的挑戰(zhàn)。Ammanabrolu和Riedl(2019)提出了手工制作的規(guī)則,使用狀態(tài)知識(shí)圖(很像游戲地圖)來表示游戲的當(dāng)前狀態(tài)。我們自己之前的工作(Murugesan等人,2021年)提出了TextWorld的擴(kuò)展,稱為TextWorld Commonsense (TWC),以測試代理在與世界交互時(shí)使用常識(shí)知識(shí)的能力。TWC背后的假設(shè)是,常識(shí)知識(shí)使行為主體能夠理解當(dāng)前的行為如何影響未來的世界狀態(tài);并支持前瞻性規(guī)劃(Juba, 2016),從而導(dǎo)致在每一步的行動(dòng)的樣本高效選擇,并推動(dòng)代理更接近最佳性能。
在本文中,我們假設(shè)要在這種基于文本的游戲環(huán)境中有效地行動(dòng),代理必須能夠有效地跟蹤游戲的狀態(tài),并利用該狀態(tài)聯(lián)合檢索和利用相關(guān)常識(shí)知識(shí)。例如,常識(shí)知識(shí),如蘋果應(yīng)該放在冰箱里,將有助于代理行為更接近最佳行為;而像蘋果在桌子上這樣的狀態(tài)信息會(huì)幫助代理更有效地計(jì)劃。因此,我們提出了一種技術(shù):
(a)以符號(hào)圖的形式跟蹤游戲狀態(tài),該符號(hào)圖代表了主體對(duì)世界狀態(tài)的當(dāng)前信念(Ammanabrolu和Hausknecht, 2020a;Adhikari等人,2020);
(b)從ConceptNet檢索相關(guān)常識(shí)知識(shí)(Speer et al., 2017),
(c)聯(lián)合利用狀態(tài)圖和檢索到的720個(gè)常識(shí)圖。這些綜合的信息被用來選擇最優(yōu)的行動(dòng)。最后,我們演示了我們的代理與TWC環(huán)境上最先進(jìn)的基線代理的性能。
2.相關(guān)工作
2.1Text-based reinforcement learning
基于文本的游戲最近成為推動(dòng)RL研究進(jìn)展的一個(gè)有前途的框架。之前的工作探索了基于文本的RL學(xué)習(xí)基于外部文本語料庫(Branavan等人,2012年)或從文本觀察(Narasimhan等人,2015年)的策略。在這兩種情況下,我們都會(huì)分析文本,并利用來自游戲環(huán)境的反饋共同學(xué)習(xí)控制策略。Zahavy等(2018)提出了action - elimination Deep Q-Network (AE-DQN),學(xué)習(xí)對(duì)無效動(dòng)作進(jìn)行分類,減少動(dòng)作空間。在我們的工作中使用常識(shí)和狀態(tài)圖具有相同的目標(biāo),即通過對(duì)游戲狀態(tài)和先驗(yàn)知識(shí)的聯(lián)合推理來降低不合理行為的權(quán)重。最近,C?té等人(2018)介紹了TextWorld, Murugesan等人(2021)提出了TextWorld Commonsense (TWC),這是一種基于文本的游戲環(huán)境,需要代理利用先驗(yàn)知識(shí)來解決游戲。在這項(xiàng)工作中,我們以Murugesan等人(2021)的代理為基礎(chǔ),表明先驗(yàn)知識(shí)和狀態(tài)信息是互補(bǔ)的,應(yīng)該聯(lián)合學(xué)習(xí)。
2.2KG-based state representations
tbg中最近的一項(xiàng)工作旨在通過使用代理信念的符號(hào)表示來提高泛化性能。值得注意的是,Ammanabrolu和Riedl(2019)提出了KG-DQN, Ammanabrolu和Hausknecht (2020b)提出了KGA2C。這兩種方法背后的理念都是將游戲狀態(tài)表示為信念圖。最近,Adhikari等人(2020)提出了圖形輔助變壓器代理(GATA),一種在規(guī)劃過程中構(gòu)建和更新潛在信念圖的方法。我們的工作將這些基于圖形的狀態(tài)表示與先驗(yàn)常識(shí)圖集成在一起,允許代理使用先驗(yàn)知識(shí)更好地建模游戲狀態(tài)。
2.3Sample-efficient reinforcement learning
目前RL研究的一個(gè)關(guān)鍵挑戰(zhàn)是低樣本效率(Kaelbling et al., 1998)。為了解決這個(gè)問題,在RL方法中添加先驗(yàn)或外部知識(shí)的嘗試很少。值得注意的是,Murugesan等人(2020)提出使用從ConceptNet中提取的先驗(yàn)知識(shí)。Garnelo等人(2016)提出了深度符號(hào)RL,它依靠符號(hào)AI技術(shù)作為引入常識(shí)先驗(yàn)的一種方式。還有關(guān)于政策轉(zhuǎn)移的研究(Bianchi等人,2015年),旨在重用在不同環(huán)境中獲得的知識(shí)。體驗(yàn)重放(Wang et al., 2016;Lin, 1992, 1993)提供了一個(gè)如何存儲(chǔ)以前的經(jīng)驗(yàn)并在以后重用的框架。在本文中,繼Murugesan等人(2020)之后,我們使用外部KGs作為先驗(yàn)知識(shí)的來源,并將這種知識(shí)表示與基于圖的狀態(tài)建模相結(jié)合,以使代理能夠更有效地行動(dòng)。
3.模型與架構(gòu)
我們的模型的高級(jí)架構(gòu)包含三個(gè)主要組件:(a)輸入編碼器;(b)基于圖的知識(shí)提取器;(c)動(dòng)作預(yù)測模塊。輸入編碼層用于編碼時(shí)間步t的觀察結(jié)果和使用GRUs的可接受動(dòng)作列表(Ammanabrolu和Hausknecht, 2020a)。基于圖的知識(shí)提取器從補(bǔ)充的知識(shí)來源(游戲狀態(tài)和外部常識(shí)知識(shí))中收集相關(guān)知識(shí)。我們?cè)试S來自每個(gè)知識(shí)來源的信息來指導(dǎo)和指導(dǎo)更好的代表學(xué)習(xí)。
最近的工作主要演示了TextWorld RL代理使用兩種不同類型的知識(shí)來源。狀態(tài)圖(SG)捕獲通過基于語言的語義圖表示的環(huán)境的狀態(tài)信息(Ammanabrolu和Riedl, 2019)。圖2中的示例顯示了從環(huán)境的文本觀察中提取Apple→on→Table等信息。具體來說,Ammanabrolu和Riedl(2019)通過使用OpenIE (Angeli等人,2015)和一些手動(dòng)啟發(fā)式提取信息來創(chuàng)建這種知識(shí)圖。常識(shí)圖(CG)捕獲實(shí)體之間的外部常識(shí)知識(shí)(Murugesan等人,2021年)(來自常識(shí)知識(shí)來源,如ConceptNet)。我們假定RL代理可以在不同的子任務(wù)中利用這兩個(gè)圖中的信息,從而實(shí)現(xiàn)高效學(xué)習(xí)。SG為代理提供了一種象征性的方式來表示其當(dāng)前對(duì)游戲狀態(tài)的感知,包括其對(duì)周圍環(huán)境的理解。另一方面,CG為代理提供了關(guān)于在給定狀態(tài)下什么行為有意義的補(bǔ)充類人知識(shí),因此能夠更有效地探索非常大的基于自然語言的行為空間。
我們使用雙向知識(shí)圖注意(BiKE)機(jī)制將狀態(tài)信息與常識(shí)知識(shí)結(jié)合起來,該機(jī)制將狀態(tài)圖和常識(shí)圖相互重新上下文化,以獲得最佳的行為軌跡。圖2提供了一個(gè)緊湊的可視化。
4.利用BiKE進(jìn)行知識(shí)集成
圖1:TBG的圖解,它既需要游戲的狀態(tài)表示,也需要有效探索和學(xué)習(xí)最佳行動(dòng)軌跡的外部常識(shí)。觀察文本輸入狀態(tài)圖和常識(shí)圖;最佳行動(dòng)軌跡是根據(jù)兩張圖的信息計(jì)算出來的。
總結(jié)
以上是生活随笔為你收集整理的Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: input自动获取焦点
- 下一篇: 投资理财-未来操作