日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Enhancing Text-based Reinforcement Learning Agentswith Commonsense Knowledge

發布時間:2024/1/18 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Enhancing Text-based Reinforcement Learning Agentswith Commonsense Knowledge 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要

在本文中,我們考慮了利用基于文本的環境和游戲作為評估環境來評估強化學習技術進展的最新趨勢。這種對文本的依賴使自然語言處理的進步進入了這些代理的范圍,一個循環的線程是使用外部知識來模仿和更好的人類水平的性能。我們展示了一個這樣的代理實例,它使用來自ConceptNet的常識知識,在兩個基于文本的環境中顯示出良好的性能。

1.介紹

多年來,模擬環境和游戲被廣泛用于展示和推動強化學習技術的進步。最近一個受到廣泛關注的環境是TextWorld (TW) (C?oté等人,2018),其中一個代理必須與外部環境交互以實現目標,同時最大化的回報-所有這些都只使用文本的模式。TextWorld和類似的基于文本的任務試圖為基于代理的強化學習技術帶來自然語言處理(NLP)和問題回答解決方案的進步,反之亦然。

在一些NLP任務的解決方案中,一個固有的共同線索是,單純的基于文本的技術無法達到或超過人類水平的性能,NLP系統必須學會如何利用來自外部來源的額外知識,如知識庫(KBs)和知識圖(KGs),以提高其整體性能。圖1展示了一個運行中的例子來說明這一點:在圖中,代理必須有效利用的額外知識顯示在左下角的ConceptNet標題下。

圖1:我們的《Kitchen Cleanup》游戲示意圖。機器人通過短信感知世界,并被賦予打掃廚房的任務。如這里所示,代理可以利用來自ConceptNet的常識知識來減少探索并實現目標。

一般來說,利用外部知識來提高自然語言處理任務的準確性已經引起了社會的極大關注。特別是像自然語言推理(NLI)這樣的任務,最近的工作(Kapanipathi等人,2020;Wang et al., 2019)的研究表明,雖然外部知識可以帶來有用的信息,但這必須與輸入系統的新信息的上下文相關性相平衡。如果這一點做得不好,就會有非常大的風險,讓代理/算法承受過多的信息,導致糟糕的決策和性能。

在本文中,我們提出了一種利用概念網中的外部知識的新方法(Liu和Singh, 2004;Speer et al., 2017)知識圖,以減少強化學習(RL) agent的探索空間。具體來說,我們考慮一個基于RL的代理,它能夠在兩個層次上對周圍的世界建模——一個描述其當前對世界狀態的信念的局部或信念圖;以及與這種狀態相關的實體的全局或常識性圖表——以及這兩個層次之間的相互作用。信念圖為代理提供了一種象征性的方式來表示其當前對世界的感知,它可以很容易地與常識圖中的象征性常識知識相結合。這個世界及其知識的兩級表示遵循圖輔助變壓器代理(GATA) (Adhikari等人,2020)框架中提出的模型。

使用這個模型,我們能夠展示在TextWorld設置中設置的廚房清理任務中RL代理的性能的顯著提高。圖1展示了這樣一個廚房清理任務的示例:給代理一個初始觀察(用于生成代理的信念圖的第一次迭代),最終目標是清理廚房。代理必須生成實現該目標所需的行動列表:該列表在右側。最后,來自ConceptNet知識圖的額外外部知識(它構成了我們代理的全局圖)顯示在左下角。在這個運行的例子中,agent可能會從ConceptNet發現蘋果通常位于冰箱中,而盤子位于櫥柜中。我們將使用這個廚房清理實例作為貫穿全文的一個運行示例。

通過評估我們在兩個不同任務上的方法——如上所述的廚房清理任務和一個額外的烹飪食譜任務——我們可以表明,與純基于文本的模型相比,信念圖和常識圖之間的交互可以減少RL代理的探索。然而,我們也能夠證明一個更微妙的點:僅僅為代理提供常識性知識不足以提高其性能。事實上,通常情況下這對代理人的表現是有害的。我們將說明這是由于代理被太多的常識知識所壓倒,并討論不同的任務和設置如何對代理使用的知識有不同的需求。

2.相關工作

我們從與我們關注的領域相關的工作開始,我們將其分為以下三個主要領域。我們的工作位于知識圖和常識(和外部)知識的交匯點,以使強化學習更有效;我們的改進展示在TextWorld和鄰近的基于文本的域。

2.1 Knowledge Graphs

圖表已經成為一種表示知識的常見方式。這些知識圖由一組由關系(邊)連接起來的概念(節點)組成。眾所周知的公開的知識圖(KGs)包括Freebase (Bollacker等人,2008年),DBpedia (Auer等人,2007年),WordNet (Miller, 1995年)和ConceptNet (Speer等人,2017年)。每一種知識圖譜都包含不同類型的知識。對于我們工作中考慮的任務,我們發現在ConceptNet中可用的常識知識比來自DBpedia或Freebase的百科知識更適合——因此我們關注這一點。因為我們的方法認為KG是一種通用的圖結構,所以可以使用這里提到的任何KG結構。

知識圖已被用于執行推理,以提高各個領域的性能,特別是在NLP社區內。特別是,KGs已被用于諸如實體鏈接(Hoffart等人,2012)、問題回答(Sun等人,2018;Das等人,2017;Atzeni和Atzori, 2018),情感分析(調養等人,2015;Atzeni等人,2018)和自然語言推理(Kapanipathi等人,2020)。已經探索了不同的技術來使用它們。在大多數情況下,知識圖嵌入如TransH (Wang et al., 2014)和ComplEx (Trouillon et al., 2016)被用于向量化KG中的概念和關系,作為學習框架的輸入。強化學習也被用于在知識庫問答的知識圖中尋找相關路徑(Das et al., 2017)。Sun等人(2018)和Kapanipathi等人(2020)從對應的KGs中找到子圖,并使用圖卷積網絡(Kipf和Welling, 2016)對它們進行編碼,分別用于問題回答和自然語言推理。

2.2樣本高效強化學習的外部知識

當前強化學習(RL)技術面臨的一個關鍵挑戰是樣本效率低(Kaelbling et al.1998)。RL技術需要與環境進行大量的交互,這可能非常昂貴。這阻礙了RL在現實世界決策問題中的使用。相比之下,人類擁有豐富的常識知識,可以幫助他們在信息不完整的情況下解決問題。

受此啟發,最近有一些嘗試將先驗或外部知識添加到RL方法中。值得注意的是,Garnelo等人(2016)提出了深度符號RL,它將符號AI與神經網絡和強化學習相結合,作為引入常識先驗的一種方式。然而,他們的工作主要是理論性的。也有一些關于政策轉移的研究(Bianchi et al., 2015),研究在一個環境中獲得的知識如何在另一個環境中重復使用;和體驗回放(Wang et al., 2016;Lin, 1992, 1993),它研究了代理之前的經驗如何被存儲,然后再利用。與上述不同,在本文中,我們探索使用存儲在知識圖(如ConceptNet)中的常識性知識來提高基于文本的RL代理的樣本效率。據我們所知,之前沒有研究過如何使用常識知識使RL代理更有效。

2.3RL環境和TextWorld

游戲是一個豐富的領域,用于研究基礎語言和如何將文本信息用于受控應用。值得注意的是,在這方面的研究中,Branavan等人(2012)創造了一款基于rl的游戲玩家,利用文本手冊學習《文明2》的策略;和Narasimhan等人(2015)為多用戶地下城游戲構建了一個基于rl的游戲玩家。在這兩種情況下,分析文本和控制策略是聯合學習使用反饋的游戲環境。同樣地,在視覺領域,人們也致力于創造自動電子游戲玩家(Koutn′?k et al., 2013;Mnih等人,2016)。

我們的工作基于最近推出的基于文本的游戲TextWorld (C?oté等人,2018)。TextWorld是一個沙盒學習環境,用于在基于文本的游戲中訓練和評估基于rl的代理。自從引入它和其他類似的工具以來,已經有大量的工作致力于提高這個基準的性能。TextWorld的一個有趣的工作方向是學習代理對世界狀態的信念的符號(通常是圖形)表示。值得注意的是,Ammanabrolu和Riedl(2019)提出了KG-DQN, Adhikari等人(2020)提出了GATA;兩者都將游戲狀態表示為探索過程中學習到的信念圖。此圖用于修剪操作空間,使探索更有效。類似的構建動態信念圖的方法也在程序文本的機器理解中得到了探索(Das等人,2018年)。在我們的工作中,我們也用信念圖來表示世界。此外,我們還探索如何將信念圖與常識知識結合起來進行有效的探索。

LeDeepChef系統(Adolphs and Hofmann, 2019)研究了基于文本的RL代理在不熟悉的家庭環境中學習將烹飪技能轉移到從未見過的食譜時的泛化能力,這也與我們的工作有關。他們通過使用Freebase中最常見的食物列表來監督模型,從而實現轉移,允許他們的代理推廣到迄今未見過的食譜和配料。

最后,Zahavy等人(2018)提出了行動消除深度q -網絡(AE-DQN),它學習預測文本冒險游戲《Zork》中的無效行動,并使用上下文強盜消除它們。這使得模型能夠有效地處理較大的操作空間。在我們的工作中使用常識知識,可能會對不可信的行為產生同樣的影響。

3.TextWorld as a POMDP

基于文本的游戲可以被視為部分可觀察的馬爾可夫決策過程(POMDP) (Kaelbling et al., 1998),其中系統動態是由MDP決定的,但代理不能直接觀察潛在狀態。當一個代理與一個TextWorld游戲實例交互時,在每個回合中,有幾行文本描述游戲的狀態;玩家可以發出文本命令以某種理想的方式改變狀態(游戲邦注:通常是為了朝著目標前進)。

形式上,讓(S,T,A,Ω,O,R,γ)表示底層的TextWorld POMDP。其中,S表示狀態集,A表示作用空間,T表示狀態轉移概率,Ω表示觀測集,O表示條件觀測概率集,γ∈[0,1]為折現因子。agent在時間步t的觀察值依賴于當前狀態st和之前在at?1的動作。agent在時間步t收到獎勵:rt = R(st,at), agent的目標是使期望的獎勵折現總和最大化:

TextWorld允許代理通過文本的形式感知環境并與之交互。

?4.模型描述

圖2:我們的模型在任何給定的時間步上的決策制定概述。我們的模型由以下組成部分組成:(a)輸入編碼器,編碼可接受的行為和觀察;(b)信念圖,捕捉agent對當前狀態的信念;(c)常識KG,由agent提取的ConceptNet子圖;(d)信念圖和提取的常識KG的知識集成;?

為了解決上述POMDP問題,我們設計了一個模型,該模型可以利用常識知識并學習其世界狀態信念的圖結構表示。該模型的高層架構包含三個主要組件,即輸入編碼器、基于圖形的知識提取器和動作預測模塊。

輸入編碼層用于編碼時間步長t的觀測值和可容許動作列表。

基于圖的知識提取器試圖從兩個不同的來源提取知識。

首先,利用外部常識性知識,提高agent在每個時間步選擇正確動作的能力;

其次,agent感知到的關于環境(世界狀態)的信念也被一個信念圖捕獲,這個信念圖是根據游戲中的文本觀察動態生成的。然后將來自兩個源的信息聚合到一個圖中。

動作預測模塊以編碼后的觀察預留狀態、編碼后的可接受動作列表和編碼后的聚合圖作為輸入,對每一步預測一個動作。圖2提供了我們方法的精簡可視化。我們將在下面描述模型的各個組件。

4.1輸入編碼

?o--->x???? a---->c

?4.2基于圖的知識集成

我們增強了基于文本的RL代理,允許它訪問一個圖表,該圖表捕捉了常識知識和代理當前對世界狀態的信念。形式上,我們假設,在每個時間步t,代理訪問一個圖Gt = (Vt,Et),其中Vt是節點的集合,Et?V 2t表示圖的邊。圖在每一步t動態更新,并根據文本觀察增加或刪除新的節點。

?

如前所述,Gt編碼了常識知識和世界國家的信仰。通過將文本中提到的實體Actions鏈接到外部KG,常識知識從觀察的歷史中提取出來。這允許提取常識知識圖,這是外部知識來源的子圖,提供有關相關實體的信息。在我們的實驗中,我們使用ConceptNet (Speer et al., 2017)作為外部知識圖。另一方面,在Adhikari等人最近的工作中,觀察結果也被用于更新動態生成的信念圖。基于實體提及,通過合并信念知識圖和常識知識圖來實現圖的聚合。這有助于減少從更新信念圖和常識圖中提取的噪聲。如圖2所示,根據觀察結果更新常識知識圖和信念圖,然后將它們聚合成單個圖Gt。圖Gt在時間步長t時,由圖編碼器處理如下。首先,利用預訓練的KG嵌入將節點集Vt映射為特征矩陣

?

(圖卷積網絡)層(Kipf and Welling, 2016),其中L是模型的超參數。這個過程的輸出是一個更新的矩陣Zt = [z1t,…,z|V | t]∈Rh×|Vt|。然后我們通過對Zt的列進行簡單的平均,來計算一個編碼gt為gt的圖,即:

在我們的實驗中,除了圖編碼gt之外,我們使用更新的KG嵌入為每個動作創建一個基于圖的編碼向量,如4.1節所述。這種方法已經證明在每個時間步驟中可以更好地集成知識圖。

4.3行動的預測

?

其中W1,W2,b1, b2是模型的可學習參數。然后,代理選擇的最終操作將由具有最大概率得分的操作給出,即?at = arg maxi pt,i。

4.4學習

遵循FirstTextWorld競賽的獲勝策略(Adolphs和Hofmann, 2019年),我們使用優勢行動者-批評者(A2C)框架(Mnih等人,2016年)來訓練agent,并優化訓練游戲獎勵信號的行動選擇器。

5.實驗

在本節中,我們報告了一些實驗,以研究基于常識的RL代理在TextWorld環境中的作用。我們在兩組游戲實例中評估和比較我們的代理:1)Kitchen Cleanup Task和2)Cooking Recipe Task。

5.1廚房清理任務

首先,我們使用TextWorld (C?oté等人,2018)生成一個游戲/任務,使用常識知識圖(如ConceptNet)來評估性能增益。我們生成的游戲包含10個與游戲相關的物體,以及5個分散在房間中的分散物體。代理人的目標是通過把物品放在正確的地方來整理房間(廚房)。我們為代理創建了一組現實的廚房清潔目標:例如,從桌子上拿走蘋果,把蘋果放進冰箱。由于映射到房間里物體的概念信息明確地在ConceptNet中提供(蘋果→AtLocation→冰箱),創造這款游戲的主要假設是,利用常識知識可以讓代理獲得更高的獎勵,同時減少與環境的交互次數。

向智能體提供廚房的文本描述,包括廚房中不同物體的位置以及它們與其他物體的空間關系。代理使用此信息來選擇在環境中執行的下一個操作。每當代理獲取一個對象并將其放在目標位置時,它就會獲得獎勵,其總得分將增加1分。agent在這個廚房清理任務中所能獲得的最大分數是10。除了文本描述外,我們還基于文本描述從概念網中提取常識知識圖。圖3顯示了在代理與環境交互期間創建的常識知識圖的一個實例。請注意,即使對于我們建模的簡單廚房清理任務(參見圖1獲取詳細信息),常識知識圖也包含超過20個實體(節點)和類似數量的關系(邊)。這種可視化是有用的,因為它為我們即將進行的關于代理被太多常識淹沒的討論提供了基礎。

圖3:從概念網中提取廚房清理任務的常識知識圖示例

廚房清潔的結果

我們將我們的知識感知RL代理(KG Full和KG evolution)與兩個基線進行性能比較:隨機,代理在每一步隨機選擇一個動作;以及Simple,即代理只使用文本描述選擇下一個動作,而忽略常識知識圖。另一方面,具有知識感知的RL代理使用常識知識圖來選擇下一步行動。該圖表以一種完整圖表的形式呈現,即在游戲開始時呈現所有對象之間的常識性關系(KG Full);或者進化圖設置,其中只有代理看到/交互的對象之間的常識性關系,直到顯示當前步驟(KG Evolve)。我們記錄每個代理取得的平均分數以及與環境的平均交互(移動)次數作為我們的評估指標。圖4顯示了廚房清理任務平均運行5次后的結果,每次運行500集。

圖4:有和沒有常識知識(Conceptnet)的Kitchen Cleanup任務的代理與平均分數和平均移動(平均超過5次運行)的比較。

廚房清潔的探討?

正如預期的那樣,我們看到使用文本描述和常識知識的代理比基線隨機代理表現更好。我們也能夠清楚地證明,在agent的學習過程中,知識感知型agent在常識知識的幫助下逐漸超越簡單agent,使agent更加專注于探索,并推動其向與其他目標相關的概念發展。這些結果也可以被視為對更廣泛的NLP文獻(Kapanipathi等人,2020)中顯示的類似結果的以rl為中心的代理驗證。

5.2烹飪食譜任務

接下來,我們通過使用由(Adhikari et al., 2020)生成的20個不同的游戲來評估我們的代理在烹飪食譜任務上的表現。這些游戲遵循基于食譜的烹飪主題,在一個房間中只有一種原料(難度等級1)。游戲的目標是收集特定的原料,從給定的食譜中準備一頓飯。

與前面的任務一樣,我們將我們的代理與Simple代理進行比較。除了簡單的代理,我們還將我們的代理與GATA代理(Adhikari等人,2020)進行比較,后者使用信念圖進行有效的規劃和推廣。正如本文所使用的那樣,基于環境的文本描述,信念圖表示當前游戲的狀態。與常識知識類似,信念圖可以作為一個完整圖(GATA Full)或一個進化圖(GATA Evolve)提供給代理,然后聚合為當前圖。值得注意的是,在TextWorld環境中,全信度圖被認為是基礎真值狀態信息:它是TextWorld環境內部用來修改狀態信息和允許行為列表的圖。另一方面,基于觀測狀態信息生成演化信念圖。

烹飪食譜的結果

我們將簡單的和GA的TA代理與我們的使用從ConceptNet中提取的常識知識的代理進行比較。與之前一樣,我們考慮的是全圖設置和進化圖設置,即在游戲一開始便提供完整的常識圖,或者隨著游戲的發展而逐步提供。對于這個任務,我們將常識知識圖與信念圖(信念+KG充分和信念+KG進化)進行聚合。圖5顯示了平均運行5次并運行20個游戲后的結果,每次運行100集。如前所述,所有的代理都優于簡單代理,這表明使用不同的狀態表示(如信念圖)和附加信息(如常識知識)可以提高代理的性能。

圖5:用于Cooking Recipe任務的代理與信念圖和/或常識圖的比較(平均超過5次運行)。

烹飪食譜的探討?

我們觀察到,GATA和believe +KG的進化圖設置都比believe +KG Full的表現更好,因為輸入更多的信息會導致前面任務中觀察到的噪聲探索。更有趣的是,我們觀察到GATA Full的性能明顯優于其他制劑。我們認為造成這一結果的原因在于任務的難度以及這些烹飪游戲的生成過程。因為烹飪食譜任務(難度等級1)需要從代理所在的同一個房間中檢索單一的原料,所以不存在與當前狀態相關的有意義的概念,可以從常識知識中獲得更好的探索。即使在這個游戲環境中設置了困難的任務(游戲邦注:難度達到10級,3種食材分布在6個房間中),食材也是隨機選擇并分布在各個房間中。在這樣的游戲設置中,基礎真理全信念圖比常識知識圖更有益。這是一個有趣的負面結果,因為它表明,仍然存在常識知識不一定能幫助代理的場景和領域。我們正在積極探索烹飪食譜任務的進一步設置,以便更好地理解和框架這一效果。

6.結論

以前的文本游戲方法,如TextWorld,主要關注文本理解和強化學習控制策略,因此樣本效率不高。比之下,人類利用他們的常識知識在世界上有效地行動。作為彌補這一差距的一個步驟,我們研究了使用常識性知識為基于文本的游戲構建高效的RL代理的新問題。我們提出了一種技術,它象征性地表示代理對世界的信念,然后將這種信念與ConceptNet知識圖中的常識知識結合起來,以便在世界中行動。我們在多個任務和環境中評估了我們的方法,并表明常識性知識可以幫助代理高效和準確地行動。我們還展示了一些有趣的負面結果,即代理被太多的常識所淹沒。我們目前正在積極研究這一問題,未來的工作將更詳細地報道這一現象。

總結

以上是生活随笔為你收集整理的Enhancing Text-based Reinforcement Learning Agentswith Commonsense Knowledge的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲在线观看av | 穿扒开跪着折磨屁股视频 | mm1313亚洲国产精品美女 | 欧美日韩电影一区 | 色婷婷av国产精品 | 国产在线一区不卡 | 日韩不卡一区二区三区 | 中文字幕在线观看线人 | 色狠狠一区二区三区香蕉 | 无码人妻精品一区二区三应用大全 | 99热精品在线播放 | 午夜免费看 | 四虎影酷 | 一级特黄av | 亚州欧美日韩 | 免费裸体视频网站 | 国产破处视频 | 精品欧美| 国产成人欧美一区二区三区91 | 91色蝌蚪 | 久久精品一区二区免费播放 | 国产精品久久久久一区二区三区 | 久久久久久av无码免费网站 | 激情在线网站 | 国产黄色视屏 | 午夜丰满寂寞少妇精品 | 欧美少妇一级片 | 国产婷婷色一区二区在线观看 | 男人天堂中文字幕 | 日韩人妻精品中文字幕 | 成人久久久久久 | 最新中文字幕第一页 | 国产一区啪啪 | 黄色国产片 | 国产sm主人调教女m视频 | 四虎精品欧美一区二区免费 | 国产肥白大熟妇bbbb视频 | 人人搞人人 | 免费高清毛片 | 午夜不卡久久精品无码免费 | 2021天天操| 天天狠狠干 | 国产啊啊啊啊 | 日韩亚洲欧美一区二区三区 | 好吊日免费视频 | 成人漫画网站 | 免费看日批视频 | 欧美综合视频在线观看 | www.黄色网 | 99热com| 亚洲成人中文字幕 | 日韩三区四区 | 久久久久国色av免费观看性色 | 国产精品毛片久久久久久久av | 性色av网 | 亚洲宗人网 | 91蜜桃传媒精品久久久一区二区 | 老湿机69福利 | 免费a v网站 | 女色婷婷| 成年女人色毛片 | 福利电影一区二区三区 | 黄色成人毛片 | 操操网 | 激情欧美日韩 | 91嫩草视频在线观看 | 中文字幕在线字幕中文 | 美丽姑娘免费观看在线观看 | 色偷av| 黄色小视频免费在线观看 | 亚洲美女自拍偷拍 | 亚洲人视频在线 | 亚洲精品一卡二卡 | 成人精品免费网站 | 欧美精品成人一区二区在线观看 | 国产精品高清无码 | 免费日韩一区二区 | 久久久久久久无码 | 一区二区麻豆 | 亚洲美女视频网站 | 黄色av免费在线看 | 久久精品天堂 | 亚洲自拍偷拍精品视频 | 国产色播 | 国产911| 26uuu亚洲国产精品 | 日本韩国中文字幕 | 免费成人深夜夜行网站视频 | 欧美日韩成人一区 | 欧洲日韩一区二区三区 | 欧美另类xxxxx| 欧美 丝袜 自拍 制服 另类 | 91久色| 日本五十路女优 | 亚洲成人免费看 | 91啪国产在线 | 青青草成人免费 | www.4虎| 亚洲精品久久久久avwww潮水 |