日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Text-based RL Agents with Commonsense Knowledge:New Challenges, Environments and Baselines

發(fā)布時(shí)間:2024/1/18 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Text-based RL Agents with Commonsense Knowledge:New Challenges, Environments and Baselines 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

dblp: Keerthiram MurugesanList of computer science publications by Keerthiram Murugesanhttps://dblp.org/pid/178/2877.html

摘要

基于文本的游戲已經(jīng)成為強(qiáng)化學(xué)習(xí)(RL)研究的重要試驗(yàn)臺(tái),要求RL代理將基礎(chǔ)語(yǔ)言理解與順序決策結(jié)合起來。在這篇論文中,我們研究了向RL制劑注入常識(shí)知識(shí)的問題。這些知識(shí)將允許代理在世界上通過修剪不合理的行為有效地行動(dòng),并執(zhí)行前瞻性計(jì)劃,以確定當(dāng)前的行為可能如何影響未來的世界狀態(tài)。我們?cè)O(shè)計(jì)了一個(gè)新的基于文本的游戲環(huán)境,稱為TextWorld Commonsense (TWC),用于訓(xùn)練和評(píng)估RL代理,使用特定類型的關(guān)于對(duì)象、它們的屬性和可見性的常識(shí)知識(shí)。我們還引入了幾個(gè)基線RL代理,它們跟蹤順序上下文并動(dòng)態(tài)地從ConceptNet中檢索相關(guān)常識(shí)知識(shí)。我們表明,在TWC中加入常識(shí)知識(shí)的代理表現(xiàn)更好,同時(shí)行動(dòng)更有效。我們進(jìn)行了用戶研究,以評(píng)估人類在TWC上的性能,并表明未來有足夠的改進(jìn)空間。

1.介紹

多年來,模擬環(huán)境被廣泛用于推動(dòng)強(qiáng)化學(xué)習(xí)(RL)的進(jìn)步。最近一個(gè)備受關(guān)注的框架是TextWorld (TW) (C?té et al. 2018),其中代理必須與外部環(huán)境交互,僅使用文本的形式來實(shí)現(xiàn)給定的目標(biāo)。TextWorld和類似的基于文本的環(huán)境試圖為順序決策設(shè)置帶來基礎(chǔ)語(yǔ)言理解方面的進(jìn)步。

雖然現(xiàn)有的基于文本的游戲?qū)τ赗L研究很有價(jià)值,但它們卻未能測(cè)試人類智力的一個(gè)關(guān)鍵方面:常識(shí)。人類利用有關(guān)實(shí)體的常識(shí)(背景)知識(shí)——屬性、空間關(guān)系、事件、因果關(guān)系和其他社會(huì)習(xí)俗——在與世界互動(dòng)時(shí)?;诖?#xff0c;我們提出了一種新的基于文本的環(huán)境,稱為TextWorld Commonsense(或TWC),在這種環(huán)境中,代理將使用存儲(chǔ)在諸如ConceptNet等知識(shí)庫(kù)中的常識(shí)知識(shí)(Liu和Singh 2004;Speer, Chin和Havasi 2017)來有效地行動(dòng)。TWC是一個(gè)類似于TextWorld的沙盒環(huán)境,在這個(gè)環(huán)境中,代理必須清理房子。在這種環(huán)境中實(shí)現(xiàn)目標(biāo)需要了解關(guān)于對(duì)象、它們的屬性、位置和功能支持的常識(shí)。常識(shí)知識(shí)的有效使用將允許代理在每一步選擇正確和適用的行動(dòng):即,通過減少探索來提高樣本效率。此外,常識(shí)知識(shí)將幫助代理執(zhí)行前瞻性計(jì)劃,并確定當(dāng)前的行動(dòng)可能如何影響未來的世界狀態(tài)(Juba 2016)。圖1給出了來自TWC的運(yùn)行示例,說明了代理如何利用常識(shí)知識(shí)庫(kù)(KB)。

驗(yàn)證這樣的環(huán)境是具有挑戰(zhàn)性的,需要:(1)驗(yàn)證游戲中使用的信息;(2)評(píng)估能夠利用外部常識(shí)知識(shí)的基線代理與不能利用外部常識(shí)知識(shí)的對(duì)應(yīng)代理;(3)提供實(shí)證證據(jù),證明環(huán)境可以推動(dòng)未來的研究。在這項(xiàng)工作中,我們通過首先執(zhí)行人工注釋來驗(yàn)證TWC環(huán)境的正確性和完整性來解決這些問題。接下來,我們?cè)O(shè)計(jì)了一個(gè)基于文本的代理與常識(shí)知識(shí)相結(jié)合的代理框架。代理可以動(dòng)態(tài)地從一個(gè)常識(shí)性知識(shí)庫(kù)中檢索相關(guān)知識(shí)。最后,基于人類對(duì)生成的游戲的表現(xiàn)和常識(shí)知識(shí)的人工選擇,我們討論并證明了這樣一個(gè)環(huán)境在推動(dòng)未來研究的重要性。

貢獻(xiàn)

本文的主要貢獻(xiàn)如下:(1)我們提出了一個(gè)新的環(huán)境TWC來評(píng)估RL代理對(duì)常識(shí)知識(shí)的使用;(2)我們引入了使用來自ConceptNet的常識(shí)知識(shí)的基線,并表明常識(shí)確實(shí)有助于決策;(3)雖然我們的具有常識(shí)的模型表現(xiàn)良好,但在TWC環(huán)境中,我們顯示了自動(dòng)代理和人類之間的顯著性能差距。這證實(shí)了我們的主張,即TWC為RL制劑提供了一個(gè)具有挑戰(zhàn)性的試驗(yàn)臺(tái),并可作為該領(lǐng)域進(jìn)一步研究的刺激物。

2.TextWorld常識(shí)(TWC)

現(xiàn)有的基于文本的游戲嚴(yán)重限制了代理需要了解和利用的常識(shí)知識(shí)的數(shù)量和種類。因此,在本文中,我們通過重用TextWorld (C?té et al. 2018)引擎創(chuàng)建并呈現(xiàn)了一個(gè)新的領(lǐng)域——TextWorld Commonsense (TWC),以生成基于文本的環(huán)境,在這些環(huán)境中RL代理需要有效地檢索和使用常識(shí)知識(shí)。常識(shí)的定義可以非常廣泛和多種多樣(Fulda等人,2017年)。在本文中,我們主要關(guān)注與對(duì)象、它們的屬性和可見性相關(guān)的常識(shí)知識(shí)。

2.1構(gòu)建TWC

我們將TWC域構(gòu)建為房屋清理環(huán)境,在該環(huán)境中,代理需要從常識(shí)知識(shí)庫(kù)獲取有關(guān)房屋中典型對(duì)象、它們的屬性和預(yù)期位置的知識(shí)。通過在不同位置隨機(jī)放置對(duì)象來初始化環(huán)境。代理的高級(jí)目標(biāo)是通過把物品放在它們的常識(shí)性位置來整理房子。這個(gè)高級(jí)目標(biāo)可能包含多個(gè)需要常識(shí)知識(shí)的子目標(biāo)。例如,對(duì)于子目標(biāo):把蘋果放進(jìn)冰箱,來自ConceptNet的常識(shí)知識(shí)(apple→AtLocation→fridge)可以幫助代理。

Goal Sources:

雖然我們的主要目標(biāo)是創(chuàng)建需要常識(shí)的環(huán)境,但我們不希望TWC偏向于任何現(xiàn)有的知識(shí)庫(kù)。另外,如果環(huán)境和外部知識(shí)都來自特定常識(shí)知識(shí)庫(kù)(如ConceptNet)的相同部分,我們還希望排除數(shù)據(jù)泄漏的可能性。對(duì)于TWC目標(biāo)實(shí)例的構(gòu)建,我們選擇了與現(xiàn)有常識(shí)KBs正交的信息源。具體來說,我們使用:(1)來自7ESL2的圖片字典;(2)英國(guó)文化協(xié)會(huì)的詞匯學(xué)習(xí)頁(yè)面3;(3)家庭英語(yǔ)詞匯學(xué)習(xí)頁(yè)面4;(4) ESOL課程。我們從這些源中收集詞匯表術(shù)語(yǔ),并手動(dòng)聚合這些內(nèi)容,以便構(gòu)建一個(gè)數(shù)據(jù)集,其中列出了通常在室內(nèi)環(huán)境中可以找到的幾種對(duì)象。對(duì)于每個(gè)對(duì)象,數(shù)據(jù)集指定了一個(gè)合理且一致的位置列表。

Instance Construction:

實(shí)例構(gòu)造:從該數(shù)據(jù)集中采樣一個(gè)TWC實(shí)例,其中包括8種房間類型的配置和總共超過900個(gè)實(shí)體(表1)。環(huán)境包括三種主要類型的實(shí)體:對(duì)象、支持者和容器。對(duì)象是可以由代理攜帶的實(shí)體,而支架和容器是可以放置對(duì)象的家具。o代表房子里的物體或?qū)嶓w;r表示實(shí)體通常所在的房間;l表示房間內(nèi)實(shí)體通常被放置的位置。在我們的例子中,o:apple是一個(gè)實(shí)體,l: fridge是容器,r:kitchen是房間。通過手動(dòng)驗(yàn)證過程(我們將在下一節(jié)2.2中說明),我們確保實(shí)體、支持者/容器和房間之間的關(guān)聯(lián)反映了常識(shí)。如表1所示,我們從上述資源中總共收集了190個(gè)對(duì)象。我們通過手動(dòng)注釋具有限定屬性的對(duì)象進(jìn)一步擴(kuò)展了這個(gè)列表,這些屬性通常是預(yù)定義集合中的形容詞(例如,襯衫可能有一種顏色和特定的紋理)。這允許將用于生成TWC環(huán)境的總對(duì)象池的基數(shù)增加到800以上。

?2.2驗(yàn)證TWC

為了確保TWC反映常識(shí)性知識(shí),我們?cè)O(shè)置了兩個(gè)注釋任務(wù)來驗(yàn)證環(huán)境目標(biāo)(即在2.1節(jié)中定義的(o、r、l)形式的目標(biāo)三元組。第一個(gè)任務(wù)旨在驗(yàn)證目標(biāo)的正確性,并評(píng)估目標(biāo)(o, r, l)三元組對(duì)人類是否有意義。第二個(gè)任務(wù)旨在驗(yàn)證完整性,即環(huán)境中的其他三元組對(duì)人類來說沒有意義。

驗(yàn)證正確性:

為了測(cè)試環(huán)境的正確性,我們要求人工注釋人員確定他們是否會(huì)認(rèn)為目標(biāo)o、r、l中給定的房間-位置組合是對(duì)象o的合理位置。如果是,實(shí)例就被標(biāo)記為正的,否則就標(biāo)記為負(fù)的。我們收集了來自10個(gè)注釋者的注釋,總共跨越205個(gè)獨(dú)特的o, r, l三元組。每個(gè)注釋器標(biāo)記了70個(gè)這些三元組,每個(gè)三元組被分配給至少3個(gè)不同的注釋器。注釋者不被給予任何其他偏倚信息,所有注釋者都獨(dú)立工作。我們?cè)?span style="color:#fe2c24;">表2中展示了注釋者與TWC目標(biāo)的總體一致。注釋者的高度一致表明目標(biāo)o、r、l三元組反映了人類的常識(shí)知識(shí)。

驗(yàn)證完整性:

與上面的注釋練習(xí)類似,我們還要求人工注釋人員確定非目標(biāo)o、r、l三元組對(duì)他們是否有意義。除了上面提到的70個(gè)三元組之外,每個(gè)M = 10的注釋者被要求將一組30個(gè)非目標(biāo)三元組標(biāo)記為正或負(fù)。為了給注釋器提供一個(gè)信息豐富的非目標(biāo)o、r、l三元組集合,我們使用GloV e (Pennington, Socher, and Manning 2014)來計(jì)算TWC中每個(gè)位置的嵌入。對(duì)于給定的目標(biāo)o,根據(jù)l與l’嵌入的余弦相似度,從與目標(biāo)位置l最相似的位置中選擇非目標(biāo)位置l’。與以前一樣,每個(gè)非目標(biāo)三元組被分配給一個(gè)由97個(gè)三元組組成的集合中的至少3個(gè)注釋器。正如我們?cè)诒?中看到的,注釋者很少發(fā)現(xiàn)假設(shè)的非目標(biāo)ho, r, li三元組作為常識(shí)。

注釋器可靠性:

對(duì)于我們的總體注釋練習(xí),我們可以報(bào)告注釋者之間的協(xié)議統(tǒng)計(jì)數(shù)據(jù),因?yàn)榭傮w注釋在標(biāo)簽邊緣方面不再不平衡。我們報(bào)道了Krippendorff的ακ = 0.74。這個(gè)數(shù)字超出了可接受的一致性范圍,表明我們的注釋器在對(duì)三元組進(jìn)行評(píng)級(jí)時(shí)具有很強(qiáng)的一致性。

2.3生成TWC游戲

我們使用TextWorld引擎創(chuàng)建了一組基于文本的游戲,其目標(biāo)是通過將對(duì)象放在前面提到的TWC數(shù)據(jù)集中指定的目標(biāo)位置來整理房子。根據(jù)游戲中物體的總數(shù)、代理需要找到的物體的數(shù)量(游戲開始時(shí)代理已經(jīng)攜帶了剩下的物體)和需要探索的房間數(shù)量,游戲被分為三個(gè)難度級(jí)別(簡(jiǎn)單、中等和困難)。這些屬性的值從表3中列出的值中隨機(jī)抽樣。對(duì)于每個(gè)難度級(jí)別,我們提供一個(gè)訓(xùn)練集和兩個(gè)測(cè)試集。訓(xùn)練集是由表1中報(bào)告的2/3個(gè)獨(dú)特對(duì)象構(gòu)建的。對(duì)于第一個(gè)測(cè)試集,我們使用了與訓(xùn)練游戲相同的對(duì)象集。我們稱這個(gè)集合為分布內(nèi)測(cè)試集。對(duì)于第二個(gè)測(cè)試集,我們使用剩下的1/3個(gè)對(duì)象來創(chuàng)建評(píng)估游戲。我們稱這個(gè)集合為分布外測(cè)試集。這使得我們不僅可以研究代理在相同的訓(xùn)練數(shù)據(jù)分布中進(jìn)行泛化的能力,還可以研究它們實(shí)現(xiàn)對(duì)不可見實(shí)體的泛化的能力。圖2顯示了一款中等難度關(guān)卡的游戲攻略。

?2.4 Benchmarking Human Performance

為了完成TWC領(lǐng)域的基準(zhǔn)測(cè)試,我們執(zhí)行了另一個(gè)人工注釋任務(wù),關(guān)注人類游戲玩家的表現(xiàn)。

這樣的實(shí)驗(yàn)對(duì)于確定人類玩家的表現(xiàn)是必不可少的,因?yàn)槿祟愅婕彝ǔ1徽J(rèn)為善于利用常識(shí)知識(shí)。我們通過Jupyter筆記本設(shè)置了TWC的交互界面,玩家可以使用該界面與我們?cè)u(píng)估所有其他RL代理的相同游戲進(jìn)行交互。我們記錄了玩家的所有動(dòng)作(步驟),以及收集到的獎(jiǎng)勵(lì)。在每一個(gè)步驟中,游戲都會(huì)以文本形式向玩家展示當(dāng)前的游戲環(huán)境,并給出一個(gè)包含可能操作的完整列表的下拉框。一旦玩家選擇了一個(gè)行動(dòng),它便會(huì)被執(zhí)行;這個(gè)過程不斷重復(fù),直到游戲中所有可能的目標(biāo)都完成??偣灿?6個(gè)注釋者玩了104個(gè)TWC游戲?qū)嵗?#xff0c;分布在簡(jiǎn)單、中等和困難的級(jí)別。每個(gè)難度級(jí)別有5個(gè)游戲,每個(gè)來自訓(xùn)練和測(cè)試分布,共30個(gè)獨(dú)特的游戲。每個(gè)獨(dú)特的游戲都由至少3個(gè)注釋者進(jìn)行注釋。表4中列出了結(jié)果,以及第4節(jié)中的實(shí)驗(yàn)結(jié)果,以便與TWC制劑進(jìn)行直接比較。

3.TWC代理

基于文本的游戲可以被視為部分可觀察的馬爾可夫決策過程(POMDP) (Kaelbling, Littman, and Cassandra 1998),其中系統(tǒng)動(dòng)態(tài)由MDP決定,但代理不能直接觀察到底層狀態(tài)。agent在每個(gè)時(shí)間步中都獲得一個(gè)獎(jiǎng)勵(lì),它的目標(biāo)是使期望的獎(jiǎng)勵(lì)折現(xiàn)金額最大化。TWC游戲允許代理通過文本感知環(huán)境并與之互動(dòng)。因此,在時(shí)間步t ot上的觀察被表示為一個(gè)標(biāo)記序列(ot = {o1t, . . ont})。類似地,每個(gè)動(dòng)作a也被表示為一個(gè)標(biāo)記序列{a1,…,是}。這個(gè)項(xiàng)目的目標(biāo)是用常識(shí)測(cè)試RL代理。因此,代理也可以訪問常識(shí)知識(shí)庫(kù);并且可以在選擇動(dòng)作時(shí)使用它。為了建模TWC,我們?cè)O(shè)計(jì)了一個(gè)框架:(a)學(xué)習(xí)各種動(dòng)作的表示;(b)從順序上下文中學(xué)習(xí);(c)動(dòng)態(tài)檢索相關(guān)常識(shí)知識(shí);(d)將檢索到的常識(shí)知識(shí)與語(yǔ)境相結(jié)合;(e)預(yù)測(cè)下一步行動(dòng)。該框架的框圖如圖3所示。我們將在下面描述框架的各個(gè)組件。

3.1動(dòng)作與觀察編碼器

?3.2Context Encoder

我們的RL代理的一個(gè)關(guān)鍵挑戰(zhàn)是在建模上下文中,即。觀察的歷史。我們使用另一個(gè)循環(huán)編碼器在觀察表示上對(duì)上下文進(jìn)行建模。我們使用GRU網(wǎng)絡(luò)將之前的觀測(cè)到ot的序列編碼為向量st = GRU(st?1,ot)。我們將st稱為狀態(tài)向量或上下文編碼。在最終的動(dòng)作預(yù)測(cè)中,除了常識(shí)知識(shí)外,還將使用上下文編碼。

3.3Dynamic Commonsense Subgraph

我們的模型以圖表的形式從ConceptNet檢索常識(shí)知識(shí)。圖GtC在每個(gè)時(shí)間步t上動(dòng)態(tài)更新。GtC是通過將t時(shí)刻ot的文本觀察映射到ConceptNet,并將其與前一個(gè)時(shí)間步Gt?1C的圖相結(jié)合來構(gòu)造的。我們使用space (https://spacy.io)來提取名詞塊,然后執(zhí)行與ConceptNet中的所有概念匹配的max子字符串。這就得到了t時(shí)刻觀察ot的一組實(shí)體et。然后,我們將Gt?1c和et中的概念結(jié)合起來,得到Et。Et包含了在時(shí)間步驟t之前代理觀察到的所有概念,包括對(duì)房間的描述、當(dāng)前的觀察和清單中的對(duì)象。給定Et,我們描述了三種從外部知識(shí)中自動(dòng)提取常識(shí)圖Gt的不同技術(shù)。

(1)直接連接(DC):這是構(gòu)建GtC的基線方法。我們從ConceptNet中獲取Et中每個(gè)概念之間的直接鏈接。

(2)上下文直接連接(CDC):由于代理的目標(biāo)是通過將物體放入適當(dāng)?shù)娜萜?如蘋果、冰箱)來清理房子,我們假設(shè)只在物體和容器之間添加鏈接可能對(duì)代理有益,而不是像直接連接那樣在所有概念之間添加鏈接,因?yàn)槲覀兛赡軙?huì)用噪音淹沒代理。為了實(shí)現(xiàn)這個(gè)目標(biāo),我們將實(shí)體Et分成對(duì)象和容器。由于我們從Et中的清單中知道實(shí)體構(gòu)成對(duì)象,因此不需要顯式標(biāo)記,因?yàn)槲覀儗⑵溆鄬?shí)體視為容器。我們只保留來自ConceptNet的對(duì)象和容器之間的邊緣。

(3)鄰域(NG):以前的方法只關(guān)注從外部知識(shí)等觀察到的概念之間的聯(lián)系。除了直接的關(guān)系,它可能是有益的,包括來自外部知識(shí)的概念,與Et相關(guān),但沒有直接觀察到從游戲。因此,對(duì)于Et中的每個(gè)概念,我們包含了它的所有鄰近概念和相關(guān)鏈接。

3.4知識(shí)集成

我們?cè)鰪?qiáng)了基于文本的RL代理,允許它聯(lián)合上下文化來自常識(shí)子圖和觀察表示的信息。我們稱這個(gè)步驟為知識(shí)整合。我們使用圖形編碼器和一個(gè)共同注意層對(duì)常識(shí)圖進(jìn)行編碼。

Graph encoder:

圖GtC的編碼方式如下:首先,我們使用預(yù)先訓(xùn)練的KG嵌入(Numberbatch)將節(jié)點(diǎn)集Vt映射到一個(gè)特征矩陣[e1t,…,e|Vt| t]∈f ×|V t * |。這里,eit∈R f是節(jié)點(diǎn)i∈V t *中單詞的(平均)嵌入量。接下來(Lu et al. 2017),我們還添加了一個(gè)哨點(diǎn)向量,以允許注意模塊不關(guān)注子圖中的任何特定節(jié)點(diǎn)。通過圖注意網(wǎng)絡(luò)(V eliˇckovi′c et al. 2018)在Gtc的節(jié)點(diǎn)之間傳遞消息,這些節(jié)點(diǎn)嵌入在每個(gè)時(shí)間步進(jìn)行更新,以使用多頭圖注意獲得{z1t,z2t···z|Vt| t},從而得到更好地捕捉子圖中節(jié)點(diǎn)之間概念關(guān)系的最終圖表示。

?Co-Attention:

?

?3.5選擇動(dòng)作

?

圖3:在任何給定的時(shí)間步驟中我們的框架決策的概述。該架構(gòu)包括以下組件(以顏色顯示):(a)對(duì)所有可接受動(dòng)作a∈a進(jìn)行編碼的動(dòng)作編碼器,(b)對(duì)觀察ot進(jìn)行編碼的觀察編碼器,(c)對(duì)動(dòng)態(tài)上下文Ct進(jìn)行編碼的上下文編碼器,(d)由代理提取的ConceptNet GtC的動(dòng)態(tài)常識(shí)子圖,(e)將文本觀察的信息與提取的常識(shí)子圖相結(jié)合的知識(shí)集成組件,以及(f)動(dòng)作選擇模塊。⊕表示連接操作符。

4.Experiments

在本節(jié)中,我們將報(bào)告我們?cè)赥WC游戲上的實(shí)驗(yàn)結(jié)果。鑒于TWC的質(zhì)量(正確性和完整性)已經(jīng)得到了評(píng)估(c.f第2.2節(jié)),這些實(shí)驗(yàn)主要集中在表明:(1)利用常識(shí)知識(shí)的代理比基于文本的代理在TWC上獲得更好的性能;(2)由于常識(shí)知識(shí)主體與人類行為的差異,TWC可以幫助常識(shí)知識(shí)的使用研究

實(shí)驗(yàn)設(shè)置:我們用(1)歸一化分?jǐn)?shù)(達(dá)到的分?jǐn)?shù)÷可達(dá)到的最大分?jǐn)?shù))來衡量各種代理的性能;(2)步數(shù)。每個(gè)特工訓(xùn)練100集,結(jié)果平均超過10次。遵循FirstTextWorld競(jìng)賽(Adolphs和Hofmann 2019)中的一種獲勝策略,我們使用優(yōu)勢(shì)行動(dòng)者-評(píng)論家框架(Mnih等人,2016)使用訓(xùn)練游戲中的獎(jiǎng)勵(lì)信號(hào)來訓(xùn)練代理。

4.1 RL Agents in TWC

我們?cè)赥WC清理游戲上評(píng)估我們的框架(如2.3節(jié)所述)。為了進(jìn)行比較,我們考慮在每個(gè)時(shí)間步隨機(jī)選擇一個(gè)動(dòng)作的隨機(jī)agent。根據(jù)RL代理可獲得的信息類型,我們考慮兩種類型的實(shí)驗(yàn)設(shè)置:(1)基于文本的RL代理可以訪問TWC環(huán)境提供的游戲當(dāng)前狀態(tài)的文本描述(觀察);(2)基于常識(shí)的RL代理可以同時(shí)訪問觀察和ConceptNet

Text-only Baseline Agents:

作為基線,我們選擇了各種僅利用觀察的基于SOTA文本的代理:(1)LM-NSP使用諸如BERT (Devlin等人)等語(yǔ)言模型。和GPT2 (Radford等人2019),將觀察和行動(dòng)對(duì)作為下句預(yù)測(cè)(NSP)任務(wù);(2) LSTM-A2C (Narasimhan, Kulkarni, and Barzilay 2015)使用觀察到的文本來選擇下一個(gè)動(dòng)作;(3) DRRN (He et al. 2016)利用觀察空間和行動(dòng)空間之間的相關(guān)性,實(shí)現(xiàn)更好的收斂;(4) KG-A2C (Ammanabrolu and Hausknecht 2020)使用從觀察中生成的游戲環(huán)境知識(shí)來指導(dǎo)agent的探索。對(duì)于這些基線,我們對(duì)文本使用GloVe (Pennington, Socher, and Manning 2014)嵌入。

這些基線的結(jié)果如表4所示。對(duì)于每個(gè)難度級(jí)別,我們報(bào)告:代理的表現(xiàn);解決游戲6的最佳步驟數(shù);還有人類的表現(xiàn)。GPT2-NSP和BERTNSP的性能表明,即使是強(qiáng)大的預(yù)先訓(xùn)練模型,如果不調(diào)優(yōu)該任務(wù),在這些常識(shí)性RL博弈中也有困難,因?yàn)樗鼈儧]有捕捉實(shí)體之間的常識(shí)性關(guān)系。諸如LSTM-A2C、DRRN和KG-A2C之類的基線相比LM-NSP基線具有競(jìng)爭(zhēng)優(yōu)勢(shì),因?yàn)樗鼈冇行У剡m應(yīng)與環(huán)境的順序交互,從而提高性能。在這些基線中,DRRN和KG-A2C的性能優(yōu)于LSTM-A2C,因?yàn)樗鼈兝脿顟B(tài)和動(dòng)作空間的結(jié)構(gòu)來有效地探索環(huán)境。

Commonsense-based agents:

我們通過兩種方式介紹常識(shí)。第一種方法是(Text + Numberbatch),將LSTM-A2C代理中的GloVE嵌入替換為Numberbatch (Nb)嵌入(Speer, Chin和Havasi 2017),這些嵌入在文本和ConceptNet上進(jìn)行了訓(xùn)練。這是一種用常識(shí)性知識(shí)增強(qiáng)文本信息的天真方法。表4的結(jié)果表明,引入Nb嵌入比GloV e嵌入獲得了明顯的增益(在簡(jiǎn)單游戲中平均3步,在中等水平游戲中平均7步)。

為了顯式地使用常識(shí)性知識(shí),我們使用3.2節(jié)中概述的三種不同機(jī)制從ConceptNet中檢索相關(guān)信息:(DC、CDC和NG)。這些方法從ConceptNet中檢索相關(guān)子圖中的概念和結(jié)構(gòu),并利用我們的共同注意機(jī)制(第3.4節(jié))。不同檢索機(jī)制下的代理性能比較如圖5所示。結(jié)果表明,CDC在其他機(jī)制中表現(xiàn)最好,特別是與DC相比。不同于DC,它包含了從ConceptNet中觀察到的概念之間的所有鏈接,CDC限制了觀察到的對(duì)象和容器之間的鏈接。從ConceptNet中選擇相關(guān)鏈接可以提高代理的性能。

鑒于CDC性能最好,我們將基于文本的模型與CDC增強(qiáng)的常識(shí)知識(shí)的結(jié)果與其他基線進(jìn)行比較。表4顯示了使用GloV e或Nb嵌入初始化并使用常識(shí)知識(shí)增強(qiáng)的基于文本的代理的結(jié)果。我們發(fā)現(xiàn)在簡(jiǎn)單和中等水平的游戲中,基于常識(shí)的RL代理比基于文本的RL代理表現(xiàn)得更好。這并不奇怪,因?yàn)檫@些實(shí)例大多涉及選擇一個(gè)對(duì)象并將其放在同一房間的容器中?;谖谋竞统WR(shí)的RL代理在難度關(guān)卡中都很困難,因?yàn)檫@些游戲擁有多個(gè)房間和多個(gè)對(duì)象和容器。我們還注意到,基于常識(shí)的RL代理所采取的平均步驟數(shù)明顯低于其他代理,因?yàn)樗行У厥褂贸WR(shí)知識(shí)來排除不合理的操作。這證明了TWC是一個(gè)很有前途的試驗(yàn)臺(tái),常識(shí)知識(shí)可以幫助它.

結(jié)果表明,TWC仍有很大的應(yīng)用空間在檢索和組合知識(shí)方面的證明通過環(huán)境的觀察和反饋sample-efficient方式。作為展示的起點(diǎn)我們將檢索機(jī)制切換為從ConceptNet手動(dòng)選擇的信息。我們通過提取ConceptNet中實(shí)體之間的常識(shí)路徑(對(duì)應(yīng)于TWC游戲中的對(duì)象及其目標(biāo)位置)來手動(dòng)檢索相關(guān)的常識(shí)知識(shí)。手動(dòng)子圖包括對(duì)象與其位置之間的所有相關(guān)最短路徑,在兩個(gè)節(jié)點(diǎn)的2跳鄰居擴(kuò)展范圍內(nèi)。由于提取的子圖可能非常大,即使是簡(jiǎn)單的游戲,進(jìn)一步修剪執(zhí)行去噪。我們強(qiáng)調(diào)手工注釋可能容易出錯(cuò),或者導(dǎo)致缺少潛在有用信息的手工子圖。因此,手工圖不應(yīng)該被視為黃金標(biāo)準(zhǔn)。然而,我們正在探索其他人工檢索過程,以了解更好的常識(shí)性檢索方法是否能在未來帶來改進(jìn)。在表4中,使用手動(dòng)圖增強(qiáng)的代理比其他自動(dòng)檢索機(jī)制表現(xiàn)更好(在簡(jiǎn)單和中等級(jí)別上平均減少2 - 5步)。圖4顯示了Textonly、Text+Commonsense和Text+Manual三個(gè)智能體在三個(gè)難度水平上的訓(xùn)練曲線。我們注意到,注入常識(shí)知識(shí)可以在代理所采取的步驟數(shù)量和最終得分方面實(shí)現(xiàn)更快的收斂。我們發(fā)現(xiàn),提取的手工子圖并不完美,從中等和硬水平的訓(xùn)練曲線可以看出

人類在TWC上的表現(xiàn):

我們還展示了TWC中人類性能的結(jié)果(在第2.4節(jié)中概述)。表4中的O和H列(每個(gè)條件兩個(gè))顯示了這些結(jié)果。對(duì)這些數(shù)字的快速比較揭示了兩個(gè)主要結(jié)果:(1)在所有3種情況下,人類的表現(xiàn)H非常接近于最佳步數(shù)O;(2) H與表中所有其他代理(包括帶有手動(dòng)圖的代理)之間存在顯著的凈空空間。這說明,要解決這類問題,對(duì)常識(shí)知識(shí)的有效檢索和編碼仍有很大的進(jìn)步;TWC可以刺激進(jìn)一步的研究。

4.2 Generalization

Table 4報(bào)告了在訓(xùn)練時(shí)屬于同一分布(IN)的測(cè)試游戲的結(jié)果,以及從不同的實(shí)體集(OUT)生成的游戲的結(jié)果。我們?cè)谶@兩種情況下都看到了類似的趨勢(shì)。在所有情況下,常識(shí)增強(qiáng)的代理都優(yōu)于純文本代理。然而,所有的代理,包括那些利用常識(shí)知識(shí)的代理,從in到OUT分布表現(xiàn)出類似的性能下降。這與在其他NLP任務(wù)(如文本蘊(yùn)涵)中使用知識(shí)圖形成對(duì)比,其中知識(shí)圖已被證明對(duì)基礎(chǔ)(培訓(xùn)和測(cè)試)環(huán)境的變化具有健壯性(Kapanipathi等人,2020;陳等人。2018)。設(shè)計(jì)對(duì)這些變化具有健壯性的知識(shí)支持代理的任務(wù)是TWC可以評(píng)估的社區(qū)的另一個(gè)公開挑戰(zhàn)。

結(jié)果總結(jié):

我們的研究結(jié)果表明,在TWC環(huán)境中,通過常識(shí)知識(shí)增強(qiáng)的代理比基于文本的代理表現(xiàn)出更好的性能。基于人工檢索子圖、最優(yōu)步驟和人工性能數(shù)字的實(shí)驗(yàn),我們表明TWC有足夠的空間進(jìn)行未來的研究:(1)檢索更多與KBs相關(guān)的常識(shí)知識(shí);(2)開發(fā)這些知識(shí)的新媒介/技術(shù)。

5.相關(guān)工作

RL Environments and TextWorld:

RL環(huán)境和TextWorld:游戲是研究基礎(chǔ)語(yǔ)言以及如何利用文本信息進(jìn)行控制的豐富工具。最近的工作是探索基于文本的RL游戲,學(xué)習(xí)《文明vii》的策略,多用戶地牢游戲(Narasimhan, Kulkarni和Barzilay 2015)等。我們的工作建立在TextWorld (C?té et al. 2018)沙盒學(xué)習(xí)環(huán)境之上。自從它引入以來,已經(jīng)有大量的工作致力于改進(jìn)該基準(zhǔn)的性能。TextWorld上最近的一項(xiàng)工作是學(xué)習(xí)代理人信仰的符號(hào)表示。值得注意的是,Ammanabrolu和Riedl(2019)提出了KG-DQN, Adhikari等人(2020)提出了GATA。這兩種方法都將游戲狀態(tài)表示為信念圖。這張圖是用來修剪行動(dòng)空間,以一種不同于我們使用常識(shí)的工作方式進(jìn)行有效探索。LeDeepChef系統(tǒng)(Adolphs和Hofmann 2019)也與我們的工作有關(guān)。他們通過FreeBase中最常見的食物列表來監(jiān)督模型,從而實(shí)現(xiàn)轉(zhuǎn)移(Bollacker et al. 2008),允許他們的代理推廣到迄今為止從未見過的食譜和配料。Zahavy等人(2018)提出了動(dòng)作消除深度q -網(wǎng)絡(luò)(AE-DQN),它學(xué)習(xí)預(yù)測(cè)文本冒險(xiǎn)游戲《Zork》中的無效動(dòng)作。這個(gè)網(wǎng)絡(luò)允許模型有效地處理大的動(dòng)作空間。在我們的工作中使用常識(shí)性知識(shí)可能會(huì)產(chǎn)生降低不可信行為權(quán)重的同樣效果。

有效推廣推廣的外部知識(shí):在推廣推廣方法中加入先驗(yàn)或外部知識(shí)的嘗試很少。值得注意的是,Garnelo、Arulkumaran和Shanahan(2016)提出了深度符號(hào)RL,將符號(hào)AI的各方面與神經(jīng)網(wǎng)絡(luò)和RL結(jié)合起來,作為引入常識(shí)先驗(yàn)的一種方式。還有關(guān)于政策轉(zhuǎn)移的研究(Bianchi et al. 2015),研究在一個(gè)環(huán)境中獲得的知識(shí)如何在另一個(gè)環(huán)境中重用;體驗(yàn)回放(Wang et al. 2016;Lin 1992, 1993),該研究研究了如何存儲(chǔ)agent以前的經(jīng)驗(yàn),然后在以后重用。在本文中,我們使用常識(shí)知識(shí)作為一種方法來提高基于文本的RL代理的樣本效率。據(jù)我們所知,目前還沒有研究如何使用常識(shí)來提高RL代理的效率。最相關(guān)的之前工作是Martin、Sood和Riedl(2018),他們使用常識(shí)性規(guī)則構(gòu)建了可以玩桌面角色扮演游戲的代理。然而,與我們的工作不同的是,這項(xiàng)工作中的常識(shí)性規(guī)則是人工設(shè)計(jì)的.

利用常識(shí):最近,在NLP中有許多將常識(shí)用于QA、NLI等的工作。(Sap等,2019;Talmor等人,2018年)。許多這些方法都試圖通過減少?gòu)腃onceptNet檢索到的噪聲來有效利用它(Lin等人2019;Kapanipathi et al。2020)。這也是TWC的一個(gè)關(guān)鍵挑戰(zhàn)。

6.結(jié)論

我們創(chuàng)建了一個(gè)新的環(huán)境(TWC)來評(píng)估RL代理在需要常識(shí)的文本游戲中的表現(xiàn)。我們引入了一個(gè)跟蹤世界狀態(tài)的代理框架;利用順序上下文從知識(shí)圖中動(dòng)態(tài)檢索相關(guān)常識(shí)知識(shí);并學(xué)會(huì)將這兩種不同的模式結(jié)合起來。與純文本模型相比,我們的具有常識(shí)的代理以更高的效率和更少的探索實(shí)現(xiàn)了目標(biāo),從而顯示了我們的新環(huán)境和模型的價(jià)值。因此,我們相信我們的TWC環(huán)境提供了有趣的挑戰(zhàn),可以有效地用于推動(dòng)該領(lǐng)域的進(jìn)一步研究。

總結(jié)

以上是生活随笔為你收集整理的Text-based RL Agents with Commonsense Knowledge:New Challenges, Environments and Baselines的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 男人天堂最新网址 | 欧美破处女 | 国产男女猛烈无遮挡免费视频动漫 | 毛片网站免费在线观看 | 国产成人a∨ | 欧美激情电影一区二区 | 超碰97干 | 国产精视频 | 国产日韩欧美在线 | 国产原创视频在线观看 | 黄色片中文字幕 | 国产男女无套免费网站 | 成人极品| 影音先锋日韩资源 | 丰满大乳露双乳呻吟 | 欧美日韩一区二区三区国产精品成人 | 久久在线观看 | 色噜噜一区二区 | 一本色道久久综合亚洲精品 | 年代下乡啪啪h文 | 激情在线网站 | 色视频网站在线观看 | 好吊视频一区二区三区 | 日韩 欧美 中文 | 欧美三级理论片 | 欧美成人午夜影院 | 韩国jizz| 成人3d动漫在线观看 | 日日操夜夜爱 | 亚洲国产中文字幕在线观看 | 亚洲天堂一区在线 | 男人午夜网站 | 黄色免费片 | 国产精品久久久久久久久 | 少妇高潮大叫好爽喷水 | 欧美午夜精品理论片a级按摩 | 五月婷婷天 | 国产伊人自拍 | 91高跟黑色丝袜呻吟在线观看 | 丁香网五月天 | 成年人性生活视频 | 精品国产一区二区三区久久久久久 | 久久青青草视频 | 波多野结衣在线观看一区 | 国产日韩欧美在线播放 | 日韩国产一区 | 狠狠爱夜夜爱 | 精品一区二区三区国产 | 国产一二三区精品 | 国产又粗又长又大视频 | 激情欧美一区二区 | 中文在线观看视频 | 涩色网 | 亚洲欧洲色| 美女张开腿流出白浆 | 亚洲自拍偷拍一区 | 来吧亚洲综合网 | 国产毛片网| 久久机热| 国产精品性色 | 韩日成人 | 白石茉莉奈黑人 | mm131国产精品 | 午夜爽爽爽视频 | 在线观看国产一区二区三区 | 毛片日本| 蜜桃久久久久久 | 国产成人在线播放视频 | 国产拍拍拍拍拍拍拍拍拍拍拍拍拍 | 国产成人高清 | 69av在线| 久久日视频 | 俄罗斯黄色录像 | 丁香亚洲| 国产黄频在线观看 | 欧美日韩1区 | 国产第六页 | 国产资源在线播放 | 欧美亚洲另类在线 | 成人av自拍| 国产内射一区 | 亚洲视频456 | 国产一区二区三区免费播放 | 欧美综合在线视频 | a免费视频 | 男女搞鸡网站 | 性色AV无码久久一区二区三 | 欧美国产一区二区三区 | 亚洲一区二区天堂 | 午夜寂寞影视 | 欧美一区二区三区四区五区六区 | 性色欲情网站iwww九文堂 | 国产精品扒开腿做爽爽爽视频 | 成年人免费观看网站 | 三级精品在线观看 | 少妇久久精品 | 日本乱子伦xxxx| 中文字幕高清av | 韩国美女一区二区 |