NeurIPS 2020 所有RL papers全扫荡
文 | 微塵-黃含馳
源 | 知乎
論文列表
1.《Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model》
關(guān)鍵詞:model-based reinforcement learning, minimaxity, planning, policy evaluation, instance-dependent guarantees, generative model
從理論上研究了樣本復(fù)雜度和統(tǒng)計(jì)準(zhǔn)確性之間的權(quán)衡取舍。得出了基于模型的策略評(píng)估的改進(jìn)(instance-dependent)保證,據(jù)我們所知,該工作提供了生成模型中第一個(gè)極大極小最優(yōu)保證,可容納the entire range of sample sizes.
2.《Deep Reinforcement and InfoMax Learning》
關(guān)鍵詞:predictive of the future,InfoMax Learning,representations
我們的工作基于以下假設(shè):representations可以預(yù)測(cè)未來(lái)狀態(tài)的屬性的無(wú)模型的智能體,將更有能力解決和適應(yīng)新的RL問(wèn)題。為了檢驗(yàn)這一假設(shè),我們引入了一個(gè)基于Deep InfoMax(DIM)的目標(biāo),該目標(biāo)通過(guò)最大化其內(nèi)部表示的連續(xù)時(shí)間步長(zhǎng)間的互信息來(lái)訓(xùn)練智能體預(yù)測(cè)未來(lái)。我們從馬爾科夫鏈混合時(shí)間的角度對(duì)方法的收斂特性進(jìn)行了直觀分析,并認(rèn)為互信息下限的收斂性與過(guò)渡模型的逆絕對(duì)譜隙有關(guān)。我們?cè)趲讉€(gè)合成環(huán)境中測(cè)試了新方法,它成功地學(xué)習(xí)了對(duì)未來(lái)有預(yù)測(cè)性的表示。最后,我們用temporal DIM目標(biāo)增強(qiáng)了C51,一個(gè)強(qiáng)大的RL基線,并在持續(xù)學(xué)習(xí)任務(wù)和最近引入的Procgen環(huán)境上展示了改進(jìn)的性能。
3.《Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage Decomposition》
關(guān)鍵詞:Model-Free RL
我們研究了在具有S個(gè)狀態(tài)、A個(gè)動(dòng)作和episode 長(zhǎng)度為H的finite-horizon episodic馬爾科夫決策過(guò)程(MDPs)環(huán)境下的強(qiáng)化學(xué)習(xí)問(wèn)題,提出了一種有不錯(cuò)理論保證的無(wú)模型算法UCB-Advantage。UCB-Advantage實(shí)現(xiàn)了較低的局部切換成本,并適用于并發(fā)強(qiáng)化學(xué)習(xí),它在[Bai等,2019]的最新結(jié)果基礎(chǔ)上進(jìn)行了改進(jìn)。
4.《Effective Diversity in Population Based Reinforcement Learning》
關(guān)鍵詞:Population、exploration、diversity
探索是強(qiáng)化學(xué)習(xí)中的一個(gè)關(guān)鍵問(wèn)題,因?yàn)橹悄荏w只能從他們?cè)诃h(huán)境中獲得的數(shù)據(jù)中學(xué)習(xí)。考慮到這一點(diǎn),維持一個(gè)智能體群體是一種有吸引力的方法,因?yàn)樗试S收集具有多樣化行為的數(shù)據(jù)。這種行為多樣性通常通過(guò)多目標(biāo)損失函數(shù)來(lái)鼓勵(lì)。然而,這些方法通常利用基于對(duì)偶距離的平均場(chǎng)更新,這使它們很容易受到循環(huán)行為和增加冗余的影響。此外,明確鼓勵(lì)多樣性往往對(duì)優(yōu)化已有成果的行為進(jìn)行獎(jiǎng)勵(lì)有不利影響。因此,獎(jiǎng)勵(lì)-多樣性的權(quán)衡通常依賴于啟發(fā)式方法。最后,這類方法需要的行為表示通常是手工制作的和特定領(lǐng)域的。在本文中,我們介紹了一種同時(shí)優(yōu)化一個(gè)種群所有成員的方法。我們沒(méi)有使用對(duì)偶距離,而是測(cè)量整個(gè)種群在behavioral manifold中的體積,這由任務(wù)無(wú)關(guān)的行為(behavioral)嵌入定義。此外,新算法Diversity via Determinants (DvD)在訓(xùn)練過(guò)程中使用在線學(xué)習(xí)技術(shù)調(diào)整多樣性程度。我們介紹了DvD的進(jìn)化和基于梯度的實(shí)例,并表明當(dāng)不需要更好的探索時(shí),它們可以有效改善探索而不降低性能。
5.《A Boolean Task Algebra for Reinforcement Learning》
關(guān)鍵詞:Boolean Task Algebra、multi-task
我們提出了一個(gè)在任務(wù)空間上定義布爾代數(shù)的框架。這使得我們可以用一組基礎(chǔ)任務(wù)的否定、disjunction和連接來(lái)制定新任務(wù)。文章表明,通過(guò)學(xué)習(xí)面向目標(biāo)的價(jià)值函數(shù)和限制任務(wù)的過(guò)渡動(dòng)態(tài),智能體可以在不進(jìn)一步學(xué)習(xí)的情況下解決這些新任務(wù)。我們證明,通過(guò)以特定的方式組合這些價(jià)值函數(shù),我們立即恢復(fù)了布爾代數(shù)下可表達(dá)的所有任務(wù)的最優(yōu)策略。我們?cè)趦蓚€(gè)領(lǐng)域(包括一個(gè)需要函數(shù)逼近的高維視頻游戲環(huán)境)驗(yàn)證了新方法,實(shí)驗(yàn)中智能體首先學(xué)習(xí)一組基本技能,然后將它們組合起來(lái),解決超指數(shù)數(shù)量的新任務(wù)。
6.《Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control》
沒(méi)找到paper
7.《Multi-task Batch Reinforcement Learning with Metric Learning》
關(guān)鍵詞:Multi-task,Batch RL
我們解決了多任務(wù)Batch RL問(wèn)題。給定從不同任務(wù)中收集的多個(gè)數(shù)據(jù)集,我們訓(xùn)練一個(gè)多任務(wù)策略,使其在從相同分布中采樣的未見(jiàn)任務(wù)中表現(xiàn)良好。為了表現(xiàn)良好,策略必須通過(guò)建模其對(duì)狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的依賴性,從收集到的transitions中推斷出任務(wù)身份。由于不同數(shù)據(jù)集可能具有差異較大的狀態(tài)-動(dòng)作分布,任務(wù)推理模塊可能會(huì)學(xué)習(xí)忽略獎(jiǎng)勵(lì),只將狀態(tài)-動(dòng)作對(duì)虛假地與任務(wù)身份相關(guān)聯(lián),從而導(dǎo)致測(cè)試時(shí)間性能不佳。為了魯棒化任務(wù)推理,我們提出了一種新型的triplet loss的應(yīng)用。為了挖掘hard negative examples,我們通過(guò)近似訓(xùn)練任務(wù)的獎(jiǎng)勵(lì)函數(shù) 來(lái)重新標(biāo)記訓(xùn)練任務(wù)的transitions。當(dāng)我們?cè)试S在未見(jiàn)任務(wù)上進(jìn)行進(jìn)一步的訓(xùn)練時(shí),使用之前訓(xùn)練了的策略作為初始化,與隨機(jī)初始化的策略相比,收斂速度顯著加快(高達(dá)80%的改進(jìn),并且跨越5種不同的Mujoco任務(wù)分布)。我們將新方法命名為MBML(Multi-task Batch RL with Metric Learning)。
7.《On the Stability and Convergence of Robust Adversarial Reinforcement Learning: A Case Study on Linear Quadratic Systems》
沒(méi)找到文章
8.《Towards Playing Full MOBA Games with Deep Reinforcement Learning》
沒(méi)找到文章,不過(guò)有其他相關(guān)文章的解讀https://zhuanlan.zhihu.com/p/99210924
9.《Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and Tighter Regret Bounds for the Non-Episodic Setting》
關(guān)鍵詞:FMDPs、Non-Episodic
我們研究non-episodic factored馬爾科夫決策過(guò)程(FMDPs)中的強(qiáng)化學(xué)習(xí)。我們 1.提出了兩種近乎最優(yōu)的、oracle-efficient 的FMDPs算法;2.為FMDPs提出了一個(gè)更嚴(yán)格的連通性度量——factored span,并證明了一個(gè)取決于factored span而不是直徑D的下界。為減小下界和上界之間的差距,我們提出了對(duì)REGAL.C算法的改編,其后悔界取決于factored span。我們的oracle-efficient算法在計(jì)算機(jī)網(wǎng)絡(luò)管理模擬上優(yōu)于之前提出的接近最優(yōu)的算法。
10.《Promoting Coordination through Policy Regularization in Multi-Agent Deep Reinforcement Learning》
關(guān)鍵詞:MARL、Policy regularization、Coordination
在MARL中,發(fā)現(xiàn)成功的集體行為是具有挑戰(zhàn)性的,因?yàn)樗枰剿饕粋€(gè)聯(lián)合行動(dòng)空間,這個(gè)空間隨著智能體數(shù)量的增加而呈指數(shù)增長(zhǎng)。雖然獨(dú)立智能體探索的可操作性很吸引人,但這種方法在需要詳細(xì)群體策略的任務(wù)上卻失敗了。我們認(rèn)為,協(xié)調(diào)智能體的策略可以指導(dǎo)探索,我們研究了促進(jìn)這種歸納偏置的技術(shù),提出了兩種策略正則化方法——基于智能體間行動(dòng)可預(yù)測(cè)性的TeamReg,以及依賴于同步行為選擇的CoachReg。我們?cè)谒膫€(gè)具有挑戰(zhàn)性的連續(xù)控制任務(wù)上對(duì)每種方法進(jìn)行評(píng)估,這些任務(wù)具有稀疏獎(jiǎng)勵(lì),且需要不同程度的協(xié)調(diào)。實(shí)驗(yàn)中我們發(fā)現(xiàn),相比于其他baselines,新方法對(duì)超參數(shù)的變化更加穩(wěn)健。同時(shí),新方法可成功協(xié)調(diào)不同智能體的行為,顯著提高了合作性多智能體問(wèn)題的性能,并且當(dāng)智能體數(shù)量增加時(shí),新方法可以很好地?cái)U(kuò)展。
11.《Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning》
關(guān)鍵詞:Off-policy、Confounding-Robust、olicy Evaluation
batch rl中從觀測(cè)數(shù)據(jù)中對(duì)順序決策策略進(jìn)行Off-policy評(píng)估是必要的。然而,未觀察到的變量會(huì)混淆觀察到的行動(dòng),使得新策略的精確評(píng)估不可能。為此,我們開(kāi)發(fā)了一種穩(wěn)健的方法,在給定數(shù)據(jù)的情況下,通過(guò)敏感度模型,在infinite-horizon問(wèn)題中估計(jì)給定策略的(不可識(shí)別的)價(jià)值的尖銳邊界,這些數(shù)據(jù)來(lái)自另一個(gè)具有未觀測(cè)的 confounding。我們考慮了靜止的或 baseline unobserved confounding,并通過(guò)優(yōu)化所有與新的部分識(shí)別估計(jì)方程和敏感性模型一致的靜止?fàn)顟B(tài)占用率的集合來(lái)計(jì)算邊界。當(dāng)我們收集更多的confounding數(shù)據(jù)時(shí),我們證明了對(duì) sharp bounds的收斂性。雖然檢查set membership是一個(gè)線性規(guī)劃,但support函數(shù)是由一個(gè)困難的非凸優(yōu)化問(wèn)題給出的。我們開(kāi)發(fā)了基于非凸投射梯度下降的近似方法,并以經(jīng)驗(yàn)證明了結(jié)果的邊界。
12.《Learning Retrospective Knowledge with Reverse Reinforcement Learning》
關(guān)鍵詞:Retrospective Knowledge、Reverse RL
我們提出了一種逆強(qiáng)化學(xué)習(xí)(Reverse RL)的方法來(lái)表示Retrospective Knowledge。一般的價(jià)值函數(shù)(GVF)在表示預(yù)測(cè)性知識(shí)方面(即回答關(guān)于未來(lái)可能結(jié)果的問(wèn)題,如 “如果我們開(kāi)車從A到B,預(yù)計(jì)會(huì)消耗多少燃料?”)取得了巨大成功。然而,GVFs無(wú)法回答 “如果一輛汽車在時(shí)間t時(shí)在B處,我們期望它耗費(fèi)多少燃料?”這樣的問(wèn)題。要回答此問(wèn)題,我們需要知道那輛車什么時(shí)候加滿了油,以及是如何到達(dá)B的,由于這類問(wèn)題強(qiáng)調(diào)的是過(guò)去可能發(fā)生的事件對(duì)現(xiàn)在的影響,我們將其答案稱為Retrospective Knowledge。在本文中,我們展示了如何用Reverse GVF來(lái)表示回顧性知識(shí),它是通過(guò)Reverse RL來(lái)訓(xùn)練的。我們用經(jīng)驗(yàn)證明了逆GVFs在表征學(xué)習(xí)和異常檢測(cè)中的效用。
13.《Combining Deep Reinforcement Learning and Search for Imperfect-Information Games》
關(guān)鍵詞:Games theory、Imperfect-Information
在訓(xùn)練和測(cè)試時(shí)進(jìn)行DRL和搜索的結(jié)合是一個(gè)強(qiáng)大的paradigm,它導(dǎo)致了單智能體設(shè)置和完美信息游戲的許多成功案例,其中最成功就是AlphaZero。但是,這種形式的算法無(wú)法應(yīng)付不完美的信息游戲。本文介紹了ReBeL,這是一個(gè)用于self-play RL和搜索不完全信息游戲的通用框架。在更簡(jiǎn)單的完美信息游戲環(huán)境中,ReBeL簡(jiǎn)化為類似于AlphaZero的算法。結(jié)果表明,ReBeL導(dǎo)致基準(zhǔn)不完全信息游戲中的可利用性較低,并在heads-up no-limit德州撲克中獲得超人表現(xiàn),同時(shí)使用的領(lǐng)域知識(shí)比以前的任何撲克AI都要少。我們還證明了ReBeL在 tabular settings的兩人零和游戲中收斂到Nash平衡。
14.《Reinforced Molecular Optimization with Neighborhood-Controlled Grammars》
沒(méi)找到文章
15.《POMO: Policy Optimization with Multiple Optima for Reinforcement Learning》
沒(méi)找到文章
16.《Self-Paced Deep Reinforcement Learning》
關(guān)鍵詞:Curriculum Reinforcement Learning (CRL) 、reasoning、automatic curriculum generation
課程強(qiáng)化學(xué)習(xí)(Curriculum Reinforcement Learning,CRL)通過(guò)在整個(gè)學(xué)習(xí)過(guò)程中讓智能體接觸到一系列量身定制的任務(wù),提高智能體的學(xué)習(xí)速度和穩(wěn)定性。盡管在經(jīng)驗(yàn)上取得了成功,但CRL中的一個(gè)未決問(wèn)題是如何為給定的強(qiáng)化學(xué)習(xí)(RL)智能體自動(dòng)生成課程以避免人工設(shè)計(jì)。在本文中,我們提出了一個(gè)答案,將課程生成解釋為一個(gè)推理問(wèn)題,其中任務(wù)上的分布被逐步學(xué)習(xí)以接近目標(biāo)任務(wù)。這種方法導(dǎo)致了一種自動(dòng)的課程生成,它的pace由智能體控制,控制過(guò)程具有堅(jiān)實(shí)的理論動(dòng)機(jī),并且很容易與DRL算法耦合。在實(shí)驗(yàn)中,新算法生成的課程顯著提高了在幾種環(huán)境和DRL算法中的學(xué)習(xí)性能,與最先進(jìn)的CRL算法相匹配或優(yōu)于后者。
17.《Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning》
關(guān)鍵詞:exploration、Model-Based RL
基于模型的強(qiáng)化學(xué)習(xí)算法和概率動(dòng)力學(xué)模型是數(shù)據(jù)效率最高的學(xué)習(xí)方法之一。這通常歸因于他們區(qū)分認(rèn)知和不確定不確定性的能力。但是,雖然大多數(shù)算法在學(xué)習(xí)模型時(shí)都將這兩個(gè)不確定性區(qū)分開(kāi)來(lái),但在優(yōu)化策略時(shí)卻忽略了它。在本文中,我們證明了忽略認(rèn)知不確定性會(huì)導(dǎo)致貪婪算法無(wú)法充分探索。反過(guò)來(lái),我們提出了一種實(shí)用的樂(lè)觀探索算法(H-UCRL),該算法利用幻覺(jué)輸入(hallucinated inputs)擴(kuò)大了輸入空間,該幻覺(jué)輸入可施加模型中認(rèn)知不確定性所能提供的盡可能多的控制。我們分析了這種情況,并為校準(zhǔn)良好的模型構(gòu)建了一個(gè)general regret bound?;谶@一理論基礎(chǔ),我們展示了如何將樂(lè)觀探索與最新的強(qiáng)化學(xué)習(xí)算法和不同的概率模型輕松地結(jié)合在一起。我們的實(shí)驗(yàn)表明,當(dāng)存在對(duì)行動(dòng)的懲罰時(shí)(這對(duì)于其他現(xiàn)有的基于模型的強(qiáng)化學(xué)習(xí)算法來(lái)說(shuō)十分困難),樂(lè)觀探索顯著加快了學(xué)習(xí)速度。
18.《Weakly-Supervised Reinforcement Learning for Controllable Behavior》
關(guān)鍵詞:Weakly-Supervised
Q:我們是否可以將任務(wù)空間限制為語(yǔ)義上有意義的任務(wù)?
A:在這項(xiàng)工作中,我們介紹了一個(gè)框架,該框架使用弱監(jiān)督自動(dòng)將任務(wù)的語(yǔ)義有意義的子空間與無(wú)意義的“chaff”任務(wù)的巨大空間自動(dòng)區(qū)分開(kāi)。我們表明,該學(xué)習(xí)的子空間能夠進(jìn)行有效探索,并提供捕獲狀態(tài)之間距離的表示。在各種具有挑戰(zhàn)性的,基于視覺(jué)的連續(xù)控制問(wèn)題上,我們的方法可帶來(lái)可觀的性能提升,尤其當(dāng)環(huán)境復(fù)雜性不斷提高時(shí)。
19.《MOReL: Model-Based Offline Reinforcement Learning》
關(guān)鍵詞:Model-Based RL、offline RL
在offline RL中,目標(biāo)是僅基于與環(huán)境發(fā)生歷史交互的數(shù)據(jù)集學(xué)習(xí)高回報(bào)的策略。離線訓(xùn)練RL策略的能力可以大大擴(kuò)展RL的適用性,數(shù)據(jù)效率和實(shí)驗(yàn)速度。offline RL中的先前工作幾乎僅限于無(wú)模型RL方法。在這項(xiàng)工作中,我們提出MOReL,這是用于基于模型的offline RL的算法框架。該框架包括兩個(gè)步驟:(a)使用離線數(shù)據(jù)集學(xué)習(xí)悲觀的MDP(P-MDP);(b)在該P(yáng)-MDP中學(xué)習(xí)接近最優(yōu)的策略。獲知的P-MDP具有以下特性:對(duì)于任何策略,實(shí)際環(huán)境中的性能大約都受到P-MDP中性能的限制。這使其可以作為策略評(píng)估和學(xué)習(xí)目的的良好替代,并且可以克服基于模型的RL(如model exploitation)的常見(jiàn)陷阱。從理論上講,我們顯示MOReL對(duì)于offline RL是幾乎minimax最優(yōu)的。通過(guò)實(shí)驗(yàn),我們顯示MOReL在經(jīng)過(guò)廣泛研究的離線RL基準(zhǔn)測(cè)試中達(dá)到或超過(guò)了最新結(jié)果。此外,MOreL的模塊化設(shè)計(jì)使其相關(guān)組件的未來(lái)發(fā)展(如,生成建模,不確定性估計(jì),規(guī)劃等)可直接轉(zhuǎn)化為offline RL的發(fā)展。
20.《Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension》
關(guān)鍵詞:Function Approximation
值函數(shù)逼近已證明在強(qiáng)化學(xué)習(xí)(RL)中取得了驚人的經(jīng)驗(yàn)成功。然而,盡管最近在發(fā)展具有線性函數(shù)逼近的RL理論上取得了一些進(jìn)展,但對(duì)通用函數(shù)逼近方案的理解仍然很不足。在本文中,我們建立了一種通用值函數(shù)近似的可證明有效的RL算法。我們的理論使用線性值函數(shù)逼近來(lái)概括RL的最新進(jìn)展,且新算法是無(wú)模型的,我們也沒(méi)對(duì)環(huán)境做出明確假設(shè)。
21.《Security Analysis of Safe and Seldonian Reinforcement Learning Algorithms》
沒(méi)找到文章
22.《Model-based Adversarial Meta-Reinforcement Learning》
關(guān)鍵詞:meta-RL、Adversarial、gradient estimator
元強(qiáng)化學(xué)習(xí)(meta-RL)旨在從多個(gè)訓(xùn)練任務(wù)中學(xué)習(xí)有效地適應(yīng)未曾見(jiàn)過(guò)的測(cè)試任務(wù)的能力。盡管取得了成功,但已知現(xiàn)有的meta-RL算法對(duì)任務(wù)分配轉(zhuǎn)移很敏感。當(dāng)測(cè)試任務(wù)分配與訓(xùn)練任務(wù)分配不同時(shí),性能可能會(huì)大大降低。為了解決這個(gè)問(wèn)題,本文提出了基于模型的對(duì)抗性元強(qiáng)化學(xué)習(xí)(AdMRL),我們旨在最大程度地減少最壞情況的次優(yōu)gap-最優(yōu)回報(bào)與算法適應(yīng)后獲得的回報(bào)間的gap -使用基于模型的方法來(lái)處理一系列任務(wù)中的所有任務(wù)。我們提出了一個(gè)minimax目標(biāo),并通過(guò)在固定任務(wù)上學(xué)習(xí)動(dòng)力學(xué)模型與在當(dāng)前模型的對(duì)抗任務(wù)之間進(jìn)行交替來(lái)優(yōu)化它-該任務(wù)所導(dǎo)致的策略在最大程度上次優(yōu)。假設(shè)任務(wù)族已參數(shù)化,我們通過(guò)隱函數(shù)定理推導(dǎo)次優(yōu)梯度相對(duì)于任務(wù)參數(shù)的公式,并說(shuō)明如何通過(guò)共軛梯度法和新穎的方法有效地實(shí)現(xiàn)梯度估計(jì)器 REINFORCE估算器。我們?cè)趲讉€(gè)連續(xù)的控制基準(zhǔn)上評(píng)估了新方法,并證明了它在所有任務(wù)的最壞情況下的性能,對(duì) out-of-distribution任務(wù)的泛化能力以及在現(xiàn)有狀態(tài)下的訓(xùn)練和測(cè)試時(shí)段樣本效率方面的功效。
23.《Safe Reinforcement Learning via Curriculum Induction》
關(guān)鍵詞:Curriculum learning、safe RL
在對(duì)安全性要求嚴(yán)格的應(yīng)用中, autonomous agents可能需要在錯(cuò)誤可能造成巨大損失的環(huán)境中學(xué)習(xí)。在這種情況下,智能體要在學(xué)習(xí)之后和學(xué)習(xí)過(guò)程中安全行事。為達(dá)到此目的,現(xiàn)有的安全強(qiáng)化學(xué)習(xí)方法使智能體依賴先驗(yàn)條件,從而有可能避免探索過(guò)程中的危險(xiǎn)情況,但是先驗(yàn)條件固有的概率保證和平滑假設(shè)在許多場(chǎng)景如 自動(dòng)駕駛中均不可行。本文提出了一種受人類教學(xué)啟發(fā)的替代方法,其中智能體在自動(dòng)指導(dǎo)員的指導(dǎo)下進(jìn)行學(xué)習(xí),從而避免了在學(xué)習(xí)過(guò)程中違反約束。在此模型中,我們引入的監(jiān)視器既不需要知道智能體在學(xué)習(xí)的任務(wù)上如何做好,也不需要知道環(huán)境如何工作。相反,它具有重置控制器庫(kù),當(dāng)智能體開(kāi)始出現(xiàn)危險(xiǎn)行為時(shí)可激活重置控制器,以防止智能體造成損壞。至關(guān)重要的是,在哪種情況下使用哪種重置控制器會(huì)影響智能體學(xué)習(xí)的速度。基于觀察智能體的進(jìn)度,老師自己會(huì)學(xué)習(xí)選擇重置控制器的策略和課程表,以優(yōu)化智能體的最終策略獎(jiǎng)勵(lì)。我們的實(shí)驗(yàn)在兩個(gè)環(huán)境中使用此框架來(lái)誘導(dǎo)課程的安全有效學(xué)習(xí)。
24.《Conservative Q-Learning for Offline Reinforcement Learning》
關(guān)鍵詞:Conservative Q-Learning 、regularization
有效地利用強(qiáng)化學(xué)習(xí)(RL)中以前收集的大型數(shù)據(jù)集是大規(guī)模實(shí)際應(yīng)用的主要挑戰(zhàn)。離線RL算法保證無(wú)需進(jìn)一步交互即可從以前收集的靜態(tài)數(shù)據(jù)集中學(xué)習(xí)有效的策略。但是,在實(shí)踐中,離線RL提出了一個(gè)重大挑戰(zhàn),標(biāo)準(zhǔn)的off-policy RL方法可能會(huì)因?qū)?shù)據(jù)集和學(xué)習(xí)的策略之間的分布偏移而導(dǎo)致的值進(jìn)行過(guò)高估計(jì)而失敗,尤其是在對(duì)復(fù)雜和多模態(tài)數(shù)據(jù)分布進(jìn)行訓(xùn)練時(shí) 。在本文中,我們提出了保守的Q學(xué)習(xí)(CQL),其目的是通過(guò)學(xué)習(xí)保守的Q函數(shù)來(lái)解決這些限制,從而使該Q函數(shù)下策略的期望值lower-bounds其真實(shí)值。我們從理論上證明CQL對(duì)當(dāng)前策略的價(jià)值產(chǎn)生了下界,并且可以將其納入具有理論改進(jìn)保證的策略學(xué)習(xí)過(guò)程中。在實(shí)踐中,CQL通過(guò)簡(jiǎn)單的Q值正則化器擴(kuò)展了標(biāo)準(zhǔn)的Bellman錯(cuò)誤目標(biāo),該Q值正則化器可在現(xiàn)有的DQN和基于actor的實(shí)施上直接實(shí)現(xiàn)。在離散和連續(xù)控制域上,我們都表明CQL大大優(yōu)于現(xiàn)有的離線RL方法,經(jīng)常學(xué)習(xí)的策略可以獲得更高的2-5倍的最終回報(bào)(尤其是從復(fù)雜的多模態(tài)數(shù)據(jù)分布中學(xué)習(xí)時(shí))。
25.《Munchausen Reinforcement Learning》
關(guān)鍵詞:current policy、scaled log-policy
Bootstrapping 是強(qiáng)化學(xué)習(xí)(RL)中的核心機(jī)制。大多數(shù)算法基于temporal differences,以其對(duì)當(dāng)前值的估計(jì)來(lái)代替過(guò)渡狀態(tài)的真實(shí)值。但是,我們還可以利用current policy估計(jì)來(lái)引導(dǎo)RL。我們的核心貢獻(xiàn)在于一個(gè)非常簡(jiǎn)單的想法:將scaled log-policy添加到即時(shí)獎(jiǎng)勵(lì)中。我們證明,以這種方式稍加修改Deep Q-Network(DQN)即可提供一種與Atari游戲上的分配方法有競(jìng)爭(zhēng)力的智能體,而無(wú)需利用distributional RL, n-step returns or prioritized replay。為證明這種想法的多功能性,我們還將其與隱式分位數(shù)網(wǎng)絡(luò)(IQN)結(jié)合使用。為繼續(xù)給這項(xiàng)經(jīng)驗(yàn)研究添色,我們提供了關(guān)于幕后發(fā)生的強(qiáng)大理論見(jiàn)解-隱式Kullback-Leibler正則化和action-gap的增加。
26.《Non-Crossing Quantile Regression for Distributional Reinforcement Learning》
沒(méi)找到文章
27.《Online Decision Based Visual Tracking via Reinforcement Learning》
沒(méi)找到文章
28.《Discovering Reinforcement Learning Algorithms》
關(guān)鍵詞:meta learning
強(qiáng)化學(xué)習(xí)(RL)算法根據(jù)多年研究中人工發(fā)現(xiàn)的幾種可能的規(guī)則之一更新智能體的參數(shù)。從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)更新規(guī)則可以帶來(lái)更高效的算法,或更好地適應(yīng)特定環(huán)境的算法。雖然之前已經(jīng)有人嘗試解決這一挑戰(zhàn),但發(fā)現(xiàn)RL的基本概念(如值函數(shù)和時(shí)差學(xué)習(xí))的替代方案是否可行仍是一個(gè)懸而未決的問(wèn)題。本文引入了一種新的元學(xué)習(xí)方法,通過(guò)與一組環(huán)境的交互,發(fā)現(xiàn)整個(gè)更新規(guī)則,其中包括 “預(yù)測(cè)什么”(如價(jià)值函數(shù))和 “如何從中學(xué)習(xí)”(如bootstrapping)。新算法的輸出是一個(gè)RL算法,我們稱之為學(xué)習(xí)策略梯度(LPG)。實(shí)證結(jié)果表明,我們的方法發(fā)現(xiàn)了自己對(duì)價(jià)值函數(shù)概念的替代。此外,它還發(fā)現(xiàn)了一種bootstrapping機(jī)制來(lái)維持和使用其預(yù)測(cè)。令人驚訝的是,當(dāng)僅在玩具環(huán)境中進(jìn)行訓(xùn)練時(shí),LPG有效地泛化到復(fù)雜的Atari游戲中,并取得了非平凡的性能。這表明了從數(shù)據(jù)中發(fā)現(xiàn)一般RL算法的潛力。
29.《Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning》
關(guān)鍵詞:MARL、Shared Experience
在MARL中的探索是一個(gè)具有挑戰(zhàn)性的問(wèn)題,尤其在獎(jiǎng)勵(lì)稀少的環(huán)境中。我們建議通過(guò)在智能體之間共享經(jīng)驗(yàn)來(lái)進(jìn)行有效探索的通用方法。我們提出的算法稱為“Shared Experience Actor-Critic”(SEAC),將經(jīng)驗(yàn)分享應(yīng)用于actor-Critic框架。我們?cè)谙∈瑾?jiǎng)勵(lì)多智能體環(huán)境的集合中評(píng)估了SEAC,發(fā)現(xiàn)它以更少的步驟學(xué)習(xí)并收斂到更高的回報(bào),始終優(yōu)于兩個(gè)基準(zhǔn)和兩個(gè)最新算法。在某些更艱難的環(huán)境中,經(jīng)驗(yàn)共享會(huì)在學(xué)習(xí)解決任務(wù)和根本不學(xué)習(xí)之間體現(xiàn)出性能差別。
30.《The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning》
關(guān)鍵詞:evaluation
我們研究了評(píng)估RL方法基于模型的行為的度量標(biāo)準(zhǔn)——Local Change Adaptation(LoCA),它可以衡量RL方法適應(yīng)環(huán)境中Local Change的速度。
31.《Leverage the Average: an Analysis of KL Regularization in Reinforcement Learning》
關(guān)鍵詞:Regularization、ADP
我們研究了Kullback-Leibler(KL)和熵正則化在強(qiáng)化學(xué)習(xí)中的作用。通過(guò)相關(guān)近似動(dòng)態(tài)規(guī)劃(ADP)方案的等效表示,我們表明KL懲罰等于平均q值。這種等價(jià)性可以在文獻(xiàn)中的先驗(yàn)不相干的方法之間建立聯(lián)系,并證明KL正則化確實(shí)會(huì)導(dǎo)致在每次迭代值函數(shù)更新時(shí)做出的平均誤差。通過(guò)理論分析,我們還研究了KL和熵正則化之間的相互作用。當(dāng)考慮的ADP方案與基于神經(jīng)網(wǎng)絡(luò)的隨機(jī)逼近相結(jié)合時(shí),等價(jià)性就會(huì)丟失,這表明了進(jìn)行正則化的許多不同方法。
32.《Task-agnostic Exploration in Reinforcement Learning》
關(guān)鍵詞:exploration、Task-agnostic、multi-task
有效的探索是強(qiáng)化學(xué)習(xí)(RL)的主要挑戰(zhàn)之一。大多數(shù)現(xiàn)有的采樣有效算法都假設(shè)在探索過(guò)程中存在單個(gè)獎(jiǎng)勵(lì)函數(shù)。但是,在許多實(shí)際情況下,例如,當(dāng)一個(gè)智能體需要同時(shí)學(xué)習(xí)許多技能,或者需要平衡多個(gè)相互矛盾的目標(biāo)時(shí),就沒(méi)有單一的基礎(chǔ)獎(jiǎng)勵(lì)函數(shù)來(lái)指導(dǎo)探索。為了解決這些挑戰(zhàn),我們提出了task-agnostic RL框架:在探索階段,智能體首先通過(guò)探索MDP來(lái)收集軌跡,而無(wú)需獎(jiǎng)勵(lì)函數(shù)的指導(dǎo)。經(jīng)過(guò)探索,它的目的是為N個(gè)任務(wù)找到接近最佳的策略, given the collected trajectories augmented with sampled rewards for each task。我們提出了一種高效的與任務(wù)無(wú)關(guān)的RL算法UCBZero,UCBZero的理論性能十分不錯(cuò)。
33.《Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning》
關(guān)鍵詞:HRL、Adjacency-Constrained Subgoals、search
Goal-conditioned分層強(qiáng)化學(xué)習(xí)(HRL)是擴(kuò)大強(qiáng)化學(xué)習(xí)(RL)技術(shù)的一種有前途的方法。但是,由于大的目標(biāo)空間,此算法訓(xùn)練效率低下。在較大的目標(biāo)空間中進(jìn)行搜索會(huì)給高級(jí)子目標(biāo)生成和低級(jí)策略學(xué)習(xí)帶來(lái)困難。在本文中,我們表明可以通過(guò)使用鄰接約束將高級(jí)動(dòng)作空間從整個(gè)目標(biāo)空間限制到以當(dāng)前狀態(tài)為中心的k步鄰接區(qū)域來(lái)有效緩解此問(wèn)題。我們從理論上證明了鄰接約束保留了最佳的分層策略,并表明該約束可通過(guò)訓(xùn)練可以區(qū)分相鄰和不相鄰子目標(biāo)的鄰接網(wǎng)絡(luò)來(lái)實(shí)際實(shí)現(xiàn)。在離散和連續(xù)控制任務(wù)上的實(shí)驗(yàn)結(jié)果表明,我們的方法優(yōu)于最新的HRL方法。
34.《Reinforcement Learning with Feedback Graphs》
關(guān)鍵詞:episodic RL、Feedback Graphs、model-based RL
我們研究馬爾科夫決策過(guò)程中的episodic RL,此時(shí)智能體每一步都會(huì)收到幾個(gè)transition observations形式的額外反饋。通過(guò)擴(kuò)展的傳感器或關(guān)于環(huán)境的先驗(yàn)知識(shí)(例如,當(dāng)某些動(dòng)作產(chǎn)生類似結(jié)果時(shí)),在一系列任務(wù)中可獲得這樣的額外觀察。我們使用狀態(tài)-動(dòng)作對(duì)的反饋圖來(lái)形式化這種設(shè)置,并表明基于模型的算法可利用額外的反饋來(lái)進(jìn)行更有效的樣本學(xué)習(xí)。我們給出了一個(gè)忽略對(duì)數(shù)因素和低階項(xiàng)的遺憾邊界,該邊界僅取決于反饋圖的最大無(wú)環(huán)子圖的大小,而在沒(méi)有反饋圖的情況下,該邊界對(duì)狀態(tài)和動(dòng)作的數(shù)量具有多項(xiàng)式依賴性。最后,我們強(qiáng)調(diào)了與bandit環(huán)境相比利用反饋圖的小支配集時(shí)的挑戰(zhàn),并提出了一種新的算法,該算法可以利用這種支配集的知識(shí)以更sample-efficient地學(xué)習(xí)近似最優(yōu)策略。
35.《Storage Efficient and Dynamic Flexible Runtime Channel Pruning via Deep Reinforcement Learning》
關(guān)鍵詞:Storage、Runtime Channel Pruning
在本文中,我們提出了一種基于DRL的框架,以在CNN上有效執(zhí)行runtime channel pruning。我們基于DRL的框架旨在學(xué)習(xí)一種修剪策略,以確定在每個(gè)卷積層中要修剪多少通道以及哪些通道(depending on each specific input instance in runtime)。新策略通過(guò)在總體計(jì)算預(yù)算下限制不同層上的計(jì)算資源以優(yōu)化網(wǎng)絡(luò)性能。此外,與其他需要在推理中存儲(chǔ)所有通道參數(shù)的其他runtime channel方法不同,我們的框架可以通過(guò)引入靜態(tài)修剪組件來(lái)減少部署時(shí)的參數(shù)存儲(chǔ)消耗。
36.《Multi-Task Reinforcement Learning with Soft Modularization》
關(guān)鍵詞:Multi-Task、 Soft Modularization
主要亮點(diǎn):
通過(guò)定義可微分的總加權(quán)目標(biāo)函數(shù),將路由網(wǎng)絡(luò)(用于控制對(duì)子網(wǎng)絡(luò)各層賦予的不同權(quán)重)的訓(xùn)練和
各子網(wǎng)絡(luò)的訓(xùn)練協(xié)同,而不是單獨(dú)用 RL 再訓(xùn)練路由網(wǎng)絡(luò);
將總目標(biāo)函數(shù)中對(duì)不同子目標(biāo)賦予的權(quán)重巧妙地和與熵有關(guān)的參數(shù) α 相關(guān)聯(lián)。因?yàn)椴煌泳W(wǎng)絡(luò)的熵
能反映它們不同的訓(xùn)練程度,所以新算法對(duì)解決 MTLRL 中的分心困境(根據(jù)不同子任務(wù)的狀態(tài),合理
平衡對(duì)它們賦予的不同注意力)有一定幫助。
37.《Weighted QMIX: Improving Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning》
關(guān)鍵詞:MTRL、centralised
在許多實(shí)際環(huán)境中,一組智能體必須在以分散方式行事的同時(shí)協(xié)調(diào)其行為。同時(shí),通??梢杂眉惺降姆绞接?xùn)練智能體,在這種情況下,全局狀態(tài)信息是可用的,并且通信約束被解除。學(xué)習(xí)以額外狀態(tài)信息為條件的聯(lián)合行動(dòng)值是利用集中式學(xué)習(xí)的一種有吸引力的方式,但隨后提取分散式策略的最佳策略還不清楚。我們的解決方案是QMIX,這是一種新穎的基于價(jià)值的方法,它可以以集中式的端到端方式訓(xùn)練分散式策略。QMIX采用了一個(gè)混合網(wǎng)絡(luò),將聯(lián)合行動(dòng)值估計(jì)為每個(gè)智能體值的單調(diào)組合。我們?cè)诮Y(jié)構(gòu)上強(qiáng)制要求聯(lián)合行動(dòng)值在每個(gè)智能體值中是單調(diào)的,通過(guò)使用混合網(wǎng)絡(luò)中的非負(fù)權(quán)重,保證了集中式和分散式策略之間的一致性。為了評(píng)估QMIX的性能,我們提出星際爭(zhēng)霸多智能體挑戰(zhàn)賽(SMAC)作為深度多智能體強(qiáng)化學(xué)習(xí)的新基準(zhǔn)。我們?cè)谝唤M具有挑戰(zhàn)性的SMAC場(chǎng)景上對(duì)QMIX進(jìn)行了評(píng)估,并表明它的性能顯著優(yōu)于現(xiàn)有的多智能體強(qiáng)化學(xué)習(xí)方法。
38.《MDP Homomorphic Networks: Group Symmetries in Reinforcement Learning》
關(guān)鍵詞:Homomorphic Networks、constraint
本文介紹了用于深度強(qiáng)化學(xué)習(xí)的MDP同態(tài)網(wǎng)絡(luò)。MDP同態(tài)網(wǎng)絡(luò)是在MDP的聯(lián)合狀態(tài)-動(dòng)作空間中的對(duì)稱性下等價(jià)的神經(jīng)網(wǎng)絡(luò)。通過(guò)使用等方差約束將此先驗(yàn)知識(shí)構(gòu)建到策略和價(jià)值網(wǎng)絡(luò)中,我們可以減小解空間的size。我們特別關(guān)注組結(jié)構(gòu)對(duì)稱(可逆轉(zhuǎn)換)。另外,我們引入了一種簡(jiǎn)單方法來(lái)數(shù)值構(gòu)造等變網(wǎng)絡(luò)層,因此系統(tǒng)設(shè)計(jì)人員無(wú)需像通常那樣手動(dòng)解決約束。我們構(gòu)造了在一組反射或旋轉(zhuǎn)下等變的MDP同態(tài)MLP和CNN。我們證明,在CartPole,網(wǎng)格世界和Pong上,此類網(wǎng)絡(luò)的收斂速度比非結(jié)構(gòu)化baseline更快。
39.《On Efficiency in Hierarchical Reinforcement Learning》
關(guān)鍵詞:HRL、Efficiency
未找到文章
40.《Variational Policy Gradient Method for Reinforcement Learning with General Utilities》
關(guān)鍵詞:Variational Policy Gradient、Utilities
本文考慮了馬爾可夫決策問(wèn)題中的策略優(yōu)化,其中目標(biāo)是state-action occupancy measure的一般凹效用函數(shù)。這樣的普遍性使Bellman方程無(wú)效。由于這意味著動(dòng)態(tài)規(guī)劃不再起作用,因此我們專注于直接的策略搜索。類似于可用于帶有累積獎(jiǎng)勵(lì)的RL策略梯度定理,我們導(dǎo)出了具有通用效用的新RL變分策略梯度定理,它確定了可以通過(guò)參數(shù)化的策略梯度作為隨機(jī)鞍點(diǎn)的解(涉及效用函數(shù)的Fenchel對(duì)偶問(wèn)題)。我們開(kāi)發(fā)了一種變分的蒙特卡洛梯度估計(jì)算法,以基于樣本路徑計(jì)算策略梯度,并且證明,盡管優(yōu)化問(wèn)題是非凸的,但變分策略梯度方案在全局上收斂到了針對(duì)一般目標(biāo)的最優(yōu)策略。我們還通過(guò)利用問(wèn)題的隱藏凸度來(lái)建立階數(shù)O(1 / t)的收斂速度,并證明當(dāng)問(wèn)題允許隱藏強(qiáng)凸度時(shí),它的收斂速度為指數(shù)級(jí)。我們的分析也適用于具有累積獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)RL問(wèn)題(特例)并可提高其收斂速度。
41.《Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs》
關(guān)鍵詞:Model-based RL、SMDPs、Neural ODEs
42.《Reinforcement Learning with Augmented Data》
關(guān)鍵詞:data Augmentation
從視覺(jué)觀察中學(xué)習(xí)是強(qiáng)化學(xué)習(xí)(RL)中一個(gè)基本而又具有挑戰(zhàn)性的問(wèn)題。盡管算法的進(jìn)步與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)合已被證明是成功的秘訣,但目前的方法在以下兩方面仍有欠缺。(a)學(xué)習(xí)的數(shù)據(jù)效率和(b)對(duì)新環(huán)境的泛化。為此,我們提出了增強(qiáng)數(shù)據(jù)的強(qiáng)化學(xué)習(xí)(RAD),這是一個(gè)簡(jiǎn)單的即插即用模塊,可以增強(qiáng)大多數(shù)RL算法。我們首次對(duì)基于像素和基于狀態(tài)的輸入的RL的通用數(shù)據(jù)增強(qiáng)進(jìn)行了廣泛的研究,并引入了兩種新的數(shù)據(jù)增強(qiáng)–隨機(jī)翻譯和隨機(jī)振幅尺度。我們表明,隨機(jī)轉(zhuǎn)換、裁剪、顏色抖動(dòng)、補(bǔ)丁切除、隨機(jī)卷積和振幅尺度等增強(qiáng)功能可以使簡(jiǎn)單的RL算法在通用基準(zhǔn)上優(yōu)于復(fù)雜的最先進(jìn)方法。RAD在數(shù)據(jù)效率和基于像素控制的DeepMind Control Suite基準(zhǔn)以及基于狀態(tài)控制的OpenAI Gym基準(zhǔn)的最終性能方面創(chuàng)造了一個(gè)新sota。我們進(jìn)一步證明,在幾個(gè)OpenAI ProcGen基準(zhǔn)上,RAD比現(xiàn)有方法顯著改善了測(cè)試階段的泛化。
代碼:
https://github.com/MishaLaskin/rad
43.《Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing》
關(guān)鍵詞:combinatorial optimization
我們開(kāi)發(fā)了一個(gè)具有組合動(dòng)作空間的基于價(jià)值函數(shù)的深度強(qiáng)化學(xué)習(xí)框架,在該框架中,動(dòng)作選擇問(wèn)題被明確地表述為混合整數(shù)優(yōu)化問(wèn)題。作為一個(gè)激勵(lì)性的例子,我們提出了該框架在capacitated vehicle routing problem(CVRP)中的應(yīng)用。在每種情況下,我們都將動(dòng)作建模為單個(gè)車輛的整個(gè)行程,并考慮確定性策略,該策略可通過(guò)簡(jiǎn)單的策略迭代算法進(jìn)行改進(jìn)。我們的方法可與其他強(qiáng)化學(xué)習(xí)方法競(jìng)爭(zhēng),并且在中等大小的標(biāo)準(zhǔn)庫(kù)實(shí)例上產(chǎn)生接近最佳的結(jié)果。
44.《DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction》
關(guān)鍵詞:data distribution
深度強(qiáng)化學(xué)習(xí)由于不穩(wěn)定和對(duì)超參數(shù)的敏感性常常難以使用。當(dāng)使用標(biāo)準(zhǔn)的監(jiān)督方法(如,針對(duì)bandits)時(shí),on-policy數(shù)據(jù)收集會(huì)提供“hard negatives”,它恰恰在策略可能訪問(wèn)的那些狀態(tài)和行動(dòng)中修正了模型。我們將這種現(xiàn)象稱為 “矯正反饋”。我們表明,基于bootstrapping的Q-learning算法不一定能從這種糾正性反饋中獲益,對(duì)算法收集的經(jīng)驗(yàn)進(jìn)行訓(xùn)練并不足以糾正Q函數(shù)的錯(cuò)誤。事實(shí)上,Q-learning和相關(guān)方法可能會(huì)在智能體收集的經(jīng)驗(yàn)分布和對(duì)該經(jīng)驗(yàn)進(jìn)行訓(xùn)練所誘導(dǎo)的策略之間表現(xiàn)出病態(tài)的相互作用,導(dǎo)致潛在的不穩(wěn)定性、次優(yōu)的收斂性,以及從嘈雜、稀疏或延遲的獎(jiǎng)勵(lì)中學(xué)習(xí)時(shí)的糟糕結(jié)果。我們從理論和經(jīng)驗(yàn)上證明了這個(gè)問(wèn)題的存在性。然后我們表明,對(duì)數(shù)據(jù)分布進(jìn)行特定的修正可以緩解這個(gè)問(wèn)題。基于這些觀察,我們提出了一種新算法DisCor,它可以計(jì)算出最佳分布的近似值,并用它來(lái)重新加權(quán)用于訓(xùn)練的轉(zhuǎn)換,從而在一系列具有挑戰(zhàn)性的RL設(shè)置中獲得實(shí)質(zhì)性的改進(jìn),例如多任務(wù)學(xué)習(xí)和從嘈雜的獎(jiǎng)勵(lì)信號(hào)中學(xué)習(xí)。博客:
https://bair.berkeley.edu/blog/2020/03/16/discor/
45.《Neurosymbolic Reinforcement Learning with Formally Verified Exploration》
關(guān)鍵詞:safe RL、Neurosymbolic、mirror descent
我們提出了Revel——一種部分神經(jīng)強(qiáng)化學(xué)習(xí)(RL)框架,用于在連續(xù)狀態(tài)和動(dòng)作空間中進(jìn)行可證明的安全探索??勺C明安全的深度RL的關(guān)鍵挑戰(zhàn)是,在 learning loop中反復(fù)驗(yàn)證神經(jīng)網(wǎng)絡(luò)在計(jì)算上是不可行的。我們使用兩個(gè)策略類來(lái)解決這個(gè)挑戰(zhàn):一個(gè)是具有近似梯度的一般神經(jīng)符號(hào)類,另一個(gè)是允許高效驗(yàn)證的更限制的符號(hào)策略類。我們的學(xué)習(xí)算法是對(duì)策略的鏡像下降:在每次迭代中,它都會(huì)安全地將一個(gè)符號(hào)策略提升到神經(jīng)符號(hào)空間,對(duì)產(chǎn)生的策略進(jìn)行安全的梯度更新,并將更新后的策略投射到安全的符號(hào)子集中,所有這些都不需要神經(jīng)網(wǎng)絡(luò)的明確驗(yàn)證。我們的實(shí)證結(jié)果表明,Revel在許多場(chǎng)景中強(qiáng)制執(zhí)行安全探索,而約束策略優(yōu)化則沒(méi)有。
46.《Generalized Hindsight for Reinforcement Learning》
關(guān)鍵詞:multi-task、Hindsight
強(qiáng)化學(xué)習(xí)(RL)中樣本復(fù)雜性高的主要原因之一是無(wú)法將知識(shí)從一項(xiàng)任務(wù)轉(zhuǎn)移到另一項(xiàng)任務(wù)。在標(biāo)準(zhǔn)的多任務(wù)RL設(shè)置中,嘗試解決一項(xiàng)任務(wù)時(shí)收集的低獎(jiǎng)勵(lì)數(shù)據(jù)幾乎沒(méi)有提供解決該特定任務(wù)的信號(hào)因此而被浪費(fèi)。但是,我們認(rèn)為這些數(shù)據(jù)可能會(huì)為其他任務(wù)提供豐富的信息來(lái)源。為了利用這種洞察力并有效地重用數(shù)據(jù),我們提出了通用Hindsight:一種近似的逆強(qiáng)化學(xué)習(xí)技術(shù),用于用正確的任務(wù)重新標(biāo)記行為。與標(biāo)準(zhǔn)的重新標(biāo)記技術(shù)相比,Generalized Hindsight提供了更有效的樣本重用,我們將在一組多任務(wù)導(dǎo)航和操縱任務(wù)上進(jìn)行經(jīng)驗(yàn)演示。視頻和代碼:
https://sites.google.com/view/generalized-hindsight
47.《Meta-Gradient Reinforcement Learning with an Objective Discovered Online》
關(guān)鍵詞:Meta learning
DRL的很多算法通過(guò)深度神經(jīng)網(wǎng)絡(luò)對(duì)內(nèi)部表示(如價(jià)值函數(shù)或策略)進(jìn)行參數(shù)化。每個(gè)算法都會(huì)根據(jù)一個(gè)目標(biāo)(如Q-learning或策略梯度)來(lái)優(yōu)化其參數(shù)。在這項(xiàng)工作中,我們提出了一種基于元梯度下降的算法,該算法僅從與環(huán)境的交互經(jīng)驗(yàn)中發(fā)現(xiàn)目標(biāo),并由深度神經(jīng)網(wǎng)絡(luò)靈活地設(shè)定參數(shù)。隨著時(shí)間的推移,智能體可以學(xué)習(xí)如何越來(lái)越有效地學(xué)習(xí)。此外,由于目標(biāo)是被在線挖掘的,它可以隨時(shí)間的推移而自適應(yīng)變化。我們證明了該算法挖掘如何解決RL中的幾個(gè)重要問(wèn)題,如bootstrapping、非平穩(wěn)性和off-policy學(xué)習(xí)。在Atari學(xué)習(xí)環(huán)境上,元梯度算法隨著時(shí)間的推移適應(yīng)了更高的學(xué)習(xí)效率,最終超越了強(qiáng)actor-critic基線的中位數(shù)得分。
48.《TorsionNet: A Reinforcement Learning Approach to Sequential Conformer Search》
關(guān)鍵詞:search、curriculum learning
我們提出TorsionNet,這是一種在剛性轉(zhuǎn)子近似下基于強(qiáng)化學(xué)習(xí)的有效順序Conformer搜索技術(shù)。該模型是通過(guò)課程學(xué)習(xí)訓(xùn)練的,課程學(xué)習(xí)將詳細(xì)探討其理論價(jià)值,以使基于熱力學(xué)的新穎度量(Gibbs評(píng)分)最大化。
49.《Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning》
關(guān)鍵詞:combinatorial optimization
未找到文章
50.《Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement Learning?》
關(guān)鍵詞:Efficient
未找到文章
51.《Instance-based Generalization in Reinforcement Learning》
關(guān)鍵詞:Instance-based、Generalization
傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)算法在具有離散狀態(tài)空間的域上運(yùn)行。它們通常表示表中的值函數(shù),按狀態(tài)或狀態(tài)-動(dòng)作對(duì)進(jìn)行索引。但是,將RL應(yīng)用于具有連續(xù)狀態(tài)的域時(shí),表格表示形式不再可能。在這些情況下,一種通用的方法是通過(guò)存儲(chǔ)一小組狀態(tài)(或狀態(tài)-動(dòng)作對(duì))的值并將這些值插值到其他未存儲(chǔ)的狀態(tài)(或狀態(tài)-動(dòng)作對(duì))來(lái)表示值函數(shù)。這種方法稱為基于實(shí)例的強(qiáng)化學(xué)習(xí)(IBRL)。實(shí)例是顯式存儲(chǔ)的值,且插值通常使用眾所周知的基于實(shí)例的監(jiān)督學(xué)習(xí)算法。
52.《Preference-based Reinforcement Learning with Finite-Time Guarantees》
關(guān)鍵詞:reward、Preference-based、 dueling bandits
基于偏好的強(qiáng)化學(xué)習(xí)(Preference-based Reinforcement Learning,PbRL)在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中用偏好來(lái)代替獎(jiǎng)勵(lì)值,以更好地引起人們對(duì)目標(biāo)的意見(jiàn),特別是在數(shù)值獎(jiǎng)勵(lì)難以設(shè)計(jì)或解釋的情況下。盡管PbRL在應(yīng)用中取得了可喜的成果,但對(duì)它的理論認(rèn)識(shí)仍處于起步階段。在本文中,我們首次提出了針對(duì)一般PbRL問(wèn)題的Finite-Time分析。我們首先表明,如果對(duì)軌跡的偏好是確定性的,那么對(duì)于PbRL,唯一的最優(yōu)策略可能不存在。如果偏好是隨機(jī)的且偏好概率與隱藏的獎(jiǎng)勵(lì)值有關(guān),那么無(wú)論有無(wú)模擬器,PbRL都能以高概率確定最佳策略。我們的方法通過(guò)導(dǎo)航到未被探索的狀態(tài)來(lái)探索狀態(tài)空間,并使用dueling bandits和策略搜索的組合來(lái)求解PbRL。
53.《Learning to Decode: Reinforcement Learning for Decoding of Sparse Graph-Based Channel Codes》
關(guān)鍵詞:bandits、clustering、Q-learning
這項(xiàng)工作表明,強(qiáng)化學(xué)習(xí)可成功應(yīng)用于解碼短到中等長(zhǎng)度的基于稀疏圖的信道碼。我們利用一種順序更新策略,選擇最佳的檢查節(jié)點(diǎn)(CN)調(diào)度,以提高解碼性能。特別地,我們將CN更新過(guò)程建模為一個(gè)多臂的、具有依賴臂的bandits過(guò)程,并采用Q-learning方案來(lái)優(yōu)化CN調(diào)度策略。為降低學(xué)習(xí)復(fù)雜度,我們提出了一種新型的圖誘導(dǎo)CN聚類方法,以這種方式對(duì)狀態(tài)空間進(jìn)行分區(qū),使聚類之間的依賴性最小化。結(jié)果表明,與文獻(xiàn)中的其他解碼方法相比,新的強(qiáng)化學(xué)習(xí)方法不僅顯著提高了解碼性能,而且在模型被學(xué)習(xí)后,也大幅降低了解碼復(fù)雜度。
54.《BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning》
關(guān)鍵詞:imitation learning
在batch DRL設(shè)置中,常用的off-policy DRL算法的性能可能會(huì)很差,有時(shí)甚至根本無(wú)法學(xué)習(xí)。在本文中,我們提出了一種新算法——最佳動(dòng)作模仿學(xué)習(xí)(BAIL)。與許多off-policy DRL算法不同,該算法不涉及在動(dòng)作空間上最大化Q函數(shù)。BAIL在追求簡(jiǎn)單性的同時(shí)也追求性能,它首先從一批動(dòng)作中選擇它認(rèn)為對(duì)其對(duì)應(yīng)的狀態(tài)是高績(jī)效的動(dòng)作,然后使用這些狀態(tài)動(dòng)作對(duì)使用模仿學(xué)習(xí)來(lái)訓(xùn)練一個(gè)策略網(wǎng)絡(luò)。雖然BAIL很簡(jiǎn)單,但我們證明了BAIL在Mujoco基準(zhǔn)上達(dá)到了最先進(jìn)的性能。
55.《Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of Gaussian Processes》
關(guān)鍵詞:meta learning、Continuously learning、Gaussian、nonstationarity
在元學(xué)習(xí)和持續(xù)學(xué)習(xí)中,持續(xù)學(xué)習(xí)以有限的經(jīng)驗(yàn)來(lái)解決未見(jiàn)過(guò)的任務(wù)已經(jīng)被廣泛追求,但同時(shí)我們需要注意一些限制性的假設(shè),如可獲得的任務(wù)分布、獨(dú)立和相同分布的任務(wù)以及明確的任務(wù)劃分。然而,現(xiàn)實(shí)世界中的物理任務(wù)經(jīng)常違反這些假設(shè),導(dǎo)致性能下降。本文提出了一種基于持續(xù)在線模型的強(qiáng)化學(xué)習(xí)方法,它不需要預(yù)先訓(xùn)練來(lái)解決任務(wù)邊界未知的任務(wù)無(wú)關(guān)問(wèn)題。我們保持專家的混合來(lái)處理非穩(wěn)態(tài)性,并用高斯過(guò)程來(lái)表示每種不同類型的動(dòng)態(tài),以有效利用收集到的數(shù)據(jù)和表達(dá)模型的不確定性。我們提出了一個(gè)過(guò)渡先驗(yàn)來(lái)考慮流數(shù)據(jù)的時(shí)間依賴性,并通過(guò)順序變分推斷在線更新混合物。我們的方法通過(guò)為從未見(jiàn)過(guò)的動(dòng)態(tài)生成新的模型,并為以前見(jiàn)過(guò)的動(dòng)態(tài)重用舊模型,可靠地處理了任務(wù)分布的轉(zhuǎn)變。
56.《On Reward-Free Reinforcement Learning with Linear Function Approximation》
關(guān)鍵詞:Reward、 Function Approximation
57.《Near-Optimal Reinforcement Learning with Self-Play》
關(guān)鍵詞:game theory
58.《Robust Multi-Agent Reinforcement Learning with Model Uncertainty》
關(guān)鍵詞:MARL、Robust
59.《Towards Minimax Optimal Reinforcement Learning in Factored Markov Decision Processes》
關(guān)鍵詞:FMDPs、Minimax
60.《Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward》
關(guān)鍵詞:MARL、Scale
61.《Constrained episodic reinforcement learning in concave-convex and knapsack settings》
關(guān)鍵詞:constrained RL、combinatorial optimization
我們提出了一種用于帶約束的表格式episode RL算法。對(duì)于具有凹形獎(jiǎng)勵(lì)和凸形約束的設(shè)置以及具有硬約束(背包)的設(shè)置,我們提供了具有強(qiáng)大理論保障的模塊化分析。先前在約束強(qiáng)化學(xué)習(xí)中的大多數(shù)工作都局限于線性約束,而其余工作則集中在可行性問(wèn)題或單個(gè)episode的設(shè)置上。我們的實(shí)驗(yàn)表明,在現(xiàn)有的約束episode環(huán)境中,新算法明顯優(yōu)于以往方法。
62.《Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation》
關(guān)鍵詞:Efficient、Low-Rank Matrix Estimation
63.《Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning》
未找到文章
64.《Cooperative Heterogeneous Deep Reinforcement Learning》
關(guān)鍵詞:heterogeneous agents, cooperation
65.《Implicit Distributional Reinforcement Learning》
關(guān)鍵詞:Distributional
66.《Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization》
關(guān)鍵詞:Exploration、Inverse Reinforcement Learning
67.《EPOC: A Provably Correct Policy Gradient Approach to Reinforcement Learning》
關(guān)鍵詞:Policy Gradient
68.《Provably Efficient Reinforcement Learning with Kernel and Neural Function Approximations》
關(guān)鍵詞:kernel、Function Approximation
69.《Decoupled Policy Gradient Methods for Competitive Reinforcement Learning》
關(guān)鍵詞:Decoupled Policy Gradient、Competitive
70.《Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss》
關(guān)鍵詞:constrained RL、CMDP、Primal-Dual、Upper Confidence、Adversarial、safe RL
我們考慮episodic隨機(jī)約束馬爾科夫決策過(guò)程(CMDP)的在線學(xué)習(xí),它在確保強(qiáng)化學(xué)習(xí)的安全性方面起著核心作用。其中,損失函數(shù)可在各個(gè)episodes中任意變化,接收到的損失和預(yù)算消耗都會(huì)在每個(gè)episode結(jié)束時(shí)被揭示。以往的工作是在限制性假設(shè)(即馬爾科夫決策過(guò)程(MDP)的過(guò)渡模型是先驗(yàn)已知的)下解決此問(wèn)題的,并且建立的后悔界取決于狀態(tài)空間S和行動(dòng)空間A的cardinality。在這項(xiàng)工作中,我們提出了一種新的upper confidence primal-dual算法,它只需要從過(guò)渡模型中采樣的軌跡。我們將拉格朗日乘子過(guò)程的新的高概率漂移分析融入到著名的upper confidence強(qiáng)化學(xué)習(xí)的后悔分析中,證明了 “面對(duì)不確定性時(shí)的樂(lè)觀 “在約束在線學(xué)習(xí)中的力量。
71.《Improving Generalization in Reinforcement Learning with Mixture Regularization》
關(guān)鍵詞:Generalization、Regularization
72.《A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning》
關(guān)鍵詞:MARL、game theory、resource management
73.《Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games》
關(guān)鍵詞:representation、 Hierarchical Attention、 Text-based Games
74.《Robust Reinforcement Learning via Adversarial training with Langevin Dynamics》
關(guān)鍵詞:Robust RL、Adversarial、 Langevin Dynamics
75.《Interferobot: aligning an optical interferometer by a reinforcement learning agent》
關(guān)鍵詞:align、robot、domain randomizations (光學(xué)干涉實(shí)驗(yàn))
76.《Reinforcement Learning for Control with Multiple Frequencies》
未找到文章
77.《Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret》
關(guān)鍵詞:Risk、uncertainty
我們研究具有未知transition kernels的episodic馬爾可夫決策過(guò)程中的風(fēng)險(xiǎn)敏感強(qiáng)化學(xué)習(xí),目標(biāo)是在指數(shù)效用的風(fēng)險(xiǎn)度量下優(yōu)化總回報(bào)。我們提出了兩種可證明有效的無(wú)模型算法——風(fēng)險(xiǎn)敏感值迭代(RSVI)和風(fēng)險(xiǎn)敏感Q學(xué)習(xí)(RSQ)。這些算法在面對(duì)不確定性時(shí)實(shí)現(xiàn)了一種風(fēng)險(xiǎn)敏感型樂(lè)觀主義的形式,它同時(shí)適用于尋求風(fēng)險(xiǎn)和規(guī)避風(fēng)險(xiǎn)的探索方式。
78.《Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation》
關(guān)鍵詞:Expert-Supervised、Offline Policy Learning and Evaluation
79.《Dynamic allocation of limited memory resources in reinforcement learning》
關(guān)鍵詞:memory budget、Dynamic allocation
80.《AttendLight: Universal Attention-Based Reinforcement Learning Model for Traffic Signal Control》
關(guān)鍵詞:Attention-Based、Traffic Signal Control
81.《Sample-Efficient Reinforcement Learning of Undercomplete POMDPs》
關(guān)鍵詞:Efficient、Undercomplete POMDPs
82.《RL Unplugged: A Collection of Benchmarks for Offline Reinforcement Learning》
部分可觀察性是RL落地的一大挑戰(zhàn),這要求智能體保持記憶,推斷潛在狀態(tài)并將過(guò)去的信息整合到探索中。這項(xiàng)挑戰(zhàn)導(dǎo)致了許多用于學(xué)習(xí)一般部分可觀察的馬爾可夫決策過(guò)程(POMDP)的計(jì)算和statistical hardness結(jié)果。這項(xiàng)工作表明,這些hardness壁壘并不排除對(duì)POMDP豐富而有趣的子類進(jìn)行有效的強(qiáng)化學(xué)習(xí)。特別地,我們提出了一種樣本有效的OOM-UCB算法,用于episodic finite的不完全POMDP,其觀測(cè)數(shù)大于潛在狀態(tài)數(shù),并且探索對(duì)于學(xué)習(xí)至關(guān)重要,因此可將我們的結(jié)果與先前的研究區(qū)分開(kāi)。作為一個(gè)有趣的特例,我們還為具有確定性狀態(tài)轉(zhuǎn)換的POMDP提供了一種計(jì)算和統(tǒng)計(jì)有效的算法。**
83.《A local temporal difference code for distributional reinforcement learning》
關(guān)鍵詞:TD、distributional
84.《The Value Equivalence Principle for Model-Based Reinforcement Learning》
關(guān)鍵詞:Model-Based RL、Value Equivalence Principle
85.《Steady State Analysis of Episodic Reinforcement Learning》
關(guān)鍵詞:Episodic RL、Steady State Analysis
86.《Information-theoretic Task Selection for Meta-Reinforcement Learning》
關(guān)鍵詞:Information theory、meta RL、Task Selection
87.《A Unifying View of Optimism in Episodic Reinforcement Learning》
關(guān)鍵詞:Optimism、Episodic RL
88.《Accelerating Reinforcement Learning through GPU Atari Emulation》
關(guān)鍵詞:GPU、Emulation、efficient
89.《Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations》
關(guān)鍵詞:Robust、Adversarial
90.《Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning》
關(guān)鍵詞:Model-Based RL、Imagination
91.《Adaptive Discretization for Model-Based Reinforcement Learning》
關(guān)鍵詞:Adaptive、Discretization、 Model-Based RL
92.《Provably Good Batch Off-Policy Reinforcement Learning Without Great Exploration》
關(guān)鍵詞:Batch RL、 Off-Policy
93.《Provably adaptive reinforcement learning in metric spaces》
關(guān)鍵詞:adaptive、metric spaces
94.《Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model》
關(guān)鍵詞:Latent Variable Model、Stochastic
95.《Inverse Reinforcement Learning from a Gradient-based Learner》
關(guān)鍵詞:Inverse RL、gradient
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會(huì)審稿人、大廠研究員、知乎大V和妹紙
等你來(lái)撩哦~
總結(jié)
以上是生活随笔為你收集整理的NeurIPS 2020 所有RL papers全扫荡的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 2021届秋招算法岗真的要灰飞烟灭了吗?
- 下一篇: 跨性别,你所不知道的事