日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

深度强化学习探索算法最新综述,近200篇文献揭示挑战和未来方向

發(fā)布時間:2024/10/8 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度强化学习探索算法最新综述,近200篇文献揭示挑战和未来方向 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


?作者?|?楊天培、湯宏垚等

來源?|?機器之心

強化學(xué)習(xí)是在與環(huán)境交互過程中不斷學(xué)習(xí)的,?交互中獲得的數(shù)據(jù)質(zhì)量很?程度上決定了智能體能夠?qū)W習(xí)到的策略的?平。因此,如何引導(dǎo)智能體探索成為強化學(xué)習(xí)領(lǐng)域研究的核?問題之?。本?介紹天津?學(xué)深度強化學(xué)習(xí)實驗室近期推出的深度強化學(xué)習(xí)領(lǐng)域第?篇系統(tǒng)性的綜述?章,該綜述?次全?梳理了 DRL 和 MARL 的探索?法,深?分析了各類探索算法的挑戰(zhàn),討論了各類挑戰(zhàn)的解決思路,并揭?了未來研究?向。

當(dāng)前,強化學(xué)習(xí)(包括深度強化學(xué)習(xí)DRL和多智能體強化學(xué)習(xí)MARL)在游戲、機器?等領(lǐng)域有?常出?的表現(xiàn),但盡管如此,在達(dá)到相同?平的情況下,強化學(xué)習(xí)所需的樣本量(交互次數(shù))還是遠(yuǎn)遠(yuǎn)超過?類的。這種對?量交互樣本的需求,嚴(yán)重阻礙了強化學(xué)習(xí)在現(xiàn)實場景下的應(yīng)?。為了提升對樣本的利?效率,智能體需要?效率地探索未知的環(huán)境,然后收集?些有利于智能體達(dá)到最優(yōu)策略的交互數(shù)據(jù),以便促進(jìn)智能體的學(xué)習(xí)。近年來,研究?員從不同的?度研究RL中的探索策略,取得了許多進(jìn)展,但尚??個全?的,對RL中的探索策略進(jìn)?深度分析的綜述。

論文地址:

https://arxiv.org/pdf/2109.06668.pdf

本?介紹深度強化學(xué)習(xí)領(lǐng)域第?篇系統(tǒng)性的綜述?章Exploration in Deep Reinforcement Learning: A Comprehensive Survey。該綜述?共調(diào)研了將近200篇?獻(xiàn),涵蓋了深度強化學(xué)習(xí)和多智能體深度強化學(xué)習(xí)兩?領(lǐng)域近100種探索算法。總的來說,該綜述的貢獻(xiàn)主要可以總結(jié)為以下四??:

  • 三類探索算法。該綜述?次提出基于?法性質(zhì)的分類?法,根據(jù)?法性質(zhì)把探索算法主要分為基于不確定性的探索、基于內(nèi)在激勵的探索和其他三?類,并從單智能體深度強化學(xué)習(xí)和多智能體深度強化學(xué)習(xí)兩??系統(tǒng)性地梳理了探索策略。

  • 四?挑戰(zhàn)。除了對探索算法的總結(jié),綜述的另??特點是對探索挑戰(zhàn)的分析。綜述中?先分析了探索過程中主要的挑戰(zhàn),同時,針對各類?法,綜述中也詳細(xì)分析了其解決各類挑戰(zhàn)的能?。

  • 三個典型benchmark。該綜述在三個典型的探索benchmark中提供了具有代表性的DRL探索?法的全?統(tǒng)?的性能?較。

  • 五點開放問題。該綜述分析了現(xiàn)在尚存的亟需解決和進(jìn)?步提升的挑戰(zhàn),揭?了強化學(xué)習(xí)探索領(lǐng)域的未來研究?向。

接下來,本?從綜述的四?貢獻(xiàn)??展開介紹。

三類探索算法

上圖展?了綜述所遵循的分類?法。綜述從單智能體深度強化學(xué)習(xí)算法中的探索策略、多智能體深度強化學(xué)習(xí)算法中的探索策略兩??向系統(tǒng)性地梳理了相關(guān)?作,并分別分成三個?類:?向不確定性的(Uncertainty-oriented)探索策略、?向內(nèi)在激勵的(Intrinsic motivation oriented)探索策略、以及其他策略。

1、?向不確定性的探索策略

通常遵循“樂觀對待不確定性”的指導(dǎo)原則(OFU Principle)「1」。這類做法認(rèn)為智能體對某區(qū)域更?的不確定性(Uncertainty)往往是因為對該區(qū)域不充分的探索導(dǎo)致的,因此樂觀地對待不確定性,也即引導(dǎo)智能體去探索不確定性?的地?,可以實現(xiàn)?效探索的?的。

強化學(xué)習(xí)中?般考慮兩類不確定性,其中引導(dǎo)往認(rèn)知不確定性?的區(qū)域探索可以促進(jìn)智能體的學(xué)習(xí),但訪問環(huán)境不確定性?的區(qū)域不但不會促進(jìn)智能體學(xué)習(xí)過程,反?由于環(huán)境不確定性的?擾會影響到正常學(xué)習(xí)過程。因此,更合理的做法是在樂觀對待認(rèn)知不確定性引導(dǎo)探索的同時,盡可能地避免訪問環(huán)境不確定性更?的區(qū)域。基于此,根據(jù)是否在探索中考慮了環(huán)境不確定性,綜述中將這類基于不確定性的探索策略分為兩個?類。

第?類只考慮在認(rèn)知不確定性的引導(dǎo)下樂觀探索,典型?作有RLSVI「2」、Bootstrapped DQN「3」、OAC「4」、OB2I「5」等;第?類在樂觀探索的同時考慮避免環(huán)境不確定性的影響,典型?作有IDS「6」、DLTV「7」等。

2、?向內(nèi)在激勵信號的探索策略

?類通常會通過不同?式的?我激勵,積極主動地與世界交互并獲得成就感。受此啟發(fā),內(nèi)在激勵信號導(dǎo)向的探索?法通常通過設(shè)計內(nèi)在獎勵來創(chuàng)造智能體的成就感。從設(shè)計內(nèi)在激勵信號所使?的技術(shù),單智能體?法中?向內(nèi)在激勵信號的探索策略可分為三類,也即估計環(huán)境動?學(xué)預(yù)測誤差的?法、狀態(tài)新穎性估計?法和基于信息增益的?法。?在多智能體問題中,?前的探索策略主要通過狀態(tài)新穎性和社會影響兩個?度考慮設(shè)計內(nèi)在激勵信號。

估計環(huán)境動?學(xué)預(yù)測誤差的?法主要是基于預(yù)測誤差,?勵智能體探索具有更?預(yù)測誤差的狀態(tài),典型?作有ICM「8」、EMI「9」等。

狀態(tài)新穎性?法不局限于預(yù)測誤差,?是直接通過衡量狀態(tài)的新穎性(Novelty),將其作為內(nèi)在激勵信號引導(dǎo)智能體探索更新穎的狀態(tài),典型?作有RND「10」、Novelty Search「11」、LIIR「12」等。

基于信息增益的?法則將信息獲取作為內(nèi)在獎勵,旨在引導(dǎo)智能體探索未知領(lǐng)域,同時防?智能體過于關(guān)注隨機領(lǐng)域,典型?作有VIME「13」等。

?在多智能體強化學(xué)習(xí)中,有?類特別的探索策略通過衡量“社會影響”,也即衡量智能體對其他智能體的影響作?,指導(dǎo)作為內(nèi)在激勵信號,典型?作有EITI和 EDTI「14」等。

3、其他

除了上述兩?類主流的探索算法,綜述?還調(diào)研了其他?些分?的?法,從其他?度進(jìn)?有效的探索。這些?法為如何在DRL中實現(xiàn)通?和有效的探索提供了不同的見解。

這主要包括以下三類,?是基于分布式的探索算法,也即使?具有不同探索行為的異構(gòu)actor,以不同的?式探索環(huán)境,典型?作包括Ape-x「15」、R2D2「16」等。?是基于參數(shù)空間噪聲的探索,不同于對策略輸出增加噪聲,采?噪聲對策略參數(shù)進(jìn)?擾動,可以使得探索更加多樣化,同時保持?致性,典型?作包括NoisyNet「17」等。除了以上兩類,綜述還介紹了其他?種不同思路的探索?法,包括Go-Explore「18」,MAVEN「19」等。

四大挑戰(zhàn)

綜述重點總結(jié)了?效的探索策略主要?臨的四?挑戰(zhàn)。

  • ?規(guī)模狀態(tài)動作空間。狀態(tài)動作空間的增加意味著智能體需要探索的空間變?,就?疑導(dǎo)致了探索難度的增加。

  • 稀疏、延遲獎勵信號。稀疏、延遲的獎勵信號會使得智能體的學(xué)習(xí)?常困難,?探索機制合理與否直接影響了學(xué)習(xí)效率。

  • 觀測中的?噪聲。現(xiàn)實世界的環(huán)境通常具有很?的隨機性,即狀態(tài)或動作空間中通常會出現(xiàn)不可預(yù)測的內(nèi)容,在探索過程中避免?噪聲的影響也是提升效率的重要因素。

  • 多智能體探索挑戰(zhàn)。多智能體任務(wù)下,除了上述挑戰(zhàn),指數(shù)級增長的狀態(tài)動作空間、智能體間協(xié)同探索、局部探索和全局探索的權(quán)衡都是影響多智能體探索效率的重要因素。

綜述中總結(jié)了這些挑戰(zhàn)產(chǎn)?的原因,及可能的解決?法,同時在詳細(xì)介紹?法的部分,針對現(xiàn)有?法對這些挑戰(zhàn)的應(yīng)對能?進(jìn)?了詳細(xì)的分析。如下圖就分析了單智能體強化學(xué)習(xí)中基于不確定性的探索?法解決這些挑戰(zhàn)的能?。

三個經(jīng)典的benchmark

為了對不同的探索?法進(jìn)?統(tǒng)?的實驗評價,綜述總結(jié)了上述?種有代表性的?法在三個代表性 benchmark上的實驗結(jié)果: 《蒙特祖瑪?shù)膹?fù)仇》,雅達(dá)利和Vizdoom。

蒙特祖瑪?shù)膹?fù)仇由于其稀疏、延遲的獎勵成為?個較難解決的任務(wù),需要RL智能體具有較強的探索能?才能獲得正反饋;?穿越多個房間并獲得?分則進(jìn)?步需要?類?平的記憶和對環(huán)境中事件的控制。

整個雅達(dá)利系列側(cè)重于對提?RL 智能體學(xué)習(xí)性能的探索?法進(jìn)?更全?的評估。

Vizdoom是另?個具有多種獎勵配置(從密集到?常稀疏)的代表性任務(wù)。與前兩個任務(wù)不同的是,Vizdoom是?款帶有第??稱視?的導(dǎo)航(和射擊)游戲。這模擬了?個具有嚴(yán)重的局部可觀測性和潛在空間結(jié)構(gòu)的學(xué)習(xí)環(huán)境,更類似于?類?對的現(xiàn)實世界的學(xué)習(xí)環(huán)境。

基于上表所?的統(tǒng)?的實驗結(jié)果,結(jié)合所提出的探索中的主要挑戰(zhàn),綜述中詳細(xì)分析了各類探索策略在這些任務(wù)上的優(yōu)劣。

關(guān)于探索策略的開放問題和未來方向

盡管探索策略的研究取得了?常前沿的進(jìn)展,但是仍然存在?些問題沒有被完全解決。綜述主要從以下五個?度討論了尚未解決的問題。

  • 在?規(guī)模動作空間的探索。在?規(guī)模動作空間上,融合表征學(xué)習(xí)、動作語義等?法,降低探索算法的計算復(fù)雜度仍然是?個急需解決的問題。

  • 在復(fù)雜任務(wù)(時間步較長、極度稀疏、延遲的獎勵設(shè)置)上的探索,雖然取得了一定的進(jìn)展,?如蒙特祖瑪?shù)膹?fù)仇,但這些解決辦法代價通常較?,甚?要借助?量?類先驗知識。這其中還存在較多普遍性的問題值得探索。

  • ?噪聲問題。現(xiàn)有的?些解決?案都需要額外估計動態(tài)模型或狀態(tài)表征,這?疑增加了計算消耗。除此之外,針對?噪聲問題,利?對抗訓(xùn)練等?式增加探索的魯棒性也是值得研究的問題。

  • 收斂性。在?向不確定性的探索中,線性MDP下認(rèn)知不確定性是可以收斂到0的,但在深度神經(jīng)?絡(luò)下維度爆炸使得收斂困難。對于?向內(nèi)在激勵的探索,內(nèi)在激勵往往是啟發(fā)式設(shè)計的,缺乏理論上合理性論證。

  • 多智能體探索。多智能體探索的研究還處于起步階段,尚未很好地解決上述問題,如局部觀測、不穩(wěn)定、協(xié)同探索等。

主要作者介紹

楊天培博?,現(xiàn)任University of Alberta博?后研究員。楊博?在2021年從天津?學(xué)取得博?學(xué)位,她的研究興趣主要包括遷移強化學(xué)習(xí)和多智能體強化學(xué)習(xí)。楊博?致?于利?遷移學(xué)習(xí)、層次強化學(xué)習(xí)、對?建模等技術(shù)提升強化學(xué)習(xí)和多智能體強化學(xué)習(xí)的學(xué)習(xí)效率和性能。?前已在IJCAI、AAAI、ICLR、NeurIPS等頂級會議發(fā)表論??余篇,擔(dān)任多個會議期刊的審稿?。

湯宏垚博?,天津?學(xué)博?在讀。湯博?的研究興趣主要包括強化學(xué)習(xí)、表征學(xué)習(xí),其學(xué)術(shù)成果發(fā)表在AAAI、IJCAI、NeurIPS、ICML等頂級會議期刊上。

??甲博?,哈爾濱?業(yè)?學(xué)博?在讀,研究興趣包括探索與利?、離線強化學(xué)習(xí),學(xué)術(shù)成果發(fā)表在ICML、NeurIPS等。

劉?毅,天津?學(xué)智能與計算學(xué)部碩?在讀,研究興趣主要包括強化學(xué)習(xí)、離線強化學(xué)習(xí)等。

郝建業(yè)博?,天津?學(xué)智能與計算學(xué)部副教授。主要研究?向為深度強化學(xué)習(xí)、多智能體系統(tǒng)。發(fā)表??智能領(lǐng)域國際會議和期刊論?100余篇,專著2部。主持參與國家基?委、科技部、天津市??智能重?等科研項?10余項,研究成果榮獲ASE2019、DAI2019、CoRL2020最佳論?獎等,同時在游戲AI、?告及推薦、?動駕駛、?絡(luò)優(yōu)化等領(lǐng)域落地應(yīng)?。

Reference

[1]P. Auer, N. Cesa-Bianchi, and P. Fischer, “Finite-time analysis of the multiarmed bandit problem,” Machinelearning, vol. 47, no. 2-3, pp. 235–256, 2002.

[2]I. Osband, B. V. Roy, and Z. Wen, “Generalization and exploration via randomized value functions,” inInternational Conference on Machine Learning, 2016, pp. 2377–2386.

[3]I. Osband, C. Blundell, A. Pritzel, and B. V. Roy, “Deep exploration via bootstrapped DQN,” in Advances inNeural Information Processing Systems 29, 2016, pp. 4026–4034.

[4]K. Ciosek, Q. Vuong, R. Loftin, and K. Hofmann, “Better exploration with optimistic actor critic,” inAdvances in Neural Information Processing Systems, 2019, pp. 1785–1796.

[5]C. Bai, L. Wang, L. Han, J. Hao, A. Garg, P. Liu, and Z. Wang, “Principled exploration via optimisticbootstrapping and backward induction,” in International Conference on Machine Learning, 2021.

[6]J. Kirschner and A. Krause, “Information directed sampling and bandits with heteroscedastic noise,” inConference On Learning Theory, 2018, pp. 358–384.

[7]B. Mavrin, H. Yao, L. Kong, K. Wu, and Y. Yu, “Distributional reinforcement learning for efficientexploration,” in International Conference on Machine Learning, 2019, pp. 4424–4434.

[8]D. Pathak, P. Agrawal, A. A. Efros, and T. Darrell, “Curiosity-driven exploration by self-supervisedprediction,” in International Conference on Machine Learning, 2017, pp. 2778–2787.

[9]H. Kim, J. Kim, Y. Jeong, S. Levine, and H. O. Song, “EMI: exploration with mutual information,” inInternational Conference on Machine Learning, 2019, pp. 3360–3369.

[10]Y. Burda, H. Edwards, A. J. Storkey, and O. Klimov, “Exploration by random network distillation,” inInternational Conference on Learning Representations, 2019.

[11]R. Y. Tao, V. Fran?ois-Lavet, and J. Pineau, “Novelty search in representational space for sample efficientexploration,” in Advances in Neural Information Processing Systems, 2020.

[12]Y. Du, L. Han, M. Fang, J. Liu, T. Dai, and D. Tao, “LIIR: learning individual intrinsic reward in multi-agentreinforcement learning,” in Advances in Neural Information Processing Systems, 2019, pp. 4405– 4416?

[13]R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. D. Turck, and P. Abbeel, “VIME: variational information maximizing exploration,” in Advances in Neural Information Processing Systems, 2016, pp. 1109–1117.?

[14]T. Wang, J. Wang, Y. Wu, and C. Zhang, “Influence-based multi-agent exploration,” in International Conference on Learning Representations, 2020

[15]D. Horgan, J. Quan, D. Budden, G. Barth-Maron, M. Hessel, H. van Hasselt, and D. Silver, “Distributed prioritized experience replay,” in International Conference on Learning Representations, 2018.?

[16]S. Kapturowski, G. Ostrovski, J. Quan, R. Munos, and W. Dabney, “Recurrent experience replay in distributed reinforcement learning,” in International Conference on Learning Representations, 2019.?

[17]M. Fortunato, M. G. Azar, B. Piot, J. Menick, M. Hessel, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis, O. Pietquin, C. Blundell, and S. Legg, “Noisy networks for exploration,” in International Conference on Learning Representations, 2018.

[18]E. Adrien, H. Joost, L. Joel, S. K. O, and C. Jeff, “First return, then explore,” Nature, vol. 590, no. 7847, pp.580–586, 2021.

[19]A. Mahajan, T. Rashid, M. Samvelyan, and S. Whiteson, “MAVEN: multi-agent variational exploration,” inAdvances in Neural Information Processing Systems, 2019, pp. 7611–7622.?

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點剖析科研心得競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的深度强化学习探索算法最新综述,近200篇文献揭示挑战和未来方向的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。