日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

NeurIPS 2020 所有RL papers全扫荡

發(fā)布時間:2024/7/5 80 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NeurIPS 2020 所有RL papers全扫荡 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | 微塵-黃含馳

源 | 知乎


論文列表

1.《Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model》

關鍵詞:model-based reinforcement learning, minimaxity, planning, policy evaluation, instance-dependent guarantees, generative model

從理論上研究了樣本復雜度和統(tǒng)計準確性之間的權衡取舍。得出了基于模型的策略評估的改進(instance-dependent)保證,據(jù)我們所知,該工作提供了生成模型中第一個極大極小最優(yōu)保證,可容納the entire range of sample sizes.

2.《Deep Reinforcement and InfoMax Learning》

關鍵詞:predictive of the future,InfoMax Learning,representations

我們的工作基于以下假設:representations可以預測未來狀態(tài)的屬性的無模型的智能體,將更有能力解決和適應新的RL問題。為了檢驗這一假設,我們引入了一個基于Deep InfoMax(DIM)的目標,該目標通過最大化其內部表示的連續(xù)時間步長間的互信息來訓練智能體預測未來。我們從馬爾科夫鏈混合時間的角度對方法的收斂特性進行了直觀分析,并認為互信息下限的收斂性與過渡模型的逆絕對譜隙有關。我們在幾個合成環(huán)境中測試了新方法,它成功地學習了對未來有預測性的表示。最后,我們用temporal DIM目標增強了C51,一個強大的RL基線,并在持續(xù)學習任務和最近引入的Procgen環(huán)境上展示了改進的性能。

3.《Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage Decomposition》

關鍵詞:Model-Free RL

我們研究了在具有S個狀態(tài)、A個動作和episode 長度為H的finite-horizon episodic馬爾科夫決策過程(MDPs)環(huán)境下的強化學習問題,提出了一種有不錯理論保證的無模型算法UCB-Advantage。UCB-Advantage實現(xiàn)了較低的局部切換成本,并適用于并發(fā)強化學習,它在[Bai等,2019]的最新結果基礎上進行了改進。

4.《Effective Diversity in Population Based Reinforcement Learning》

關鍵詞:Population、exploration、diversity

探索是強化學習中的一個關鍵問題,因為智能體只能從他們在環(huán)境中獲得的數(shù)據(jù)中學習。考慮到這一點,維持一個智能體群體是一種有吸引力的方法,因為它允許收集具有多樣化行為的數(shù)據(jù)。這種行為多樣性通常通過多目標損失函數(shù)來鼓勵。然而,這些方法通常利用基于對偶距離的平均場更新,這使它們很容易受到循環(huán)行為和增加冗余的影響。此外,明確鼓勵多樣性往往對優(yōu)化已有成果的行為進行獎勵有不利影響。因此,獎勵-多樣性的權衡通常依賴于啟發(fā)式方法。最后,這類方法需要的行為表示通常是手工制作的和特定領域的。在本文中,我們介紹了一種同時優(yōu)化一個種群所有成員的方法。我們沒有使用對偶距離,而是測量整個種群在behavioral manifold中的體積,這由任務無關的行為(behavioral)嵌入定義。此外,新算法Diversity via Determinants (DvD)在訓練過程中使用在線學習技術調整多樣性程度。我們介紹了DvD的進化和基于梯度的實例,并表明當不需要更好的探索時,它們可以有效改善探索而不降低性能。

5.《A Boolean Task Algebra for Reinforcement Learning》

關鍵詞:Boolean Task Algebra、multi-task

我們提出了一個在任務空間上定義布爾代數(shù)的框架。這使得我們可以用一組基礎任務的否定、disjunction和連接來制定新任務。文章表明,通過學習面向目標的價值函數(shù)和限制任務的過渡動態(tài),智能體可以在不進一步學習的情況下解決這些新任務。我們證明,通過以特定的方式組合這些價值函數(shù),我們立即恢復了布爾代數(shù)下可表達的所有任務的最優(yōu)策略。我們在兩個領域(包括一個需要函數(shù)逼近的高維視頻游戲環(huán)境)驗證了新方法,實驗中智能體首先學習一組基本技能,然后將它們組合起來,解決超指數(shù)數(shù)量的新任務。

6.《Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control》

沒找到paper

7.《Multi-task Batch Reinforcement Learning with Metric Learning》

關鍵詞:Multi-task,Batch RL

我們解決了多任務Batch RL問題。給定從不同任務中收集的多個數(shù)據(jù)集,我們訓練一個多任務策略,使其在從相同分布中采樣的未見任務中表現(xiàn)良好。為了表現(xiàn)良好,策略必須通過建模其對狀態(tài)、動作和獎勵的依賴性,從收集到的transitions中推斷出任務身份。由于不同數(shù)據(jù)集可能具有差異較大的狀態(tài)-動作分布,任務推理模塊可能會學習忽略獎勵,只將狀態(tài)-動作對虛假地與任務身份相關聯(lián),從而導致測試時間性能不佳。為了魯棒化任務推理,我們提出了一種新型的triplet loss的應用。為了挖掘hard negative examples,我們通過近似訓練任務的獎勵函數(shù) 來重新標記訓練任務的transitions。當我們允許在未見任務上進行進一步的訓練時,使用之前訓練了的策略作為初始化,與隨機初始化的策略相比,收斂速度顯著加快(高達80%的改進,并且跨越5種不同的Mujoco任務分布)。我們將新方法命名為MBML(Multi-task Batch RL with Metric Learning)。

7.《On the Stability and Convergence of Robust Adversarial Reinforcement Learning: A Case Study on Linear Quadratic Systems》
沒找到文章

8.《Towards Playing Full MOBA Games with Deep Reinforcement Learning》

沒找到文章,不過有其他相關文章的解讀https://zhuanlan.zhihu.com/p/99210924

9.《Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and Tighter Regret Bounds for the Non-Episodic Setting》

關鍵詞:FMDPs、Non-Episodic

我們研究non-episodic factored馬爾科夫決策過程(FMDPs)中的強化學習。我們 1.提出了兩種近乎最優(yōu)的、oracle-efficient 的FMDPs算法;2.為FMDPs提出了一個更嚴格的連通性度量——factored span,并證明了一個取決于factored span而不是直徑D的下界。為減小下界和上界之間的差距,我們提出了對REGAL.C算法的改編,其后悔界取決于factored span。我們的oracle-efficient算法在計算機網絡管理模擬上優(yōu)于之前提出的接近最優(yōu)的算法。

10.《Promoting Coordination through Policy Regularization in Multi-Agent Deep Reinforcement Learning》

關鍵詞:MARL、Policy regularization、Coordination

在MARL中,發(fā)現(xiàn)成功的集體行為是具有挑戰(zhàn)性的,因為它需要探索一個聯(lián)合行動空間,這個空間隨著智能體數(shù)量的增加而呈指數(shù)增長。雖然獨立智能體探索的可操作性很吸引人,但這種方法在需要詳細群體策略的任務上卻失敗了。我們認為,協(xié)調智能體的策略可以指導探索,我們研究了促進這種歸納偏置的技術,提出了兩種策略正則化方法——基于智能體間行動可預測性的TeamReg,以及依賴于同步行為選擇的CoachReg。我們在四個具有挑戰(zhàn)性的連續(xù)控制任務上對每種方法進行評估,這些任務具有稀疏獎勵,且需要不同程度的協(xié)調。實驗中我們發(fā)現(xiàn),相比于其他baselines,新方法對超參數(shù)的變化更加穩(wěn)健。同時,新方法可成功協(xié)調不同智能體的行為,顯著提高了合作性多智能體問題的性能,并且當智能體數(shù)量增加時,新方法可以很好地擴展。

11.《Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning》

關鍵詞:Off-policy、Confounding-Robust、olicy Evaluation

batch rl中從觀測數(shù)據(jù)中對順序決策策略進行Off-policy評估是必要的。然而,未觀察到的變量會混淆觀察到的行動,使得新策略的精確評估不可能。為此,我們開發(fā)了一種穩(wěn)健的方法,在給定數(shù)據(jù)的情況下,通過敏感度模型,在infinite-horizon問題中估計給定策略的(不可識別的)價值的尖銳邊界,這些數(shù)據(jù)來自另一個具有未觀測的 confounding。我們考慮了靜止的或 baseline unobserved confounding,并通過優(yōu)化所有與新的部分識別估計方程和敏感性模型一致的靜止狀態(tài)占用率的集合來計算邊界。當我們收集更多的confounding數(shù)據(jù)時,我們證明了對 sharp bounds的收斂性。雖然檢查set membership是一個線性規(guī)劃,但support函數(shù)是由一個困難的非凸優(yōu)化問題給出的。我們開發(fā)了基于非凸投射梯度下降的近似方法,并以經驗證明了結果的邊界。

12.《Learning Retrospective Knowledge with Reverse Reinforcement Learning》

關鍵詞:Retrospective Knowledge、Reverse RL

我們提出了一種逆強化學習(Reverse RL)的方法來表示Retrospective Knowledge。一般的價值函數(shù)(GVF)在表示預測性知識方面(即回答關于未來可能結果的問題,如 “如果我們開車從A到B,預計會消耗多少燃料?”)取得了巨大成功。然而,GVFs無法回答 “如果一輛汽車在時間t時在B處,我們期望它耗費多少燃料?”這樣的問題。要回答此問題,我們需要知道那輛車什么時候加滿了油,以及是如何到達B的,由于這類問題強調的是過去可能發(fā)生的事件對現(xiàn)在的影響,我們將其答案稱為Retrospective Knowledge。在本文中,我們展示了如何用Reverse GVF來表示回顧性知識,它是通過Reverse RL來訓練的。我們用經驗證明了逆GVFs在表征學習和異常檢測中的效用。

13.《Combining Deep Reinforcement Learning and Search for Imperfect-Information Games》

關鍵詞:Games theory、Imperfect-Information

在訓練和測試時進行DRL和搜索的結合是一個強大的paradigm,它導致了單智能體設置和完美信息游戲的許多成功案例,其中最成功就是AlphaZero。但是,這種形式的算法無法應付不完美的信息游戲。本文介紹了ReBeL,這是一個用于self-play RL和搜索不完全信息游戲的通用框架。在更簡單的完美信息游戲環(huán)境中,ReBeL簡化為類似于AlphaZero的算法。結果表明,ReBeL導致基準不完全信息游戲中的可利用性較低,并在heads-up no-limit德州撲克中獲得超人表現(xiàn),同時使用的領域知識比以前的任何撲克AI都要少。我們還證明了ReBeL在 tabular settings的兩人零和游戲中收斂到Nash平衡。

14.《Reinforced Molecular Optimization with Neighborhood-Controlled Grammars》

沒找到文章
15.《POMO: Policy Optimization with Multiple Optima for Reinforcement Learning》

沒找到文章

16.《Self-Paced Deep Reinforcement Learning》

關鍵詞:Curriculum Reinforcement Learning (CRL) 、reasoning、automatic curriculum generation

課程強化學習(Curriculum Reinforcement Learning,CRL)通過在整個學習過程中讓智能體接觸到一系列量身定制的任務,提高智能體的學習速度和穩(wěn)定性。盡管在經驗上取得了成功,但CRL中的一個未決問題是如何為給定的強化學習(RL)智能體自動生成課程以避免人工設計。在本文中,我們提出了一個答案,將課程生成解釋為一個推理問題,其中任務上的分布被逐步學習以接近目標任務。這種方法導致了一種自動的課程生成,它的pace由智能體控制,控制過程具有堅實的理論動機,并且很容易與DRL算法耦合。在實驗中,新算法生成的課程顯著提高了在幾種環(huán)境和DRL算法中的學習性能,與最先進的CRL算法相匹配或優(yōu)于后者。

17.《Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning》

關鍵詞:exploration、Model-Based RL

基于模型的強化學習算法和概率動力學模型是數(shù)據(jù)效率最高的學習方法之一。這通常歸因于他們區(qū)分認知和不確定不確定性的能力。但是,雖然大多數(shù)算法在學習模型時都將這兩個不確定性區(qū)分開來,但在優(yōu)化策略時卻忽略了它。在本文中,我們證明了忽略認知不確定性會導致貪婪算法無法充分探索。反過來,我們提出了一種實用的樂觀探索算法(H-UCRL),該算法利用幻覺輸入(hallucinated inputs)擴大了輸入空間,該幻覺輸入可施加模型中認知不確定性所能提供的盡可能多的控制。我們分析了這種情況,并為校準良好的模型構建了一個general regret bound。基于這一理論基礎,我們展示了如何將樂觀探索與最新的強化學習算法和不同的概率模型輕松地結合在一起。我們的實驗表明,當存在對行動的懲罰時(這對于其他現(xiàn)有的基于模型的強化學習算法來說十分困難),樂觀探索顯著加快了學習速度。

18.《Weakly-Supervised Reinforcement Learning for Controllable Behavior》

關鍵詞:Weakly-Supervised

Q:我們是否可以將任務空間限制為語義上有意義的任務?
A:在這項工作中,我們介紹了一個框架,該框架使用弱監(jiān)督自動將任務的語義有意義的子空間與無意義的“chaff”任務的巨大空間自動區(qū)分開。我們表明,該學習的子空間能夠進行有效探索,并提供捕獲狀態(tài)之間距離的表示。在各種具有挑戰(zhàn)性的,基于視覺的連續(xù)控制問題上,我們的方法可帶來可觀的性能提升,尤其當環(huán)境復雜性不斷提高時。

19.《MOReL: Model-Based Offline Reinforcement Learning》

關鍵詞:Model-Based RL、offline RL

在offline RL中,目標是僅基于與環(huán)境發(fā)生歷史交互的數(shù)據(jù)集學習高回報的策略。離線訓練RL策略的能力可以大大擴展RL的適用性,數(shù)據(jù)效率和實驗速度。offline RL中的先前工作幾乎僅限于無模型RL方法。在這項工作中,我們提出MOReL,這是用于基于模型的offline RL的算法框架。該框架包括兩個步驟:(a)使用離線數(shù)據(jù)集學習悲觀的MDP(P-MDP);(b)在該P-MDP中學習接近最優(yōu)的策略。獲知的P-MDP具有以下特性:對于任何策略,實際環(huán)境中的性能大約都受到P-MDP中性能的限制。這使其可以作為策略評估和學習目的的良好替代,并且可以克服基于模型的RL(如model exploitation)的常見陷阱。從理論上講,我們顯示MOReL對于offline RL是幾乎minimax最優(yōu)的。通過實驗,我們顯示MOReL在經過廣泛研究的離線RL基準測試中達到或超過了最新結果。此外,MOreL的模塊化設計使其相關組件的未來發(fā)展(如,生成建模,不確定性估計,規(guī)劃等)可直接轉化為offline RL的發(fā)展。

20.《Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension》

關鍵詞:Function Approximation

值函數(shù)逼近已證明在強化學習(RL)中取得了驚人的經驗成功。然而,盡管最近在發(fā)展具有線性函數(shù)逼近的RL理論上取得了一些進展,但對通用函數(shù)逼近方案的理解仍然很不足。在本文中,我們建立了一種通用值函數(shù)近似的可證明有效的RL算法。我們的理論使用線性值函數(shù)逼近來概括RL的最新進展,且新算法是無模型的,我們也沒對環(huán)境做出明確假設。

21.《Security Analysis of Safe and Seldonian Reinforcement Learning Algorithms》

沒找到文章

22.《Model-based Adversarial Meta-Reinforcement Learning》

關鍵詞:meta-RL、Adversarial、gradient estimator

元強化學習(meta-RL)旨在從多個訓練任務中學習有效地適應未曾見過的測試任務的能力。盡管取得了成功,但已知現(xiàn)有的meta-RL算法對任務分配轉移很敏感。當測試任務分配與訓練任務分配不同時,性能可能會大大降低。為了解決這個問題,本文提出了基于模型的對抗性元強化學習(AdMRL),我們旨在最大程度地減少最壞情況的次優(yōu)gap-最優(yōu)回報與算法適應后獲得的回報間的gap -使用基于模型的方法來處理一系列任務中的所有任務。我們提出了一個minimax目標,并通過在固定任務上學習動力學模型與在當前模型的對抗任務之間進行交替來優(yōu)化它-該任務所導致的策略在最大程度上次優(yōu)。假設任務族已參數(shù)化,我們通過隱函數(shù)定理推導次優(yōu)梯度相對于任務參數(shù)的公式,并說明如何通過共軛梯度法和新穎的方法有效地實現(xiàn)梯度估計器 REINFORCE估算器。我們在幾個連續(xù)的控制基準上評估了新方法,并證明了它在所有任務的最壞情況下的性能,對 out-of-distribution任務的泛化能力以及在現(xiàn)有狀態(tài)下的訓練和測試時段樣本效率方面的功效。

23.《Safe Reinforcement Learning via Curriculum Induction》

關鍵詞:Curriculum learning、safe RL

在對安全性要求嚴格的應用中, autonomous agents可能需要在錯誤可能造成巨大損失的環(huán)境中學習。在這種情況下,智能體要在學習之后和學習過程中安全行事。為達到此目的,現(xiàn)有的安全強化學習方法使智能體依賴先驗條件,從而有可能避免探索過程中的危險情況,但是先驗條件固有的概率保證和平滑假設在許多場景如 自動駕駛中均不可行。本文提出了一種受人類教學啟發(fā)的替代方法,其中智能體在自動指導員的指導下進行學習,從而避免了在學習過程中違反約束。在此模型中,我們引入的監(jiān)視器既不需要知道智能體在學習的任務上如何做好,也不需要知道環(huán)境如何工作。相反,它具有重置控制器庫,當智能體開始出現(xiàn)危險行為時可激活重置控制器,以防止智能體造成損壞。至關重要的是,在哪種情況下使用哪種重置控制器會影響智能體學習的速度。基于觀察智能體的進度,老師自己會學習選擇重置控制器的策略和課程表,以優(yōu)化智能體的最終策略獎勵。我們的實驗在兩個環(huán)境中使用此框架來誘導課程的安全有效學習。

24.《Conservative Q-Learning for Offline Reinforcement Learning》

關鍵詞:Conservative Q-Learning 、regularization

有效地利用強化學習(RL)中以前收集的大型數(shù)據(jù)集是大規(guī)模實際應用的主要挑戰(zhàn)。離線RL算法保證無需進一步交互即可從以前收集的靜態(tài)數(shù)據(jù)集中學習有效的策略。但是,在實踐中,離線RL提出了一個重大挑戰(zhàn),標準的off-policy RL方法可能會因對數(shù)據(jù)集和學習的策略之間的分布偏移而導致的值進行過高估計而失敗,尤其是在對復雜和多模態(tài)數(shù)據(jù)分布進行訓練時 。在本文中,我們提出了保守的Q學習(CQL),其目的是通過學習保守的Q函數(shù)來解決這些限制,從而使該Q函數(shù)下策略的期望值lower-bounds其真實值。我們從理論上證明CQL對當前策略的價值產生了下界,并且可以將其納入具有理論改進保證的策略學習過程中。在實踐中,CQL通過簡單的Q值正則化器擴展了標準的Bellman錯誤目標,該Q值正則化器可在現(xiàn)有的DQN和基于actor的實施上直接實現(xiàn)。在離散和連續(xù)控制域上,我們都表明CQL大大優(yōu)于現(xiàn)有的離線RL方法,經常學習的策略可以獲得更高的2-5倍的最終回報(尤其是從復雜的多模態(tài)數(shù)據(jù)分布中學習時)。

25.《Munchausen Reinforcement Learning》

關鍵詞:current policy、scaled log-policy

Bootstrapping 是強化學習(RL)中的核心機制。大多數(shù)算法基于temporal differences,以其對當前值的估計來代替過渡狀態(tài)的真實值。但是,我們還可以利用current policy估計來引導RL。我們的核心貢獻在于一個非常簡單的想法:將scaled log-policy添加到即時獎勵中。我們證明,以這種方式稍加修改Deep Q-Network(DQN)即可提供一種與Atari游戲上的分配方法有競爭力的智能體,而無需利用distributional RL, n-step returns or prioritized replay。為證明這種想法的多功能性,我們還將其與隱式分位數(shù)網絡(IQN)結合使用。為繼續(xù)給這項經驗研究添色,我們提供了關于幕后發(fā)生的強大理論見解-隱式Kullback-Leibler正則化和action-gap的增加。

26.《Non-Crossing Quantile Regression for Distributional Reinforcement Learning》

沒找到文章

27.《Online Decision Based Visual Tracking via Reinforcement Learning》

沒找到文章

28.《Discovering Reinforcement Learning Algorithms》

關鍵詞:meta learning

強化學習(RL)算法根據(jù)多年研究中人工發(fā)現(xiàn)的幾種可能的規(guī)則之一更新智能體的參數(shù)。從數(shù)據(jù)中自動發(fā)現(xiàn)更新規(guī)則可以帶來更高效的算法,或更好地適應特定環(huán)境的算法。雖然之前已經有人嘗試解決這一挑戰(zhàn),但發(fā)現(xiàn)RL的基本概念(如值函數(shù)和時差學習)的替代方案是否可行仍是一個懸而未決的問題。本文引入了一種新的元學習方法,通過與一組環(huán)境的交互,發(fā)現(xiàn)整個更新規(guī)則,其中包括 “預測什么”(如價值函數(shù))和 “如何從中學習”(如bootstrapping)。新算法的輸出是一個RL算法,我們稱之為學習策略梯度(LPG)。實證結果表明,我們的方法發(fā)現(xiàn)了自己對價值函數(shù)概念的替代。此外,它還發(fā)現(xiàn)了一種bootstrapping機制來維持和使用其預測。令人驚訝的是,當僅在玩具環(huán)境中進行訓練時,LPG有效地泛化到復雜的Atari游戲中,并取得了非平凡的性能。這表明了從數(shù)據(jù)中發(fā)現(xiàn)一般RL算法的潛力。

29.《Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning》

關鍵詞:MARL、Shared Experience

在MARL中的探索是一個具有挑戰(zhàn)性的問題,尤其在獎勵稀少的環(huán)境中。我們建議通過在智能體之間共享經驗來進行有效探索的通用方法。我們提出的算法稱為“Shared Experience Actor-Critic”(SEAC),將經驗分享應用于actor-Critic框架。我們在稀疏獎勵多智能體環(huán)境的集合中評估了SEAC,發(fā)現(xiàn)它以更少的步驟學習并收斂到更高的回報,始終優(yōu)于兩個基準和兩個最新算法。在某些更艱難的環(huán)境中,經驗共享會在學習解決任務和根本不學習之間體現(xiàn)出性能差別。

30.《The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning》

關鍵詞:evaluation

我們研究了評估RL方法基于模型的行為的度量標準——Local Change Adaptation(LoCA),它可以衡量RL方法適應環(huán)境中Local Change的速度。

31.《Leverage the Average: an Analysis of KL Regularization in Reinforcement Learning》

關鍵詞:Regularization、ADP

我們研究了Kullback-Leibler(KL)和熵正則化在強化學習中的作用。通過相關近似動態(tài)規(guī)劃(ADP)方案的等效表示,我們表明KL懲罰等于平均q值。這種等價性可以在文獻中的先驗不相干的方法之間建立聯(lián)系,并證明KL正則化確實會導致在每次迭代值函數(shù)更新時做出的平均誤差。通過理論分析,我們還研究了KL和熵正則化之間的相互作用。當考慮的ADP方案與基于神經網絡的隨機逼近相結合時,等價性就會丟失,這表明了進行正則化的許多不同方法。

32.《Task-agnostic Exploration in Reinforcement Learning》

關鍵詞:exploration、Task-agnostic、multi-task

有效的探索是強化學習(RL)的主要挑戰(zhàn)之一。大多數(shù)現(xiàn)有的采樣有效算法都假設在探索過程中存在單個獎勵函數(shù)。但是,在許多實際情況下,例如,當一個智能體需要同時學習許多技能,或者需要平衡多個相互矛盾的目標時,就沒有單一的基礎獎勵函數(shù)來指導探索。為了解決這些挑戰(zhàn),我們提出了task-agnostic RL框架:在探索階段,智能體首先通過探索MDP來收集軌跡,而無需獎勵函數(shù)的指導。經過探索,它的目的是為N個任務找到接近最佳的策略, given the collected trajectories augmented with sampled rewards for each task。我們提出了一種高效的與任務無關的RL算法UCBZero,UCBZero的理論性能十分不錯。

33.《Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning》

關鍵詞:HRL、Adjacency-Constrained Subgoals、search

Goal-conditioned分層強化學習(HRL)是擴大強化學習(RL)技術的一種有前途的方法。但是,由于大的目標空間,此算法訓練效率低下。在較大的目標空間中進行搜索會給高級子目標生成和低級策略學習帶來困難。在本文中,我們表明可以通過使用鄰接約束將高級動作空間從整個目標空間限制到以當前狀態(tài)為中心的k步鄰接區(qū)域來有效緩解此問題。我們從理論上證明了鄰接約束保留了最佳的分層策略,并表明該約束可通過訓練可以區(qū)分相鄰和不相鄰子目標的鄰接網絡來實際實現(xiàn)。在離散和連續(xù)控制任務上的實驗結果表明,我們的方法優(yōu)于最新的HRL方法。

34.《Reinforcement Learning with Feedback Graphs》

關鍵詞:episodic RL、Feedback Graphs、model-based RL

我們研究馬爾科夫決策過程中的episodic RL,此時智能體每一步都會收到幾個transition observations形式的額外反饋。通過擴展的傳感器或關于環(huán)境的先驗知識(例如,當某些動作產生類似結果時),在一系列任務中可獲得這樣的額外觀察。我們使用狀態(tài)-動作對的反饋圖來形式化這種設置,并表明基于模型的算法可利用額外的反饋來進行更有效的樣本學習。我們給出了一個忽略對數(shù)因素和低階項的遺憾邊界,該邊界僅取決于反饋圖的最大無環(huán)子圖的大小,而在沒有反饋圖的情況下,該邊界對狀態(tài)和動作的數(shù)量具有多項式依賴性。最后,我們強調了與bandit環(huán)境相比利用反饋圖的小支配集時的挑戰(zhàn),并提出了一種新的算法,該算法可以利用這種支配集的知識以更sample-efficient地學習近似最優(yōu)策略。

35.《Storage Efficient and Dynamic Flexible Runtime Channel Pruning via Deep Reinforcement Learning》

關鍵詞:Storage、Runtime Channel Pruning

在本文中,我們提出了一種基于DRL的框架,以在CNN上有效執(zhí)行runtime channel pruning。我們基于DRL的框架旨在學習一種修剪策略,以確定在每個卷積層中要修剪多少通道以及哪些通道(depending on each specific input instance in runtime)。新策略通過在總體計算預算下限制不同層上的計算資源以優(yōu)化網絡性能。此外,與其他需要在推理中存儲所有通道參數(shù)的其他runtime channel方法不同,我們的框架可以通過引入靜態(tài)修剪組件來減少部署時的參數(shù)存儲消耗。

36.《Multi-Task Reinforcement Learning with Soft Modularization》

關鍵詞:Multi-Task、 Soft Modularization

主要亮點:

  • 通過定義可微分的總加權目標函數(shù),將路由網絡(用于控制對子網絡各層賦予的不同權重)的訓練和
    各子網絡的訓練協(xié)同,而不是單獨用 RL 再訓練路由網絡;

  • 將總目標函數(shù)中對不同子目標賦予的權重巧妙地和與熵有關的參數(shù) α 相關聯(lián)。因為不同子網絡的熵
    能反映它們不同的訓練程度,所以新算法對解決 MTLRL 中的分心困境(根據(jù)不同子任務的狀態(tài),合理
    平衡對它們賦予的不同注意力)有一定幫助。

  • 37.《Weighted QMIX: Improving Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning》

    關鍵詞:MTRL、centralised

    在許多實際環(huán)境中,一組智能體必須在以分散方式行事的同時協(xié)調其行為。同時,通常可以用集中式的方式訓練智能體,在這種情況下,全局狀態(tài)信息是可用的,并且通信約束被解除。學習以額外狀態(tài)信息為條件的聯(lián)合行動值是利用集中式學習的一種有吸引力的方式,但隨后提取分散式策略的最佳策略還不清楚。我們的解決方案是QMIX,這是一種新穎的基于價值的方法,它可以以集中式的端到端方式訓練分散式策略。QMIX采用了一個混合網絡,將聯(lián)合行動值估計為每個智能體值的單調組合。我們在結構上強制要求聯(lián)合行動值在每個智能體值中是單調的,通過使用混合網絡中的非負權重,保證了集中式和分散式策略之間的一致性。為了評估QMIX的性能,我們提出星際爭霸多智能體挑戰(zhàn)賽(SMAC)作為深度多智能體強化學習的新基準。我們在一組具有挑戰(zhàn)性的SMAC場景上對QMIX進行了評估,并表明它的性能顯著優(yōu)于現(xiàn)有的多智能體強化學習方法。

    38.《MDP Homomorphic Networks: Group Symmetries in Reinforcement Learning》

    關鍵詞:Homomorphic Networks、constraint

    本文介紹了用于深度強化學習的MDP同態(tài)網絡。MDP同態(tài)網絡是在MDP的聯(lián)合狀態(tài)-動作空間中的對稱性下等價的神經網絡。通過使用等方差約束將此先驗知識構建到策略和價值網絡中,我們可以減小解空間的size。我們特別關注組結構對稱(可逆轉換)。另外,我們引入了一種簡單方法來數(shù)值構造等變網絡層,因此系統(tǒng)設計人員無需像通常那樣手動解決約束。我們構造了在一組反射或旋轉下等變的MDP同態(tài)MLP和CNN。我們證明,在CartPole,網格世界和Pong上,此類網絡的收斂速度比非結構化baseline更快。

    39.《On Efficiency in Hierarchical Reinforcement Learning》

    關鍵詞:HRL、Efficiency

    未找到文章

    40.《Variational Policy Gradient Method for Reinforcement Learning with General Utilities》

    關鍵詞:Variational Policy Gradient、Utilities

    本文考慮了馬爾可夫決策問題中的策略優(yōu)化,其中目標是state-action occupancy measure的一般凹效用函數(shù)。這樣的普遍性使Bellman方程無效。由于這意味著動態(tài)規(guī)劃不再起作用,因此我們專注于直接的策略搜索。類似于可用于帶有累積獎勵的RL策略梯度定理,我們導出了具有通用效用的新RL變分策略梯度定理,它確定了可以通過參數(shù)化的策略梯度作為隨機鞍點的解(涉及效用函數(shù)的Fenchel對偶問題)。我們開發(fā)了一種變分的蒙特卡洛梯度估計算法,以基于樣本路徑計算策略梯度,并且證明,盡管優(yōu)化問題是非凸的,但變分策略梯度方案在全局上收斂到了針對一般目標的最優(yōu)策略。我們還通過利用問題的隱藏凸度來建立階數(shù)O(1 / t)的收斂速度,并證明當問題允許隱藏強凸度時,它的收斂速度為指數(shù)級。我們的分析也適用于具有累積獎勵的標準RL問題(特例)并可提高其收斂速度。

    41.《Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs》

    關鍵詞:Model-based RL、SMDPs、Neural ODEs

    42.《Reinforcement Learning with Augmented Data》

    關鍵詞:data Augmentation

    從視覺觀察中學習是強化學習(RL)中一個基本而又具有挑戰(zhàn)性的問題。盡管算法的進步與卷積神經網絡的結合已被證明是成功的秘訣,但目前的方法在以下兩方面仍有欠缺。(a)學習的數(shù)據(jù)效率和(b)對新環(huán)境的泛化。為此,我們提出了增強數(shù)據(jù)的強化學習(RAD),這是一個簡單的即插即用模塊,可以增強大多數(shù)RL算法。我們首次對基于像素和基于狀態(tài)的輸入的RL的通用數(shù)據(jù)增強進行了廣泛的研究,并引入了兩種新的數(shù)據(jù)增強–隨機翻譯和隨機振幅尺度。我們表明,隨機轉換、裁剪、顏色抖動、補丁切除、隨機卷積和振幅尺度等增強功能可以使簡單的RL算法在通用基準上優(yōu)于復雜的最先進方法。RAD在數(shù)據(jù)效率和基于像素控制的DeepMind Control Suite基準以及基于狀態(tài)控制的OpenAI Gym基準的最終性能方面創(chuàng)造了一個新sota。我們進一步證明,在幾個OpenAI ProcGen基準上,RAD比現(xiàn)有方法顯著改善了測試階段的泛化。
    代碼:
    https://github.com/MishaLaskin/rad

    43.《Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing》

    關鍵詞:combinatorial optimization

    我們開發(fā)了一個具有組合動作空間的基于價值函數(shù)的深度強化學習框架,在該框架中,動作選擇問題被明確地表述為混合整數(shù)優(yōu)化問題。作為一個激勵性的例子,我們提出了該框架在capacitated vehicle routing problem(CVRP)中的應用。在每種情況下,我們都將動作建模為單個車輛的整個行程,并考慮確定性策略,該策略可通過簡單的策略迭代算法進行改進。我們的方法可與其他強化學習方法競爭,并且在中等大小的標準庫實例上產生接近最佳的結果。

    44.《DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction》

    關鍵詞:data distribution

    深度強化學習由于不穩(wěn)定和對超參數(shù)的敏感性常常難以使用。當使用標準的監(jiān)督方法(如,針對bandits)時,on-policy數(shù)據(jù)收集會提供“hard negatives”,它恰恰在策略可能訪問的那些狀態(tài)和行動中修正了模型。我們將這種現(xiàn)象稱為 “矯正反饋”。我們表明,基于bootstrapping的Q-learning算法不一定能從這種糾正性反饋中獲益,對算法收集的經驗進行訓練并不足以糾正Q函數(shù)的錯誤。事實上,Q-learning和相關方法可能會在智能體收集的經驗分布和對該經驗進行訓練所誘導的策略之間表現(xiàn)出病態(tài)的相互作用,導致潛在的不穩(wěn)定性、次優(yōu)的收斂性,以及從嘈雜、稀疏或延遲的獎勵中學習時的糟糕結果。我們從理論和經驗上證明了這個問題的存在性。然后我們表明,對數(shù)據(jù)分布進行特定的修正可以緩解這個問題。基于這些觀察,我們提出了一種新算法DisCor,它可以計算出最佳分布的近似值,并用它來重新加權用于訓練的轉換,從而在一系列具有挑戰(zhàn)性的RL設置中獲得實質性的改進,例如多任務學習和從嘈雜的獎勵信號中學習。博客:
    https://bair.berkeley.edu/blog/2020/03/16/discor/

    45.《Neurosymbolic Reinforcement Learning with Formally Verified Exploration》

    關鍵詞:safe RL、Neurosymbolic、mirror descent

    我們提出了Revel——一種部分神經強化學習(RL)框架,用于在連續(xù)狀態(tài)和動作空間中進行可證明的安全探索。可證明安全的深度RL的關鍵挑戰(zhàn)是,在 learning loop中反復驗證神經網絡在計算上是不可行的。我們使用兩個策略類來解決這個挑戰(zhàn):一個是具有近似梯度的一般神經符號類,另一個是允許高效驗證的更限制的符號策略類。我們的學習算法是對策略的鏡像下降:在每次迭代中,它都會安全地將一個符號策略提升到神經符號空間,對產生的策略進行安全的梯度更新,并將更新后的策略投射到安全的符號子集中,所有這些都不需要神經網絡的明確驗證。我們的實證結果表明,Revel在許多場景中強制執(zhí)行安全探索,而約束策略優(yōu)化則沒有。

    46.《Generalized Hindsight for Reinforcement Learning》

    關鍵詞:multi-task、Hindsight

    強化學習(RL)中樣本復雜性高的主要原因之一是無法將知識從一項任務轉移到另一項任務。在標準的多任務RL設置中,嘗試解決一項任務時收集的低獎勵數(shù)據(jù)幾乎沒有提供解決該特定任務的信號因此而被浪費。但是,我們認為這些數(shù)據(jù)可能會為其他任務提供豐富的信息來源。為了利用這種洞察力并有效地重用數(shù)據(jù),我們提出了通用Hindsight:一種近似的逆強化學習技術,用于用正確的任務重新標記行為。與標準的重新標記技術相比,Generalized Hindsight提供了更有效的樣本重用,我們將在一組多任務導航和操縱任務上進行經驗演示。視頻和代碼:
    https://sites.google.com/view/generalized-hindsight

    47.《Meta-Gradient Reinforcement Learning with an Objective Discovered Online》

    關鍵詞:Meta learning

    DRL的很多算法通過深度神經網絡對內部表示(如價值函數(shù)或策略)進行參數(shù)化。每個算法都會根據(jù)一個目標(如Q-learning或策略梯度)來優(yōu)化其參數(shù)。在這項工作中,我們提出了一種基于元梯度下降的算法,該算法僅從與環(huán)境的交互經驗中發(fā)現(xiàn)目標,并由深度神經網絡靈活地設定參數(shù)。隨著時間的推移,智能體可以學習如何越來越有效地學習。此外,由于目標是被在線挖掘的,它可以隨時間的推移而自適應變化。我們證明了該算法挖掘如何解決RL中的幾個重要問題,如bootstrapping、非平穩(wěn)性和off-policy學習。在Atari學習環(huán)境上,元梯度算法隨著時間的推移適應了更高的學習效率,最終超越了強actor-critic基線的中位數(shù)得分。

    48.《TorsionNet: A Reinforcement Learning Approach to Sequential Conformer Search》

    關鍵詞:search、curriculum learning

    我們提出TorsionNet,這是一種在剛性轉子近似下基于強化學習的有效順序Conformer搜索技術。該模型是通過課程學習訓練的,課程學習將詳細探討其理論價值,以使基于熱力學的新穎度量(Gibbs評分)最大化。

    49.《Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning》

    關鍵詞:combinatorial optimization

    未找到文章

    50.《Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement Learning?》

    關鍵詞:Efficient

    未找到文章

    51.《Instance-based Generalization in Reinforcement Learning》

    關鍵詞:Instance-based、Generalization

    傳統(tǒng)強化學習(RL)算法在具有離散狀態(tài)空間的域上運行。它們通常表示表中的值函數(shù),按狀態(tài)或狀態(tài)-動作對進行索引。但是,將RL應用于具有連續(xù)狀態(tài)的域時,表格表示形式不再可能。在這些情況下,一種通用的方法是通過存儲一小組狀態(tài)(或狀態(tài)-動作對)的值并將這些值插值到其他未存儲的狀態(tài)(或狀態(tài)-動作對)來表示值函數(shù)。這種方法稱為基于實例的強化學習(IBRL)。實例是顯式存儲的值,且插值通常使用眾所周知的基于實例的監(jiān)督學習算法。

    52.《Preference-based Reinforcement Learning with Finite-Time Guarantees》

    關鍵詞:reward、Preference-based、 dueling bandits

    基于偏好的強化學習(Preference-based Reinforcement Learning,PbRL)在傳統(tǒng)的強化學習中用偏好來代替獎勵值,以更好地引起人們對目標的意見,特別是在數(shù)值獎勵難以設計或解釋的情況下。盡管PbRL在應用中取得了可喜的成果,但對它的理論認識仍處于起步階段。在本文中,我們首次提出了針對一般PbRL問題的Finite-Time分析。我們首先表明,如果對軌跡的偏好是確定性的,那么對于PbRL,唯一的最優(yōu)策略可能不存在。如果偏好是隨機的且偏好概率與隱藏的獎勵值有關,那么無論有無模擬器,PbRL都能以高概率確定最佳策略。我們的方法通過導航到未被探索的狀態(tài)來探索狀態(tài)空間,并使用dueling bandits和策略搜索的組合來求解PbRL。

    53.《Learning to Decode: Reinforcement Learning for Decoding of Sparse Graph-Based Channel Codes》

    關鍵詞:bandits、clustering、Q-learning

    這項工作表明,強化學習可成功應用于解碼短到中等長度的基于稀疏圖的信道碼。我們利用一種順序更新策略,選擇最佳的檢查節(jié)點(CN)調度,以提高解碼性能。特別地,我們將CN更新過程建模為一個多臂的、具有依賴臂的bandits過程,并采用Q-learning方案來優(yōu)化CN調度策略。為降低學習復雜度,我們提出了一種新型的圖誘導CN聚類方法,以這種方式對狀態(tài)空間進行分區(qū),使聚類之間的依賴性最小化。結果表明,與文獻中的其他解碼方法相比,新的強化學習方法不僅顯著提高了解碼性能,而且在模型被學習后,也大幅降低了解碼復雜度。

    54.《BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning》

    關鍵詞:imitation learning

    在batch DRL設置中,常用的off-policy DRL算法的性能可能會很差,有時甚至根本無法學習。在本文中,我們提出了一種新算法——最佳動作模仿學習(BAIL)。與許多off-policy DRL算法不同,該算法不涉及在動作空間上最大化Q函數(shù)。BAIL在追求簡單性的同時也追求性能,它首先從一批動作中選擇它認為對其對應的狀態(tài)是高績效的動作,然后使用這些狀態(tài)動作對使用模仿學習來訓練一個策略網絡。雖然BAIL很簡單,但我們證明了BAIL在Mujoco基準上達到了最先進的性能。

    55.《Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of Gaussian Processes》

    關鍵詞:meta learning、Continuously learning、Gaussian、nonstationarity

    在元學習和持續(xù)學習中,持續(xù)學習以有限的經驗來解決未見過的任務已經被廣泛追求,但同時我們需要注意一些限制性的假設,如可獲得的任務分布、獨立和相同分布的任務以及明確的任務劃分。然而,現(xiàn)實世界中的物理任務經常違反這些假設,導致性能下降。本文提出了一種基于持續(xù)在線模型的強化學習方法,它不需要預先訓練來解決任務邊界未知的任務無關問題。我們保持專家的混合來處理非穩(wěn)態(tài)性,并用高斯過程來表示每種不同類型的動態(tài),以有效利用收集到的數(shù)據(jù)和表達模型的不確定性。我們提出了一個過渡先驗來考慮流數(shù)據(jù)的時間依賴性,并通過順序變分推斷在線更新混合物。我們的方法通過為從未見過的動態(tài)生成新的模型,并為以前見過的動態(tài)重用舊模型,可靠地處理了任務分布的轉變。

    56.《On Reward-Free Reinforcement Learning with Linear Function Approximation》

    關鍵詞:Reward、 Function Approximation

    57.《Near-Optimal Reinforcement Learning with Self-Play》

    關鍵詞:game theory

    58.《Robust Multi-Agent Reinforcement Learning with Model Uncertainty》

    關鍵詞:MARL、Robust

    59.《Towards Minimax Optimal Reinforcement Learning in Factored Markov Decision Processes》

    關鍵詞:FMDPs、Minimax

    60.《Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward》

    關鍵詞:MARL、Scale

    61.《Constrained episodic reinforcement learning in concave-convex and knapsack settings》

    關鍵詞:constrained RL、combinatorial optimization

    我們提出了一種用于帶約束的表格式episode RL算法。對于具有凹形獎勵和凸形約束的設置以及具有硬約束(背包)的設置,我們提供了具有強大理論保障的模塊化分析。先前在約束強化學習中的大多數(shù)工作都局限于線性約束,而其余工作則集中在可行性問題或單個episode的設置上。我們的實驗表明,在現(xiàn)有的約束episode環(huán)境中,新算法明顯優(yōu)于以往方法。

    62.《Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation》

    關鍵詞:Efficient、Low-Rank Matrix Estimation

    63.《Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning》

    未找到文章

    64.《Cooperative Heterogeneous Deep Reinforcement Learning》

    關鍵詞:heterogeneous agents, cooperation

    65.《Implicit Distributional Reinforcement Learning》

    關鍵詞:Distributional

    66.《Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization》

    關鍵詞:Exploration、Inverse Reinforcement Learning

    67.《EPOC: A Provably Correct Policy Gradient Approach to Reinforcement Learning》

    關鍵詞:Policy Gradient

    68.《Provably Efficient Reinforcement Learning with Kernel and Neural Function Approximations》

    關鍵詞:kernel、Function Approximation

    69.《Decoupled Policy Gradient Methods for Competitive Reinforcement Learning》

    關鍵詞:Decoupled Policy Gradient、Competitive

    70.《Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss》

    關鍵詞:constrained RL、CMDP、Primal-Dual、Upper Confidence、Adversarial、safe RL

    我們考慮episodic隨機約束馬爾科夫決策過程(CMDP)的在線學習,它在確保強化學習的安全性方面起著核心作用。其中,損失函數(shù)可在各個episodes中任意變化,接收到的損失和預算消耗都會在每個episode結束時被揭示。以往的工作是在限制性假設(即馬爾科夫決策過程(MDP)的過渡模型是先驗已知的)下解決此問題的,并且建立的后悔界取決于狀態(tài)空間S和行動空間A的cardinality。在這項工作中,我們提出了一種新的upper confidence primal-dual算法,它只需要從過渡模型中采樣的軌跡。我們將拉格朗日乘子過程的新的高概率漂移分析融入到著名的upper confidence強化學習的后悔分析中,證明了 “面對不確定性時的樂觀 “在約束在線學習中的力量。

    71.《Improving Generalization in Reinforcement Learning with Mixture Regularization》

    關鍵詞:Generalization、Regularization

    72.《A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning》

    關鍵詞:MARL、game theory、resource management

    73.《Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games》

    關鍵詞:representation、 Hierarchical Attention、 Text-based Games

    74.《Robust Reinforcement Learning via Adversarial training with Langevin Dynamics》

    關鍵詞:Robust RL、Adversarial、 Langevin Dynamics

    75.《Interferobot: aligning an optical interferometer by a reinforcement learning agent》

    關鍵詞:align、robot、domain randomizations (光學干涉實驗)

    76.《Reinforcement Learning for Control with Multiple Frequencies》

    未找到文章

    77.《Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret》

    關鍵詞:Risk、uncertainty

    我們研究具有未知transition kernels的episodic馬爾可夫決策過程中的風險敏感強化學習,目標是在指數(shù)效用的風險度量下優(yōu)化總回報。我們提出了兩種可證明有效的無模型算法——風險敏感值迭代(RSVI)和風險敏感Q學習(RSQ)。這些算法在面對不確定性時實現(xiàn)了一種風險敏感型樂觀主義的形式,它同時適用于尋求風險和規(guī)避風險的探索方式。

    78.《Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation》

    關鍵詞:Expert-Supervised、Offline Policy Learning and Evaluation

    79.《Dynamic allocation of limited memory resources in reinforcement learning》

    關鍵詞:memory budget、Dynamic allocation

    80.《AttendLight: Universal Attention-Based Reinforcement Learning Model for Traffic Signal Control》

    關鍵詞:Attention-Based、Traffic Signal Control

    81.《Sample-Efficient Reinforcement Learning of Undercomplete POMDPs》

    關鍵詞:Efficient、Undercomplete POMDPs

    82.《RL Unplugged: A Collection of Benchmarks for Offline Reinforcement Learning》

    部分可觀察性是RL落地的一大挑戰(zhàn),這要求智能體保持記憶,推斷潛在狀態(tài)并將過去的信息整合到探索中。這項挑戰(zhàn)導致了許多用于學習一般部分可觀察的馬爾可夫決策過程(POMDP)的計算和statistical hardness結果。這項工作表明,這些hardness壁壘并不排除對POMDP豐富而有趣的子類進行有效的強化學習。特別地,我們提出了一種樣本有效的OOM-UCB算法,用于episodic finite的不完全POMDP,其觀測數(shù)大于潛在狀態(tài)數(shù),并且探索對于學習至關重要,因此可將我們的結果與先前的研究區(qū)分開。作為一個有趣的特例,我們還為具有確定性狀態(tài)轉換的POMDP提供了一種計算和統(tǒng)計有效的算法。**

    83.《A local temporal difference code for distributional reinforcement learning》

    關鍵詞:TD、distributional

    84.《The Value Equivalence Principle for Model-Based Reinforcement Learning》

    關鍵詞:Model-Based RL、Value Equivalence Principle

    85.《Steady State Analysis of Episodic Reinforcement Learning》

    關鍵詞:Episodic RL、Steady State Analysis

    86.《Information-theoretic Task Selection for Meta-Reinforcement Learning》

    關鍵詞:Information theory、meta RL、Task Selection

    87.《A Unifying View of Optimism in Episodic Reinforcement Learning》

    關鍵詞:Optimism、Episodic RL

    88.《Accelerating Reinforcement Learning through GPU Atari Emulation》

    關鍵詞:GPU、Emulation、efficient

    89.《Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations》

    關鍵詞:Robust、Adversarial

    90.《Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning》

    關鍵詞:Model-Based RL、Imagination

    91.《Adaptive Discretization for Model-Based Reinforcement Learning》

    關鍵詞:Adaptive、Discretization、 Model-Based RL

    92.《Provably Good Batch Off-Policy Reinforcement Learning Without Great Exploration》

    關鍵詞:Batch RL、 Off-Policy

    93.《Provably adaptive reinforcement learning in metric spaces》

    關鍵詞:adaptive、metric spaces

    94.《Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model》

    關鍵詞:Latent Variable Model、Stochastic

    95.《Inverse Reinforcement Learning from a Gradient-based Learner》

    關鍵詞:Inverse RL、gradient

    后臺回復關鍵詞【入群

    加入賣萌屋NLP/IR/Rec與求職討論群

    有頂會審稿人、大廠研究員、知乎大V和妹紙

    等你來撩哦~

    總結

    以上是生活随笔為你收集整理的NeurIPS 2020 所有RL papers全扫荡的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    国产视频日本 | 亚洲在线激情 | 精品国产一区二区在线 | 欧美日韩电影在线播放 | 操老逼免费视频 | 天堂av色婷婷一区二区三区 | 极品久久久 | 亚洲国产成人精品在线观看 | 一区二区精 | 日韩av偷拍 | 久草五月 | 欧洲亚洲女同hd | 在线免费看黄色 | 日韩va在线观看 | 日韩在线中文字幕视频 | 麻豆mv在线观看 | 综合网五月天 | 在线免费高清一区二区三区 | 天天干干 | 亚洲91精品 | 欧美日高清视频 | a久久久久 | 天天干天天草 | 97成人在线观看视频 | 亚洲,国产成人av | 久草精品网 | 国产成人精品午夜在线播放 | 天天婷婷 | 五月激情丁香图片 | 亚洲精品免费观看视频 | 国产日产精品久久久久快鸭 | 五月天六月色 | 99精品国产99久久久久久福利 | 国产一卡二卡四卡国 | 96超碰在线| 久久av网址| 亚洲人成在线观看 | 日韩在线电影一区 | 亚洲成人一二三 | 激情久久久 | 国产午夜精品一区二区三区嫩草 | av网站在线观看免费 | 欧美一级小视频 | 好看的国产精品视频 | 国产精品av免费在线观看 | 午夜精品视频在线 | 亚洲精品午夜国产va久久成人 | 免费激情在线电影 | 日韩成人欧美 | 激情久久五月天 | 久久久国产精品麻豆 | 中文在线亚洲 | 国产精品久久久久久999 | 国产色婷婷精品综合在线手机播放 | 草久在线观看视频 | 成年人免费观看在线视频 | 日韩一二区在线观看 | 亚洲午夜在线视频 | 亚洲精品456在线播放乱码 | 国产精品久久久久婷婷 | 色综合亚洲精品激情狠狠 | 亚洲伦理中文字幕 | 日韩精品视频第一页 | 亚洲天天干 | 亚洲精品动漫在线 | 亚洲mv大片欧洲mv大片免费 | 米奇四色影视 | 500部大龄熟乱视频使用方法 | 激情在线网址 | 天天干天天干天天干天天干天天干天天干 | 欧美色图亚洲图片 | 免费a视频在线观看 | 四虎成人精品永久免费av | 日本久久综合视频 | 九九欧美 | 九九九视频精品 | 久久综合激情 | 色视频成人在线观看免 | 欧美日韩精品在线免费观看 | 婷婷看片 | 中文字幕免费 | 欧美污在线观看 | 久久天堂亚洲 | 91夫妻自拍 | 日本精品免费看 | 992tv在线成人免费观看 | 香蕉久久久久久久 | 欧美精彩视频 | 久久尤物电影视频在线观看 | 在线观看黄色 | 99热99热 | 97色狠狠 | 亚洲国产精品一区二区久久,亚洲午夜 | 天天综合视频在线观看 | 国产亚洲精品日韩在线tv黄 | 激情av综合| 国产视频一区二区在线播放 | 国产精品入口麻豆 | 成人在线视 | 中文字幕在线播放av | 在线观看中文字幕dvd播放 | 免费看三级黄色片 | 亚洲精品乱码久久久久v最新版 | 久久精品亚洲一区二区三区观看模式 | 中文在线字幕免费观看 | 日韩高清一二区 | 91精品在线免费观看视频 | 久久综合免费 | 成人影音在线 | 国产精品一区二区电影 | 欧美精品中文在线免费观看 | 性色av免费看 | 高清不卡毛片 | 国产中文字幕第一页 | 色资源中文字幕 | 天天爱天天射天天干天天 | 在线观看一 | 亚洲精品午夜久久久 | 日韩精品一区二区三区水蜜桃 | 丝袜美腿亚洲综合 | 国产亚洲精品久久网站 | 激情丁香月 | 亚洲高清在线视频 | 在线免费观看视频一区二区三区 | 国产99免费视频 | 97国产一区二区 | 亚洲国产免费av | 欧美日韩免费观看一区=区三区 | 色综合天天综合在线视频 | h网站免费在线观看 | 色狠狠综合| 免费成人黄色片 | 国产亚洲日 | 在线观看岛国片 | 中文在线a天堂 | 天天激情综合网 | 国产一区成人在线 | 日本精品一区二区三区在线观看 | 狠狠干综合 | 2023国产精品自产拍在线观看 | 久久免费视频5 | 欧美一级黄大片 | 一二三区视频在线 | 欧美经典久久 | 国产字幕在线看 | 国产精品热视频 | 国产精品2020| 黄色国产精品 | 国产视频久 | 久久久国产一区 | 国产精品99页 | 国产又粗又猛又色 | 91传媒视频在线观看 | 99久久久国产精品免费99 | 国产精品无av码在线观看 | 日韩动漫免费观看高清完整版在线观看 | 日韩a级黄色片 | 夜夜嗨av色一区二区不卡 | 免费看一级黄色大全 | 999久久久免费视频 午夜国产在线观看 | 天堂在线成人 | 久久av一区二区三区亚洲 | 狂野欧美激情性xxxx | 色网站免费在线观看 | 成人免费观看视频大全 | 国产精品久久久久久久久久不蜜月 | 欧美日韩首页 | 99色免费视频| 国产一级片播放 | 成年人免费在线看 | 婷婷在线资源 | 正在播放久久 | 亚洲高清在线 | 亚洲 欧美 日韩 综合 | 亚洲区另类春色综合小说 | 久久 国产一区 | 日韩字幕在线观看 | 超碰人人舔 | 99久久精品一区二区成人 | 视频一区二区国产 | 色播五月激情五月 | 精品主播网红福利资源观看 | 精品国偷自产国产一区 | 欧美日韩中文在线观看 | 久草综合在线观看 | 久草久视频 | 亚洲精品影院在线观看 | 91人人揉日日捏人人看 | 免费日韩电影 | 精品伦理一区二区三区 | 在线国产视频观看 | 精品一区二区三区久久久 | 国产视频999 | www日韩欧美 | 亚洲欧洲成人精品av97 | 国产高清专区 | 黄色一级免费网站 | 成人毛片在线观看视频 | 久久99精品久久久久蜜臀 | 99精品久久久久久久久久综合 | 综合精品久久久 | 成人午夜在线观看 | 日本一区二区三区视频在线播放 | 中文字幕精品三区 | 亚洲2019精品 | 日本在线中文在线 | 成人黄色电影在线播放 | 91完整视频 | 欧美日韩免费视频 | 天天人人 | 久久久国产精品视频 | 国产爽视频| 色婷婷av国产精品 | 成人黄大片 | 亚洲欧美观看 | 狠狠干中文字幕 | 天天鲁天天干天天射 | 在线精品国产 | www国产精品com| 日本不卡123| 久久理论电影 | 亚洲欧美日韩国产一区二区 | 久草在线中文视频 | 婷婷av网| 成人久久久精品国产乱码一区二区 | 最近中文字幕完整视频高清1 | 久久福利剧场 | 久草视频免费看 | 久久看看| 91精品国产麻豆 | 亚洲人成网站精品片在线观看 | 国产九九精品 | 亚洲在线综合 | 久久综合久久综合这里只有精品 | 欧美精品国产综合久久 | 国产精品嫩草在线 | 日本一区二区三区视频在线播放 | 91黄色影视 | 精品成人a区在线观看 | 久久精视频 | 亚洲成人免费在线 | 欧美激情综合五月 | 成人精品国产 | 国产在线观看黄 | 久久国产色| 色资源二区在线视频 | 欧美成人亚洲 | 欧美精品乱码久久久久久 | 国产精品成人免费 | 丁香5月婷婷久久 | 亚洲黄在线观看 | 免费在线观看日韩视频 | 国内精品久久久久影院日本资源 | 亚洲人成精品久久久久 | 日本精品久久久一区二区三区 | 久久看免费视频 | 在线观看中文字幕一区二区 | 中文字幕在线观看完整版 | 九九热免费视频在线观看 | 久草资源免费 | 国产视频在线观看一区 | 狠狠狠干| 尤物九九久久国产精品的分类 | 又爽又黄又无遮挡网站动态图 | 蜜臀久久99精品久久久久久网站 | 视频在线精品 | 免费看黄网站在线 | 婷婷视频在线 | 天天干天天操天天 | 九九热久久免费视频 | 国产视频一区在线免费观看 | 国产黄色一级片 | 国产精品99久久免费黑人 | 久久精品1区2区 | 久久精精品 | 成人av资源网站 | 欧洲精品久久久久毛片完整版 | www.夜夜草 | 在线天堂中文在线资源网 | 亚洲另类在线视频 | 在线看片视频 | 色天堂在线视频 | 婷婷在线观看视频 | 免费日韩 精品中文字幕视频在线 | 密桃av在线 | 狠狠躁夜夜躁人人爽超碰97香蕉 | 天天做天天爱天天爽综合网 | 九草视频在线观看 | 国产精品无av码在线观看 | 国产91在线免费视频 | 中文字幕黄色 | 黄色网www| 久久黄色片 | 国产精品成人国产乱 | 久久久久久久久久久久久9999 | 亚洲精品自在在线观看 | 国产精品地址 | 欧美天堂视频在线 | 超碰个人在线 | 中文字幕一区二 | 国产精品久久久久久久久婷婷 | 黄色网址在线播放 | 天天干天天草 | 青草草在线视频 | av福利超碰网站 | 国产精品手机在线播放 | 久久99热精品 | 这里只有精彩视频 | 亚洲五月综合 | www.夜色321.com | 国产999精品久久久影片官网 | 成人观看视频 | 午夜精品一二三区 | 91免费国产在线观看 | 久久精品视频在线看 | 日韩一级电影在线 | 精油按摩av | 久久精品99国产精品亚洲最刺激 | 蜜臀久久99静品久久久久久 | 久久综合中文色婷婷 | 欧美精品乱码久久久久久按摩 | 国产高清小视频 | 国产在线播放观看 | 欧美男男激情videos | 天堂av中文字幕 | 性日韩欧美在线视频 | 久久r精品 | 日韩黄色网络 | 在线观看日韩国产 | 久久免费精品一区二区三区 | 操老逼免费视频 | 黄色精品久久 | 国产一级淫片在线观看 | 日韩欧美一区二区三区黑寡妇 | av在线免费观看网站 | 国产精品久久久久久久久久ktv | 久久综合久久综合这里只有精品 | 黄色小说18 | 日韩精品免费一线在线观看 | 五月天色网站 | 日本一区二区免费在线观看 | 国产精品久久久久久久久久久久午 | 色综合久久综合中文综合网 | 国产在线精品一区二区 | 搡bbbb搡bbb视频 | 91视频88av| 97视频免费观看2区 亚洲视屏 | 欧美韩国日本在线观看 | 夜夜天天干 | 久久久久免费精品视频 | 久久理论电影 | 在线黄色国产电影 | 久青草影院 | 中文字幕一区二区三区在线视频 | 夜夜躁狠狠躁 | 久久久久成人精品 | 久久新 | 99视频国产精品 | 久久综合久久88 | 久久伊99综合婷婷久久伊 | 亚洲特级毛片 | 国产精选在线观看 | 免费美女久久99 | 久久精品网站视频 | 国产a视频免费观看 | 国产精品门事件 | 97人人模人人爽人人喊网 | 色婷婷在线观看视频 | 青青河边草观看完整版高清 | 日韩免费福利 | 亚洲精品字幕在线观看 | 伊人永久在线 | 国产无套一区二区三区久久 | 亚洲精品在线观看的 | 97精品在线观看 | 久久精品亚洲精品国产欧美 | 精品黄色在线 | 美女黄视频免费看 | 午夜精品一区二区三区在线观看 | 91网址在线观看 | 狠狠操狠狠干天天操 | 成 人 黄 色视频免费播放 | 在线天堂日本 | 日韩在线网址 | 天天看天天干 | 最近2019好看的中文字幕免费 | av免费在线观看1 | .国产精品成人自产拍在线观看6 | 人人狠狠综合久久亚洲 | 国产91国语对白在线 | 国产日韩av在线 | 成人黄色毛片 | www成人av | 婷婷激情五月 | 国产精品毛片久久久久久久 | 亚洲日日射 | 成人资源网 | 午夜久久久久久久 | 亚洲无吗av | 久久免费国产 | 中文字幕国内精品 | 中文字幕资源在线观看 | 91精品视频观看 | 国产精品 日韩 | 最近中文字幕高清字幕免费mv | 在线精品视频免费播放 | 精品自拍av | 激情av一区二区 | www.香蕉视频在线观看 | 91中文视频 | 国产精品国产三级国产aⅴ入口 | 精品一区二区日韩 | 国产男女无遮挡猛进猛出在线观看 | 成人资源站| 久久在线免费观看视频 | 青青草在久久免费久久免费 | 久久成 | 天天操夜夜想 | 97av在线视频免费播放 | 福利视频 | 国产一区二区日本 | 91视频在线免费观看 | 色吊丝在线永久观看最新版本 | 高清av网站 | 久草网站在线观看 | 四虎最新域名 | 久久久久久久99 | 日韩在线视频二区 | 亚洲全部视频 | 免费看的黄网站 | 狠狠干五月天 | 热re99久久精品国产99热 | 视频一区久久 | 91一区一区三区 | 亚洲成av人片在线观看www | 一本一道久久a久久精品 | 亚洲精品2区 | 色婷婷激情综合 | 免费在线日韩 | 99视频国产精品免费观看 | 亚洲清纯国产 | 国产精品观看 | 国产精品theporn | 99热在线精品观看 | 久久成年人网站 | 亚洲乱码在线观看 | 在线观看国产中文字幕 | 99精品国产兔费观看久久99 | 97视频网站 | 中文字幕中文字幕 | 国产h片在线观看 | 999久久久久久久久6666 | 四虎最新域名 | 免费在线观看黄 | 欧美一级黄色视屏 | 91黄色免费看| 在线探花| 中文字幕在线免费 | 国产69久久 | 丁香婷婷色月天 | 丁香六月久久综合狠狠色 | 国产在线中文字幕 | 香蕉日日 | 国产精品岛国久久久久久久久红粉 | 欧美国产日韩在线观看 | 中文字幕在线久一本久 | 久久99深爱久久99精品 | 在线免费观看的av网站 | 夜夜骑天天操 | 中文字幕在线播放一区 | 久草免费在线观看视频 | 久久欧美视频 | 视频国产精品 | 蜜臀久久99精品久久久久久网站 | 最近高清中文字幕在线国语5 | 又黄又刺激视频 | 国内精品久久久久 | 91在线看视频 | 久久情侣偷拍 | 亚洲精品在线国产 | 精品在线不卡 | 日韩欧美在线观看一区二区 | 国产精品在线看 | 国产精品99久久久久 | 日韩精品视频免费在线观看 | 亚洲精品视频在线播放 | 国产在线高清精品 | 久久久网址 | 草久久久久 | 亚洲高清视频在线播放 | 三级a毛片 | 亚洲成av人片 | 欧美大片aaa | 欧美天天射 | 91九色蝌蚪国产 | 日日夜夜添 | 超碰成人免费电影 | 久久久国产日韩 | 免费亚洲婷婷 | 色视频在线 | 天天在线免费视频 | 97精品一区 | 久久久高清一区二区三区 | 免费在线激情电影 | 亚洲最快最全在线视频 | 中文字字幕在线 | 最新日韩精品 | 在线视频你懂得 | 亚洲男模gay裸体gay | 99久久日韩精品视频免费在线观看 | 久久天天躁夜夜躁狠狠85麻豆 | 日本三级在线观看中文字 | 精品国产伦一区二区三区免费 | 日韩毛片在线一区二区毛片 | 亚洲国产欧美在线看片xxoo | 综合色婷婷 | 93久久精品日日躁夜夜躁欧美 | 精品国产一区二区三区久久 | 97免费在线观看视频 | 国产成人三级在线播放 | 久久久久久久电影 | 激情欧美一区二区三区 | 黄色软件视频网站 | 国产精品一区二区果冻传媒 | 久久精品看 | 国产一区二区观看 | 国产极品尤物在线 | 成人av一区二区三区 | 精品亚洲网 | 亚洲黄色在线 | 91精彩视频 | 91视频电影 | 天天色天天搞 | 日日日干 | 96亚洲精品久久久蜜桃 | 四虎国产精品永久在线国在线 | 日韩精品一区二区在线观看视频 | 可以免费看av | 天天射天天做 | 国产精品一区二区久久国产 | 久草免费电影 | 久久精品激情 | 亚洲视频观看 | 91久久精品一区二区二区 | 奇米影视四色8888 | 国产亚洲一区二区三区 | 日韩精品视频久久 | 中文字幕中文字幕在线中文字幕三区 | 婷婷丁香激情五月 | sesese图片| 亚洲电影久久 | 天天综合色天天综合 | 亚洲作爱视频 | 国产 一区二区三区 在线 | 欧美成人在线免费 | 349k.cc看片app| 夜夜夜夜爽 | www最近高清中文国语在线观看 | 91亚洲综合| 国产超碰97 | 337p欧美| 久草在线中文视频 | 69精品在线 | 国产成人精品综合久久久 | 亚洲欧美视频一区二区三区 | 日韩免费视频网站 | 日韩草比 | 99国产精品久久久久老师 | 天堂av在线| 久久热首页 | 婷婷成人亚洲综合国产xv88 | 国产精品普通话 | 午夜久久影视 | 久久综合久久综合久久 | 很污的网站 | 波多野结衣电影一区二区三区 | 97人人视频 | 欧美性生爱 | 国产一区二区在线免费视频 | 国产色拍拍拍拍在线精品 | 中文字幕在线看视频国产中文版 | 成人亚洲精品久久久久 | 美女啪啪图片 | 在线亚洲天堂网 | 国产精品一区二区久久精品 | www.久草.com | 91精品1区2区| 亚洲精品视频免费在线观看 | 蜜臀av免费一区二区三区 | av成人亚洲 | 久久精品99北条麻妃 | 怡红院成人在线 | 成人毛片100免费观看 | 国内揄拍国内精品 | 日韩在线短视频 | 日韩免费电影在线观看 | 中国一级特黄毛片大片久久 | 黄色片亚洲 | 香蕉免费 | 久久艹中文字幕 | 91视频免费观看 | 在线免费观看视频一区二区三区 | 国产精品永久久久久久久www | 亚洲精品永久免费视频 | av网站有哪些 | 亚洲第二色 | 又色又爽又激情的59视频 | 亚洲另类人人澡 | 欧美精品亚洲精品 | 国产美腿白丝袜足在线av | 天天插伊人 | 免费a v视频| 波多野结衣在线观看视频 | 久久这里只有精品9 | 啪啪免费试看 | 2022中文字幕在线观看 | 99热超碰在线 | 91精品啪在线观看国产线免费 | 亚洲精品网页 | 欧美坐爱视频 | 麻豆视频入口 | 成人免费视频网 | 国产97视频在线 | 国产精品va在线观看入 | 久久国产精品久久精品 | 91久久久国产精品 | 婷婷国产v亚洲v欧美久久 | 99电影| 97超碰站| 日韩高清一二三区 | 国产精品免费视频一区二区 | 亚洲播播 | 日韩在线视频观看免费 | 婷婷在线播放 | 午夜久久福利视频 | 激情深爱.com | 最新日韩视频 | www.亚洲黄 | 天天综合天天做天天综合 | 日韩在线观看网站 | 久久婷婷色 | 月下香电影 | 伊人影院得得 | 中文字幕永久免费 | 色婷婷综合视频在线观看 | 欧美极品久久 | 国产精品乱码久久久 | 国产精品99久久久久久有的能看 | 久久人人爽爽人人爽人人片av | 手机av网站 | 日本99干网| 九九免费在线观看 | 精品久久久久久电影 | 精品自拍av | 亚洲国产日韩一区 | 亚洲成人二区 | 国产日韩精品一区二区在线观看播放 | 久久草在线视频国产 | av专区在线 | 草久在线播放 | 久久久久久久久久久电影 | 热九九精品 | 五月婷婷在线综合 | 精品欧美一区二区精品久久 | 日韩欧美高清在线 | 国内精品久久久精品电影院 | 国产精品av在线免费观看 | 国产精品一区二区精品视频免费看 | 亚洲精品综合欧美二区变态 | 9999毛片 | 久久久精品免费观看 | 国产精品视频最多的网站 | 国产精品午夜久久久久久99热 | 欧美精品天堂 | 91tv国产成人福利 | 麻豆视频免费网站 | 成年人视频免费在线播放 | av电影在线观看完整版一区二区 | www.天天色| 久久久久久麻豆 | 免费看十八岁美女 | 中文字幕在线网址 | 中文字幕高清在线播放 | 在线播放你懂 | 久久在线一区 | 亚洲成人高清在线 | 伊人www22综合色 | 国产 一区二区三区 在线 | 成人少妇影院yyyy | 99久久日韩精品视频免费在线观看 | 国产亚洲婷婷免费 | 欧美日韩亚洲一 | 日本 在线 视频 中文 有码 | 日韩一区二区三区不卡 | 亚洲情影院 | 日韩毛片在线播放 | 麻豆国产电影 | 国产午夜精品av一区二区 | 国产人成一区二区三区影院 | 亚洲精品在线视频 | 日本韩国在线不卡 | 99热精品国产 | 在线观看成人网 | 久久无码精品一区二区三区 | av中文资源在线 | 国产精品乱码高清在线看 | 在线免费av观看 | 综合天天网 | 国产麻豆剧传媒免费观看 | aaa日本高清在线播放免费观看 | 久久久久成人免费 | 99这里都是精品 | 国产成人无码AⅤ片在线观 日韩av不卡在线 | 日韩中文字幕视频在线观看 | 久久久www| 久久这里有 | 久久久久激情电影 | 成人蜜桃 | 在线观看成年人 | 欧美日韩国内在线 | 亚洲成av人片 | 最新av在线网址 | 日本视频高清 | 在线观看亚洲国产精品 | 亚洲在线精品 | 久久任你操 | 一区二区三区免费播放 | 天天干天天操天天拍 | 久草视频视频在线播放 | www.天天干.com| 在线免费观看视频 | 久久精品9 | 99综合电影在线视频 | 久久人人97超碰国产公开结果 | 91黄视频在线观看 | 国产精品无 | 国产精品每日更新 | 欧美不卡视频在线 | 99这里都是精品 | 国产精品成人自拍 | 久久久免费av | 狠狠色噜噜狠狠狠狠2021天天 | 大荫蒂欧美视频另类xxxx | 999超碰| 丁香久久婷婷 | 99在线观看免费视频精品观看 | 成人久久电影 | 丁香激情综合国产 | 日日爱av | 久久视频在线 | 91精品在线观看入口 | 天天操夜操| 午夜久久成人 | 日本成址在线观看 | 香蕉视频18 | 国产精品黄网站在线观看 | 婷婷五天天在线视频 | 日韩av专区 | 亚洲少妇自拍 | 97网站| 午夜国产福利在线 | 日日麻批40分钟视频免费观看 | 在线视频1卡二卡三卡 | 69av在线视频 | 亚洲国产人午在线一二区 | 丁香电影小说免费视频观看 | 亚洲精品美女久久久 | 中文字幕一区在线 | 国产成人三级三级三级97 | 精选久久 | 中文网丁香综合网 | 中文字幕精品视频 | 综合久久影院 | 99精品视频免费在线观看 | 91精品毛片 | 天天在线免费视频 | www.伊人色.com | 中文字幕亚洲精品在线观看 | 国产亚洲精品综合一区91 | 成人在线免费视频 | 99视| 亚洲 欧美日韩 国产 中文 | 正在播放国产一区 | 婷婷成人在线 | 97超碰资源网 | 91毛片在线 | 夜色资源网 | 久久久久久亚洲精品 | 国产成人久久av免费高清密臂 | 中文字幕在线观看亚洲 | 国产在线欧美日韩 | 久久久久久久久亚洲精品 | av在线看片 | 丁香综合激情 | 成人精品在线 | 国产精品久久久久久a | 国产精品18久久久久久久久久久久 | 国产成人三级在线播放 | 成人久久18免费网站图片 | 中文字幕久久亚洲 | 中文字幕2021 | 成人av免费 | 超碰在线观看99 | 午夜av一区 | 九9热这里真品2 | 婷婷在线精品视频 | 亚洲 av网站| 国产伦精品一区二区三区免费 | 免费国产一区二区视频 | 丁香婷婷久久 | 精品久久久久久亚洲综合网 | 亚洲区视频在线观看 | 最新黄色av网址 | 亚洲最大在线视频 | 中文网丁香综合网 | 色综合天天做天天爱 | 伊人精品在线 | 伊人影院得得 | 国产精品免费久久久久影院仙踪林 | 伊人天天色 | 波多野结衣久久精品 | 在线播放av网址 | 伊人视频 | 91av欧美 | 日韩欧美高清在线观看 | 精品一区二区在线免费观看 | 黄色精品久久久 | 亚洲蜜桃在线 | 亚洲女人天堂成人av在线 | 操夜夜操| 久久视频精品在线观看 | 99性视频 | 四虎在线观看精品视频 | 欧美性久久久 | 欧美另类sm图片 | 91桃色在线播放 | 日韩精品在线一区 | 在线观看色网站 | 99久久精品费精品 | 国产一区二区久久精品 | 又色又爽又黄高潮的免费视频 | 天天干天天天天 | 国产v视频| 2019国产精品 | 亚洲一区二区精品在线 | 国产精品一区二区三区久久 | 久草在线视频在线 | 国产一级黄色电影 | 美女福利视频一区二区 | 在线播放国产一区二区三区 | av 一区二区三区四区 | 99精品视频在线看 | 亚洲高清久久久 | 国产伦理久久精品久久久久_ | 涩涩网站在线 | 欧美日韩中文视频 | www久久com | 在线中文字幕观看 | 天天操天| 日本精品一区二区在线观看 | 亚洲天堂网视频 | 久草视频在线新免费 | 久久久久久久网 | 久久亚洲免费视频 | 在线观看视频中文字幕 | 亚洲乱亚洲乱亚洲 | 五月天.com | 亚洲精品视频网 | 99精品欧美一区二区蜜桃免费 | 91日韩在线播放 | 久久福利国产 | av在线网站大全 | 美女av在线免费 | 久热超碰 | 人人人爽 | 96精品视频| 激情偷乱人伦小说视频在线观看 | 亚洲区另类春色综合小说校园片 | 久久一久久 | 丁香婷婷久久 | 99久久久免费视频 | 国产精品乱码高清在线看 | 国产乱码精品一区二区三区介绍 | 在线观看黄网站 | 夜夜夜草| 国产一区二区成人 | 欧美一进一出抽搐大尺度视频 | 国产精品av免费在线观看 | 久久久国产一区二区三区 | 国产精品综合久久久久 | 91在线视频免费91 | avhd高清在线谜片 | 日韩毛片一区 | 亚洲二区精品 | 婷婷色站 | 午夜三级影院 | 亚洲欧美视频在线播放 | 色射爱| 婷婷婷国产在线视频 | 99久久er热在这里只有精品66 | 国产亚洲精品久 | 中文免费| 在线视频在线观看 | 免费日韩电影 | 日本在线视频一区二区三区 | 久久与婷婷 | 玖玖综合网 | 日韩免费网址 | 亚洲亚洲精品在线观看 | 91人人澡人人爽人人精品 | 韩国av免费在线观看 | 天天操伊人 | 在线观看视频91 | 成人影音在线 | 欧美日韩视频在线播放 | 国产精品 9999 | 久久欧美综合 | 免费一级片在线 | 91尤物国产尤物福利在线播放 | 亚洲成av片人久久久 | 人人搞人人干 | 久久综合精品国产一区二区三区 | 日韩区在线观看 | 久久久99精品免费观看 | 人人干人人添 | 伊人黄| av网站有哪些 | 国产精品美女久久久久久久久 | 日韩一级电影在线观看 | 伊人春色电影网 | 在线午夜电影神马影院 | 日韩免费看视频 | 91精品国产91久久久久福利 | 日韩视频免费观看高清 | 波多野结衣精品 | 成人a级黄色片 | 欧美性爽爽 | 九七人人干 | 人人干网站 | 91麻豆精品国产自产在线 | 久久免费的精品国产v∧ | 国产伦理久久精品久久久久_ | 叶爱av在线 | 黄色h在线观看 | 国产福利精品一区二区 | 在线中文字幕播放 | 精品久久中文 | 色久天 | 国产黄色av| 久久一区二区三区日韩 | 国产精品久久久久久久久久新婚 | 国产亚洲在线 | 开心综合网 | 天天操人| 欧美久久久一区二区三区 | 国产精品99久久99久久久二8 | 日韩免费视频一区二区 | 亚洲一区二区精品3399 | 欧美激情精品久久久久久变态 | 亚洲国产日韩精品 | 国产精品美女免费看 | 日本成址在线观看 | 国产成人黄色在线 | 国产91精品看黄网站 | 亚洲1区 在线 | 国产91精品欧美 | 国产视频资源在线观看 | 国产精品入口a级 | 日韩一级理论片 | 97色视频在线 | 亚洲国产精品激情在线观看 | 亚洲成人xxx | 中文在线www| 中午字幕在线观看 | 天天爱综合 | 日韩xxxbbb | 欧美精品久久久久久久久久丰满 | 韩国三级一区 | 96久久欧美麻豆网站 | 日韩三级不卡 | 久久久网址 | 久久婷婷五月综合色丁香 | 国产成人精品一区二区三区在线观看 | 欧洲不卡av | 亚洲精品国产高清 | 久久久一本精品99久久精品66 | 国产精品刺激对白麻豆99 | 91av综合 | 欧美精品亚洲二区 | 97色在线观看 | 日韩中文幕 | 在线看片成人 | 国产精品露脸在线 | 中文乱幕日产无线码1区 | 亚洲免费成人av电影 | 精品一区二区综合 | 91手机在线看片 | 久久精品三 |