日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey

發布時間:2023/12/3 编程问答 67 豆豆
生活随笔 收集整理的這篇文章主要介紹了 分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文名稱:Hierarchical reinforcement learning: A comprehensive survey
論文發表期刊:ACM Computing Surveys
期刊影響因子:10.282(2022年)
論文作者: SHUBHAM PATERIA, Nanyang Technological University BUDHITAMA SUBAGDJA and AH-HWEE TAN, Singapore Management University CHAI QUEK, Nanyang Technological University
發表時間:2021年
當前谷歌學術引用量:32

文章目錄

      • 摘要
      • 關鍵詞
      • 1.Introduction
      • 2.Preliminaries
        • 2.1 Reinforcement Learning
        • 2.2 Hierarchical Reinforcement Learning
          • 2.2.1 Formal Definition of a Subtask
          • 2.2.2 Formalism of HRL Based on Semi-Markov Decision Process.
          • 2.2.3 Problem Definition of HRL
        • 2.3 Definitions of Common Terms and Concepts
      • 3.Approaches for hierarchical reinforcement learning
        • 3.1 Learning Hierarchical Policy (LHP)
          • 3.1.1 Feudal Hierarchy Approaches
          • 3.1.2 Policy Tree Approaches
        • 3.2 Learning Hierarchical Policy in Unification with Subtask Discovery (UNI)
          • 3.2.1 Unified Learning of Policy Tree
          • 3.2.2 Unified Learning of Feudal Hierarchy
        • 3.3 Independent Subtask Discovery (ISD)
          • 3.3.1 Discovery of Subgoals
          • 3.3.2 Discovery of Diverse Skills
        • 3.4 Transfer Learning with HRL (TransferHRL)
          • 3.4.1 Transfer + Subtask Policy Distillation
          • 3.4.2 Transfer + Agent-space Subtasks
          • 3.4.3 Transfer + Meta-learning of Subtasks
        • 3.5 Multi-agent Hierarchical Reinforcement Learning (MAHRL)
        • 3.6 Key Takeaways from the Survey of Approaches
      • 4 Open problems for future research
      • 5 Conclusion

摘要

分層強化學習 (HRL) 能夠將具有挑戰性的長期決策任務自主分解為更簡單的子任務。在過去的幾年中,HRL 研究的前景得到了深刻的發展,產生了豐富的方法。要以有組織的方式研究 HRL,需要對這片廣闊的景觀進行全面的概述。我們對各種 HRL 方法進行了調查,這些方法涉及使用 HRL 進行learning hierarchical policies, subtask discovery, transfer learning, and multi-agent learning所面臨的挑戰。該調查是根據一種新穎的方法分類法進行的。在調查的基礎上,提出了一系列重要的開放性問題,以激勵 HRL 的未來研究。此外,我們概述了一些用于評估 HRL 方法的合適任務領域以及 HRL 在補充材料中實際應用的一些有趣示例。

關鍵詞

Hierarchical reinforcement learning, subtask discovery, skill discovery,hierarchical reinforcement learning survey, hierarchical reinforcement learning taxonomy

1.Introduction

人工智能的主要目標之一是開發能夠通過規劃最佳動作序列在環境中執行各種復雜任務的自主agent。強化學習 (RL) 是一種計算范式,用于學習一種策略,該策略在任務環境的各種狀態下采取最佳行動,以最大化agent收到的累積獎勵。為了學習最優策略,agent通過執行狀態-動作-下一個狀態(state-action-next state)的各種序列來探索與任務相關的狀態和動作空間。這種序列的平均長度稱為任務范圍,如果視野很長,而任務涉及大的狀態和動作空間,那么探索空間也會變大。這導致標準 RL 算法在沒有復雜探索技術的情況下在此類長期任務上表現不佳。
Hierarchical Reinforcement Learning 分層強化學習 (HRL) 將長期強化學習任務分解為子問題或子任務的層次結構,以便更高級別的策略通過選擇最佳子任務作為更高級別的操作來學習執行任務。子任務本身可能是一個強化學習問題,需要通過較低級別的策略學習來解決它。這種策略層次共同決定了agent的行為。Task decomposition effectively reduces the original task’s long horizon into a shorter horizon in terms of the sequences of subtasks. This is because each subtask is a higher-level action that persists for a longer timescale compared to a lower-level action, a property that is often referred to as temporal abstraction.(根據子任務的序列,任務分解有效地將原始任務的長視域縮短為更短的視域。這是因為每個子任務都是一個較高級別的action,與較低級別的action相比,它會持續更長的時間,這種屬性通常被稱為時間抽象)。
Temporal abstraction can also enable efficient credit assignment over longer timescales.At the same time, a subtask may itself be easier to learn and the learned subtasks lead to more structured exploration over the course of training of the HRL agent.(時間抽象還可以在更長的時間范圍內實現有效的信用分配。同時,子任務本身可能更容易學習,并且學習的子任務導致在 HRL agent的訓練過程中進行更結構化的探索)。
這些方面使 HRL 成為一種有前途的方法,可以將強化學習擴展到long-
horizon任務。HRL 算法已被證明在幾個長期問題中優于標準RL,例如連續控制任務、long-horizon類型的游戲、機器人操縱等。不同的實證研究發現,HRL 的性能優勢主要是由于使用subtasks/subgoals(子任務/子目標)改進(exploration)探索。
HRL 研究在過去 30 年中取得了長足的進步,產生了大量的方法來解決各種挑戰,例如 learning the policies in a hierarchy, autonomous discovery of subtasks, transfer learning, and multi-agent learning (學習層次結構中的策略、子任務的自主發現、遷移學習和使用 HRL 的多智能體學習)。這導致在以有組織的方式理解該領域的進展方面存在重大困難。因此,有必要進行全面的調查來收集和組織重要的 HRL 方法,并為其分類提供一般分類法。
本次survey與以往survey有何不同?
Barto 等人對截至 2003 年的 HRL 進展進行了調查。該調查包括對經典方法的重要概述,主要是 MAXQ、Options 和 HAMs 。自那次調查以來,HRL 領域發生了重大發展,例如使用subtask discovery using graph analysis, variational inference, autoencoding, unified HRL, subtask discovery in multi-agent HRL, transfer learning with HRL(圖分析的子任務發現、變分推理、自動編碼、統一 HRL、多智能體 HRL 中的子任務發現、使用 HRL 的遷移學習)我們的調查主要與 Barto 等人的調查不同之處從某種意義上說,我們回顧了他們調查后出現的新 HRL 方法,以及它們所涵蓋的經典方法。
Al-Emran等人從 HRL 的實際應用角度進行了一項調查。但是,它不包括一些不適用于所選應用的重要方法,例如最近的 unified HRL techniques, transfer learning with HRL, multi-agent HRL(統一 HRL 技術、使用 HRL 的遷移學習、多智能體 HRL 等)。相比之下,我們對 HRL 方法進行了廣泛的調查,并提供了一個與應用程序無關的通用分類法。
Mendonca 等人的最新調查詳細回顧了基于圖的子任務發現方法。由于范圍有限,他們的調查深入到了基于圖的子任務發現,但排除了 HRL 研究的其他重要方面,例如learning a hierarchy of policies, subtask discovery using variational inference,unified HRL, transfer learning with HRL, multi-agent HRL(學習策略層次結構的技術、使用變分推理的子任務發現、統一 HRL、遷移學習HRL、多代理 HRL 等)。然而,我們回顧了所有這些方法以及基于圖的子任務發現,本著為 HRL 研究提供更廣闊視野的精神。
本文的主要貢獻:本次調查的目的是徹底回顧有關 HRL 的文獻,并提供迄今為止開發的方法的全景圖。主要貢獻如下:
(1)我們對迄今為止在 HRL 領域所做的工作進行了全面調查。該調查包括(learning hierarchies of policies, independent subtask discovery, unified HRL, multi-task/transfer learning with HRL, and multi-agent HRL)學習策略層次結構、獨立子任務發現、統一 HRL、使用 HRL 的多任務/遷移學習和多代理 HRL 的方法。
(2)我們提供了一種新的分類法來組織 HRL 方法沿著重要的特征維度,例如single-agent vs. multi-agent, single-task vs. multi-task, and without subtask discovery vs. with subtask discovery.(單代理與多代理、單任務與多任務,以及沒有子任務發現與子任務發現)
(3)我們確定了一組重要的開放問題,為未來有關 HRL 的可擴展性、效率和理論穩健性的研究提供方向。

本文的其余部分組織如下:在第 2 節中,我們回顧了強化學習、任務分解和 HRL 的一般概念。第 3 節介紹了各種 HRL 方法的分類和調查,以及它們解決的廣泛挑戰。第 4 節討論了有關 HRL 未來研究的重要開放問題。我們在第 5 節結束調查。

2.Preliminaries

2.1 Reinforcement Learning

強化學習的基礎概念這里不做介紹了

2.2 Hierarchical Reinforcement Learning

RL 智能體的目標是尋找一種策略,該策略使智能體在遵循該策略時可以采取的各種可能軌跡上的平均累積獎勵最大化。在探索狀態和動作空間以學習最佳策略時,代理采用各種軌跡,其預期長度為任務范圍。當狀態和動作空間很大且任務范圍很長時,使用標準 RL 方法進行探索變得具有挑戰性。
HRL 提供了一種機制來執行具有挑戰性的任務,方法是使用通過強化學習學習的策略層次結構將其分解為更簡單的子任務。在這樣的層次結構中,最高級別的策略通常選擇主任務的子任務作為其動作。使用在主任務中獲得的獎勵,該策略被訓練為根據其子任務的順序執行完成主任務。在層次結構中的較低級別,較高級別策略選擇子任務本身就是一個強化學習問題。最低級別的策略選擇以下稱為primitive 的基本action。


在此圖中,HRL 代理分解并執行“去夏威夷”(GTH)的長期任務。HRL 代理由策略層次結構組成。任務策略 πGTH 將原始任務 GTH 分解為一系列最高級別的子任務“訂票”(BT)、“前往機場”(GTA)等。任務策略最初選擇 BT。然后,BT 被執行多個時間步長,直到它在時間 T3 終止。在此期間,子任務 BT 的策略,即 πBT 本身會依次選擇不同的較短子任務。這些是“打開預訂網站”(OBW)、“輸入航班信息”(EFI)等。 BT 在 T3 終止后,任務策略選擇 GTA,它本身選擇一個較短的子任務“去出租車站”(GTS)。在每個時間步長中,一個原始動作 a 由最低級別的子任務策略選擇,例如,由 πOBW、πEFI、πGTS 等。

2.2.1 Formal Definition of a Subtask

首先,我們將主要的長期任務表示為Γ,將任務策略表示為 πΓ。任務策略位于層次結構的頂部,例如圖 1 中的 πGTH。子任務表示為 ω,它使用如下描述的組件定義:

  • πω,即(policy of the subtask)子任務的策略。它將環境狀態映射到原始動作或 ω 的子任務。
  • The objective components:
    rω,這是用于訓練 πω 的子任務獎勵。這通常不同于與主任務相關的獎勵。
    gω,它是與 ω 相關的一個子目標或一組子目標。子目標可能是狀態 s ∈ S 本身 ,狀態的抽象形式或者是a learned embedding,獎勵 rω 可以根據子目標來定義。
  • The execution components:
    Iω,是ω的起始條件,它可以被定義為一組狀態。
    βω,是ω的終止條件。它可以定義為一組狀態,如果 ω 正在執行,則應在這些狀態中終止
2.2.2 Formalism of HRL Based on Semi-Markov Decision Process.

HRL 是在半馬爾可夫決策過程 (SMDP)理論的基礎上形式化的。 SMDP 是一個類似于 MDP的隨機控制過程,但與 MDP 不同的是,它還涉及在選擇動作后執行動作的時間概念。在 HRL 的中,具有時間概念的動作是(subtasks)子任務。從狀態 st ∈ S 開始,假設代理選擇子任務 ωt ∈ Ω,其中 Ω 是子任務集(或子任務空間)。然后,SMDP的轉移函數被定義為聯合分布

cωt 表示從狀態st執行 ωt 的(the number of timesteps)時間步數, cωt實際上由終止條件 βωt 確定,它是第 2.2.1 節中定義的執行組件之一。

從狀態 st 開始執行子任務 ωt 而獲得的獎勵表示為 R(st , ωt ),計算如下:

表示獎勵 R(st , ωt ) 等于在遵循子任務策略 πωt 從時間 t 到 cωt 時間步后 ωt 終止時獲得的預期累積獎勵。現在,最佳任務策略將是導致以下所需最大 Qvalue 的策略:

式(5)中的Q值還取決于R(st , ωt )和P (st+cωt ,cωt |st , ωt )。這兩個量是通過使用其策略 πωt 執行 ωt 來確定的。因此,代理實際上需要在任務分解層次結構的不同級別學習多個策略,包括 πΓ 和所有子任務的策略。我們為如下定義的多級層次結構擴展子任務和策略的符號。

  • ωl:層次結構第 l 級的子任務
  • Ωωl : 子任務 ωl 下的子任務集,使得 ωl?1 ∈ Ωωl
  • πωl : S × Ωωl → [0, 1] : 子任務 ωl 的策略。換句話說,ωl?1 由 πωl 選擇
  • Ωω1 = A,即最低層(l = 1)的子任務的輸出空間是原始動作空間A
  • πΓ 和 ΩΓ 分別表示主任務策略和最高級別的子任務集。

綜合上面提供的所有定義,HRL 代理有兩個主要部分:

  • Subtask space (Ωhierarchy).這是層次結構中使用的所有子任務的超集,即 Ωhierarchy = {Ωω2, Ωω3, Ωω4, . . . , ΩΓ}。
  • Hierarchical policy (πhierarchy),HRL 代理采取的原始動作是子任務遞歸選擇的結果。考慮圖 2 中描繪的三級層次結構。在這個層次結構中,主要策略 πΓ 選擇 2 級子任務,即 ω2 = πΓ(s),其中 ω2 ∈ ΩΓ。ω2的策略被執行,直到根據 βω2 終止。他選擇最低級別的子任務 ω1 = πω2 (s),其中 ω1 ∈ Ωω2。ω1的策略被執行直到它按照 βω1 終止。這個最低級別的策略選擇一個原始動作,即 a = πω1 (s)。這種從 πω1 的完整狀態到子任務到動作的映射稱為分層策略,表示為 πhierarchy。現在,整個 HRL 代理所采取的原始動作可以等價地表示為 a = πhierarchy (s)。該描述可以外推到具有三個以上級別的層次結構。

根據上面提供的定義,HRL 代理收到的預期折扣累積獎勵可以寫成:

a ~ πhierarchy |Ωhierarchy 表示使用分層策略 πhierarchy 對原始動作 a 進行采樣,該分層策略πhierarchy 以可用子任務空間 Ωhierarchy 為條件。

2.2.3 Problem Definition of HRL

HRL 的一般問題定義是找到最優分層策略 π? hier archy 和最優子任務空間 Ω? hierarchy 作為解決方案:

等式(7)中表示的 HRL 問題可以分為兩部分。
第一部分是學習分層策略,指的是找到以可用子任務空間為條件的最優分層策略(argmax π hierarchy |Ω hierarchy)。這是必不可少的,因為分層策略決定了 HRL 代理在任何給定任務上的行為。不同層次的策略可以以端到端的方式同時學習。或者它們可以以自下而上的方式一次學習一個級別(learned one level at a time in a bottom-to-top manner)。
第二部分是(subtask discovery)子任務發現,指的是使用 HRL 代理的經驗數據(即argmax Ω hierarchy)自動找到最佳子任務空間。子任務發現不是必需的,因為可以使用精確的領域知識手工制作子任務空間。然而,廣義的 HRL 需要不依賴于手工手工制作。

2.3 Definitions of Common Terms and Concepts

此處定義了本文其余部分中常見的一些重要術語和概念。
Skill:“skill”是一個語義術語,指的是學習執行子任務的原始動作策略,從某種意義上說,這種策略代表了智能體做好某事的能力。

Universal policy:在本文中,“Universal policy”是指可以通過將相應的(subgoals)子目標或(instructions)指令作為輸入來學習所有可能的子任務的策略。比如πω (s) =π (s,gω),其中π (s,gω ) is the universal policy.
State abstraction:狀態抽象是一個映射,比如 φ,它將原始狀態空間 S 映射到某個有限的低維抽象空間。如果 ?(s) = ?(s’)對于一對 s, s‘ ∈ S,則原始狀態空間中的兩個狀態都用抽象空間中的同一個狀態來表示。
Reward abstraction:獎勵抽象意味著作為主任務的一部分給予的獎勵對子任務策略是隱藏的,并且僅由最高級別的策略接收。
“Global” initiation condition:wherever the term “global” is used in reference to the initiation condition Iω, it means that the subtask can be chosen for execution in any of the states in the global state space.

3.Approaches for hierarchical reinforcement learning

本節介紹了為分層強化學習開發的各種方法的回顧和分類。
為了設計這種分類法,所調查的 HRL 方法沿三個獨立的維度排列,如下所示:
(1) Approaches with subtask discovery or without it.
(2) Approaches for training single agent or multiple agents.
(3) Approaches for learning on single task or multiple tasks.
這個三維空間可以有八個可能的劃分。我們發現大多數 HRL 方法都屬于其中的六個部分。根據它們解決的廣泛挑戰,這些方法進一步分為五個主要類別——LHP、UNI、ISD、MAHRL 和 TransferHRL。部分和類別如下:
(1) Single agent, single task, without subtask discovery:
該部分中的方法被歸為一個稱為學習層次策略(LHP)的主要類別。 LHP 方法解決了學習 HRL 代理的分層策略 πhierarchy 的挑戰,而不涉及子任務發現。他們使用手工制作的子任務。
(2) Single agent, single task, with subtask discovery:
本部分中的方法分為兩大類。
第一類稱為“Learning Hierarchical Policy in Unification with Subtask Discovery (UNI)”。UNI 方法以統一或端到端的方式解決了學習子任務空間 Ω hierarchy 和分層策略
π hierarchy 的挑戰。
第二類稱為Independent Subtask Discovery (ISD)。The approaches in this class address the challenge of discovering task-agnostic subtasks independently from any specific task.此類中的方法解決了獨立于任何特定任務發現與任務無關的子任務的挑戰。子任務發現subtask discovery通常在預訓練階段執行,然后子任務用于學習下游任務的 HRL 代理。
(3) Multiple agent, single task, without subtask discovery.
(4) Multiple agent, single task, with subtask discovery.
第 3 類和第 4 類中的方法被歸為一類,稱為多智能體 HRL (MAHRL)。 MAHRL 方法廣泛地解決了在單個聯合任務上學習在多個 HRL 代理之間進行協調的挑戰。
(5) Single agent, multiple tasks, without subtask discovery.
(6) Single agent, multiple tasks, with subtask discovery.
第 5 部分和第 6 部分中的方法被歸為一類,稱為帶HRL 的遷移學習 (TransferHRL)。 TransferHRL 方法廣泛地解決了learning to transfer the hierarchical policy, subtasks, or other knowledge of an HRL agent across multiple tasks學習在多個任務之間遷移層次策略、子任務或 HRL 代理的其他知識的挑戰,其中子任務可能是手工制作或在多個任務上從頭開始發現的。

3.1 Learning Hierarchical Policy (LHP)

本小節回顧了解決學習分層策略 π hierarchy 挑戰的方法,無需子任務發現,用于單個代理和單個任務設置。即使子任務是手工制作的,學習分層策略也是一個不小的挑戰。這是因為任何學習分層策略的方法都必須解決以下關鍵問題:仔細設計算法以學習層次結構各個級別的策略(包括獎勵傳播、價值函數分解、狀態/動作空間設計等),處理由于同時變化的策略導致的非平穩性,確保分層策略作為一個整體的最優性,分層策略的可解釋性等問題。有關 LHP 方法的摘要,請參閱表 1。

LHP 方法大致可以分為兩個子類。
第一個子類稱為封建層次(feudal hierarchy)結構,其中更高級別策略的動作空間由對應于各種子任務的子目標組成。The first sub-class is called feudal hierarchy, in which the action space of a higher-level policy consists of subgoals corresponding to various subtasks. A subgoal chosen by the higher-level policy is taken as input by a universal policy3 at the lower level. The objective of this lower-level universal policy is to achieve the in-put subgoal. The universal policy at each level can be treated as a sub-agent.較高級別策略選擇的子目標被較低級別的通用策略作為輸入,這個較低級別的通用策略的目標是實現輸入的子目標。每個級別的通用策略都可以被視為子代理(作為 HRL agent的一部分)可以在該級別執行所有可能的子任務。This leads to the feudal concept of a “manager” sub-agent (higher-level policy) directing a “worker” sub-agent (lower-level policy)。
第二個子類稱為策略樹(policy tree)。在本次調查中引入此名稱是為了分類,在 HRL 文獻中可能找不到。在策略樹中,高層策略的動作空間由子任務的不同低層策略組成。子任務不是由單一的通用低級策略表示;相反,每個子任務都有一個單獨的策略。高層策略和各種低層策略形成一棵“樹”。高層策略直接選擇低層策略執行,沒有中間子目標。相應的方法在第 3.1.2 節中討論。

3.1.1 Feudal Hierarchy Approaches

Dayan and Hinton引入了封建強化學習(Feudal RL)的基礎封建等級制度。Feudal RL 簡要描述如下:更高級別的manager設置一個子任務,由較低級別的worker執行。這是一種成對關系,如果層次結構有兩個以上的級別,則worker將成為其下一級的manager。manager通過子目標(subgoal)將子任務(subtask)傳達給worker,其中子目標(subgoal)只是原始或抽象狀態空間中的狀態。worker的目標是達到給定的子目標(subgoal)。每個級別的worker是一個universal policy。任務獎勵只能由最高級別的manager觀察,而其他級別的worker則使用達到子目標的獎勵來學習。作者使用不同空間距離處的預定義狀態作為子目標,在網格世界環境中評估 Feudal RL 在迷宮導航任務中的應用。 Feudal RL 比標準 Q Learning更快地收斂到通往迷宮中主要目標狀態的更短路徑。本文中討論的其他封建等級方法(feudal hierarchy approaches)均基于上述Feudal RL 的概念。
Kulkarni等人提出一個Deep HRL方法,由兩層DQN網絡組成,分別代表manager和worker。manager網絡從一組預定義的子目標中選擇一個子目標。它是使用任務獎勵來學習的。worker網絡將子目標作為輸入,并選擇原始動作來實現子目標。使用獎勵來學習達到子目標。子目標是原始狀態或狀態的抽象表征,例如,從圖像中提取的對象代表原始狀態。用于評估的任務之一是 Atari Montezuma 的復仇,其中標準 DQN 在超過 200 萬個時間步的收集獎勵方面幾乎沒有任何進展。然而,隨著訓練的進行,具有預定義子目標的 Deep HRL 會逐漸獲得更高的獎勵。

同時學習多個級別的策略會導致非平穩性問題(the issue of non-stationarity)
這意味著狀態-動作-下一個狀態轉換數據( state-action-next state transition data)是通過執行較低級別的策略生成并由較高級別的策略觀察到的,即使對于在同一狀態下選擇的相同子目標,也會在不同的時間實例中發生變化。這是因為較低級別的策略不是固定的,并且它對(狀態,子目標) (state, subgoal)對的響應在學習過程中會發生變化。非平穩性可能會導致許多無用的數據樣本,需要解決它以實現數據高效學習。
Nachum等人為解決the issue of non-stationarity,提出了具有子目標重新標記(subgoal re-labelling)機制的兩級封建等級制度。這種方法被稱為Hierarchical Reinforcement Learning with Off-policy Correction (HIRO).HIRO 中的子目標重新標記可以描述如下:一個兩級 HRL 代理與其環境交互并收集經驗數據。該數據由轉換元組用于高層的策略,其中r是任務的獎勵,并且用于低層的策略。c 是實現每個子目標的固定時間范圍(time horizon),r gt 是實現 gt 的獎勵。數據隨后用于訓練 HRL 代理的分層策略。然而,如果代理在 c 個時間步后沒有達到 gt,那么子目標在transition數據中被重新標記為gt’從 drawn from a distribution of subgoals that maximize the probability of the observed transitions. 最大化觀察到的transition概率的子目標分布中提取。然后,高層的策略事后將視為其輸出,這與觀察到的transition具有更好的相關性。這樣,HIRO 有效減少了的非平穩性。 HIRO 中的子目標是通過從原始狀態空間中的狀態中選擇選擇性特征來定義的。 HIRO 在 MuJoCo 連續控制任務上進行了評估,并顯示其性能優于標準 RL 和其他少數 HRL 方法。
Levy 等人與 HIRO 同時,提出了一種稱為 Hierarchical ActorCritic (HAC) 的方法,該方法也是通過子目標重新標記(subgoal re-labelling)來解決非平穩性問題。在該方案中,高層數據中的輸出子目標和低級數據中的輸入子目標被代理事后所達到的實際狀態所取代,而不是像 HIRO 中那樣對新子目標進行基于概率的抽樣。這種簡單的方案還可以將層次結構擴展到兩個以上的級別。 HAC 在 MuJoCo 連續控制任務上進行了評估,結果表明其性能優于標準 RL 和 HIRO。此外,作者發現三級層次結構在這些任務上的性能優于兩級層次結構。
Jiang等人提出一個分層抽象語言(HAL)的方法,封建等級也可以通過使用自然語言指令而不是子目標狀態來實現。

3.1.2 Policy Tree Approaches

Options
Sutton等人引入Options framework,在這個框架下將默認的MDP進行了擴展,擴展出包含一系列子任務的MDP,這些子任務叫做 Options。最初的action可以認為是 a single-step Option。一個option w可以用一個元組定義(< Iω, πω, βω >)。Iω ? S是初始的狀態,βω: S → [0, 1]給出 ω 在狀態 s ∈ S 中終止的概率,πω:S × A → [0, 1]是option的policy。一個option可以有或者沒有相關的獎勵函數rw。我們經常假定option被程序員預定義。Option的策略(πω) 預定義為初始策略,可以使用稱為選項內學習( intra-option learning)的機制在特定任務的中進行微調。Intra-option learning使用任務獎勵即使the Option-specific reward rω is given。此外,任何option ω 的 Q 值函數,即 Qω (s, a),表示直到主任務結束的預期累積獎勵,而不僅僅是直到option本身的范圍(或終止)。因此,Option 不是一個獨立的子任務單元,而是融合到核心 MDP 中。這限制了學習option對其他任務的遷移能力,但理論上保證了學習層次策略的最優性。作者評估了網格世界任務的選項框架,發現它比標準 RL 更快地收斂到最佳性能。
MAXQ
Dietterich 提出的 MAXQ 值函數分解將核心 MDP 分解為更小的子 MDP 組件。每個子 MDP 都與一個子任務相關聯,該子任務的策略可以與其他子任務分開學習。這是通過將主 Q 值函數分解為子任務的單獨 Q 值函數來實現的。由于這種分解,任何子任務 ω 的 Q 值,即 Qω (s, a),僅表示該子任務的范圍(或終止)之前的預期累積獎勵。因此,每個子任務策略都可以作為一個獨立的單元來學習,這與Option方法相反,Option中一個子任務被混合到核心 MDP 中。價值分解的好處是,在一個任務上使用 MAXQ 學習的子任務的策略可以很容易地轉移到不同的任務或不同的 MAXQ 代理。將子任務視為獨立單元的缺點是會損害分層策略的最優性。 MAXQ 層次結構只是遞歸最優的,這意味著 MAXQ 可以學習子任務的最優策略,但整體層次策略通常不是最優的。在 MAXQ 中,子任務 ω 的預定義組件是其終止條件 βω(例如,事件、條件、子目標狀態)和獎勵函數 rω。除了選擇其他子任務之外,子任務還可以選擇原始動作。 MAXQ 在網格世界出租車領域進行評估,其性能優于標準 Q Learning。

HAMs

Parr and Russell提出Hierarchy of Abstract Machines, (HAMs),uses stochastic Finite State Machines (FSMs) 表示子任務subtasks,HAM 由一組隨機 FSMs定義 {H}.每個FSM是使用各種機器狀態(machine-states)定義的。機器狀態不同于環境狀態。 FSM 由四種類型的機器狀態組成:動作、調用、選擇和停止(action,call, choice, and stop)。
這部分不做詳細介紹了,感興趣請閱讀原文。

3.2 Learning Hierarchical Policy in Unification with Subtask Discovery (UNI)

本小節回顧了將子任務發現(Subtask Discovery )與單代理和單任務設置的分層策略學習相結合的方法。對于可部署在特定任務上的 HRL 代理,無需預定義或手工制作的子任務,在學習代理的層次策略時,必須同時發現子任務空間(Ωhierarchy)。這需要一種統一或端到端的學習方法,該方法使用相同的數據進行子任務發現和學習分層策略,其中數據是在執行給定任務時收集的。這種統一涉及的一些重要問題如下:discovering the subtask space that maintains the optimality of the hierarchical policy, learning various components of a subtask during discovery (terminations conditions, initiation conditions,subgoals, etc.) from scratch, discovering a dynamic number of subtasks, among other issues.發現保持分層策略最優性的子任務空間,從頭開始學習發現過程中子任務的各個組成部分(終止條件,啟動條件,子目標等),發現動態數量的子任務,以及其他問題。

此后討論的 UNI 方法基于兩種類型的 LHP 方法,the feudal hierarchy (Section 3.1.1) and Options (a policy tree approach, Section 3.1.2).

3.2.1 Unified Learning of Policy Tree

本小節中討論的策略樹方法(policy tree approaches)將discover Options 與分層策略的學習(the learning of a hierarchical policy)相結合。如第 3.1.2 節所述,Option是一個子任務,它使用三個關鍵組件表示:啟動條件 Iω、策略 πω 和終止概率函數 βω。統一選項發現(Unified Option discovery)主要涉及與更高級別任務策略(πΓ)同時學習與每個選項 ω 相關的 πω 和 βω。初始 Iω 也可以學習或設置為全局。這些組件都不是手工制作的。

Daniel等人針對unified Option discovery提出一個基于圖的模型。
Konidaris等人提出一個名為skill chaining 的方法,在學習 HRL 代理的同時逐步構建選項(construct Options),skill chaining 的過程從創建一個option ω 開始,它的子目標集 (gω) 包含主任務的目標狀態。The Option policy πω is learned to reach the subgoals.然后學習分類器以找到 ω 的初始狀態。可以在預定義的時間步數內達到 ω 的子目標的狀態被分類為正數。相反,在時限內無法達到子目標的那些狀態被歸類為否定狀態。積極狀態被添加到初始集 Iω。現在,另一個option ω’被創建,它的子目標集 gω’等于 Iω。然后,上述分類和策略學習過程對 ω’ 重復,以此類推,創建一個option鏈(或技能)。skill chaining發現了靈活數量的option。作者在 Pinball 控制域上對其進行了評估,在該域中它的性能優于標準 RL。最近,Bagaria 等人使用深度強化學習進行連續控制的擴展技能鏈。skill chaining的主要限制是它僅適用于具有明確目標狀態的任務,并且需要在沒有option的情況下進行強大的初始探索才能達到目標狀態。



在上面討論的所有方法中,代理不能在學習的初始階段使用子任務(option)。這是因為代理必須首先收集經驗軌跡以用于發現初始option集。

Bacon提出了一個option框架,可以從學習過程的開始就學習option以及整個分層策略,這種方法稱為 Option Critic (OC)。在OC中,一個固定數量的options are randomly initialized with parameterized policies and termination functions. The higher-level policy is also randomly initialized. Then, the higher-level policy and all the Options (policies and termination functions) are learned using policy gradients derived using the main task rewards.
OC 不使用子目標或特定于option的獎勵,理論上可以保證使用策略梯度學習最優分層策略。在評估中,OC 在 Seaquest、Ms Pacman 等 Atari 游戲中使用深度學習優于標準 RL,它也比skill chaining表現更好。在彈球領域學習的初始階段,OC 的一個限制是它需要預定義option的數量。此外,策略梯度嚴重依賴于主任務獎勵。因此,OC 在稀疏獎勵任務上可能表現不佳。 OC由于其強大的理論基礎成為了統一HRL的流行框架,這導致了基于 OC 的各種方法的出現,這些方法列于表 2 中。

Option-Critic (OC) 框架需要為基于Option的半馬爾可夫決策過程 (SMDP) 定制策略優化算法。這限制了以現成的方式為 HRL 使用其他高級策略優化算法。為了解決這個問題, Zhang 等人提出將 HRL 層次結構公式化為兩個并行的增強馬爾可夫決策過程(MDP),其中每個 MDP 使用一個(as two parallel augmented Markov Decision Processes (MDPs) )增強狀態空間,它是原始狀態空間和option集的叉積。較高級別的 MDP 對學習option對應的策略及其相應的終止條件的問題進行建模,而較低級別的 MDP 對學習option策略的問題進行建模。兩個 MDP 都只使用任務獎勵,沒有子目標或子任務獎勵。提出的這個方法叫做Double Actor Critic (DAC),因為它應用了actor-critic算法來學習兩層的policy。由于增強(augmented)的 MDP 公式,DAC 與各種現成的 actor-critic 算法兼容,用于策略優化。它在各種機器人模擬任務上表現出明顯優于 OC 的性能。但是,與 OC 類似,DAC 需要預先定義選項的數量。
當每個option的終止概率在經過長時間的訓練后變得非常高時,OC 和 DAC 方法可能會遇到更高級別的策略退化現象。這導致更高級別的策略幾乎在每個時間步都從一個選項切換到另一個選項,并且學習的option不專注于任何可識別的行為。Harb等人認為,從策略優化的理論角度來看,時間擴展選項(temporally extended Options)不是必需的,因為最優策略實際上是根據原始動作實現的。為了學習時間擴展option,他們引入了一個正則化器,稱為deliberation cost,這是更高級別策略在切換option時收到的懲罰。這鼓勵更高級別的策略將每個option保留更長的時間,這導致在empirically上比頻繁切換option更好的性能。 deliberation cost包含在 OC 框架中,但 DAC 的作者將這種成本的整合留給未來的工作。當更高級別的策略為整個任務持續時間選擇一個option時,可能會發生另一種形式的退化。這可能是因為如果使用全局啟動條件 Iω,每個option都可以在狀態空間中的任何位置啟動。 Khetarpal 和 Precup提出了一種稱為 Interest-Option-Critic (IOC) 的方法,建立在 OC 框架之上,它使用策略梯度學習每個option的啟動條件,因此各種option可以專注于不同的行為,從而防止退化。

3.2.2 Unified Learning of Feudal Hierarchy

在Feudal的 UNI 層次結構中,子目標空間和各級通用策略是統一學習的。
Vezhnevets等人提出了一種feudal層次的神經網絡,其中稱為“manager”的更高級別的網絡在學習的潛在子目標空間中對子目標進行采樣。子目標可以是潛在空間中的一個點,也可以是表示潛在空間中方向的單位向量。子目標被稱為“worker”的較低級別網絡作為輸入,該網絡必須學習一種策略以使用與子目標的距離作為獎勵來實現子目標。 Worker 使用源自基于子目標的獎勵的常用策略梯度進行訓練。Manager 是使用作者介紹的 transition gradient方法進行訓練。該梯度是使用任務獎勵以及分配給 Worker 的子目標與 Worker 進行的實際狀態轉換之間的距離得出的。因此,Manager 從任務獎勵和 Worker 的行為中學習。 transition gradient被用于學習manager策略和潛在子目標空間。這個方法叫做Feudal Networks (FuN),在 Atari 游戲(如 Montezuma’s Revenge)上表現出比 DQN 和 Option-Critic 更好的性能。

Feudal Networks不保證學習的子目標空間會導致最優的分層策略。Nachum等人提出的基于HIRO 的子目標表示學習方法中解決了這個問題(HIRO 在第 3.1.1 節中討論)。作者基于分層策略的次優性的理論界限推導出優化目標。該目標用于學習將狀態空間轉換為低維子目標空間的函數 fθ (s)。因此,學習到的子目標空間表示最小化了次優性,并且基于 HIRO 的分層策略解決了非平穩性問題。這種方法在 MuJoCo 連續控制任務上進行了評估,同時使用低維狀態空間和高維狀態空間(例如,用作狀態的圖像)。它優于各種其他子目標表示方案,例如such as direct use of the original states (e.g., images) as subgoals, using latent space learned in the style of FuN [99], using subgoal embedding derived from Variational Autoencoder , and so on.直接使用原始狀態(例如圖像)作為子目標,使用以 FuN 風格學習的潛在空間,使用從變分自動編碼器派生的子目標嵌入等等。

3.3 Independent Subtask Discovery (ISD)

本小節回顧了用于單個代理和單個任務設置的(subtask discovery )獨立子任務發現的方法。當目標是自動找到與任務無關且可跨各種未知任務轉移到 HRL 代理的子任務時,就會出現 ISD 挑戰。這意味著子任務發現的過程應該獨立于學習代理的層次策略的過程。ISD 方法背后的共同思想類似于機器學習一般背景下的預訓練 。
在 ISD 方法中,子任務發現通常發生在預訓練階段。然后使用發現的子任務來學習分層策略以執行特定的目標任務。這種預訓練方法導致了 ISD 的一些關鍵問題,如下所示: ensuring that the subtask discovery process is data-efficient, discovering subtasks that allow diverse exploration of the state space independent of any specific task, learning continuous subtask space that allows generalization through sampling of new subtasks on target tasks, among other issues.確保子任務發現過程是數據高效的,發現允許獨立于任何特定任務對狀態空間進行多樣化探索的子任務,學習連續的子任務空間允許通過對目標任務的新子任務進行采樣來進行泛化,以及其他問題。

3.3.1 Discovery of Subgoals
3.3.2 Discovery of Diverse Skills

3.4 Transfer Learning with HRL (TransferHRL)

本小節回顧了通過多任務或遷移學習在多個任務上學習單個 HRL 代理的方法。 TransferHRL 類代表了所有這些方法,無論有或沒有子任務發現。使用 HRL 進行遷移學習的概念源于某些子任務可以跨多個相關任務共享的想法。在一項任務的中學習執行子任務的策略也可用于加速代理對其他相關任務的適應。因此,這是 HRL 中需要解決的一個重要挑戰。
遷移學習在 RL 的中使用,通過將經驗數據、動作策略或 Q 值函數從一個任務轉移到另一個任務來加速后一個任務的學習。在 HRL 中,遷移主要的任務策略(分層策略中的最高級別)的問題可以使用 RL 遷移方法來解決。但是,子任務成為額外的可遷移組件,包括它們的策略、終止/啟動條件、子目標等。與使用標準 RL 的遷移學習相比,這帶來了使用 HRL 的遷移學習 (TransferHRL) 所特有的額外問題。 TransferHRL 特有的一些問題如下:

  • Efficiently scaling to a large number of subtasks during lifelong transfer learning.在終身遷移學習期間有效地擴展到大量子任務。
  • Transferring subtasks across task domains with different state spaces. 跨具有不同狀態空間的任務域傳輸子任務。
  • Learning subtasks from scratch on multiple related tasks.從頭開始??學習多個相關任務的子任務。

本小節將討論這些問題,以及解決這些問題的相應方法。我們重申 ISD 方法(第 3.3 節)學習可以遷移到與任務無關的各種任務的子任務。然而,ISD 方法并沒有解決上述問題。

3.4.1 Transfer + Subtask Policy Distillation

當從一項任務轉移到另一項任務時,例如在終身學習期間,HRL 代理可能會學習并積累大量子任務策略 。由于需要存儲多個子任務策略,天真地將大量子任務添加到更高級別策略的操作空間可能會導致內存效率低下。Tessler等人提出了一個深度 HRL 框架,稱為分層深度強化學習網絡 (H-DRLN),用于內存高效傳輸和保留一組與各種子任務相對應的預訓練策略(without subtask discovery)。這些策略是使用手動定義的目標進行預訓練的。策略通過作者介紹的(multi-skill distillation)多技能蒸餾方式傳輸到 HRL 代理(in a target task)。多技能蒸餾是策略蒸餾的一種形式,它使 H-DRLN 能夠有效地將多個子任務的策略組合成一個單一的蒸餾策略。這使得 H-DRLN 內存高效。在執行目標任務時,H-DRLN 代理使用更高級別的策略來選擇由提煉策略(在較低級別)執行的子任務。與標準 RL 相比,H-DRLN 學習在 Minecraft 游戲11 中執行多項任務,具有更低的樣本復雜度和更好的性能。 H-DRLN 的主要限制是子任務的策略需要使用手動定義的目標(在蒸餾之前)進行預訓練。此外,H-DRLN 能夠將現有策略提煉成目標策略,但不提供持續發現新子任務的方法。

3.4.2 Transfer + Agent-space Subtasks

在特定任務域中學習的子任務策略取決于該特定域的狀態空間 S。如果將該策略轉移到狀態空間不同于 S 的新任務域,則該策略可能不再是最優的。為了解決這個問題,有必要實現域不變傳輸,以便子任務策略對變化的狀態空間具有魯棒性。 Konidarisf等人提出一個方法可以遷移到具有不同狀態空間的各種任務的option。

3.4.3 Transfer + Meta-learning of Subtasks

除了有效地轉移預訓練的子任務之外,從頭開始跨多個任務發現子任務也很重要。Frans提出了一種深度 HRL 方法,用于通過對多個相關任務的元學習來發現option,這種方法稱為元學習共享層次結構Meta Learning Shared Hierarchies (MLSH),包含一組具有跨不同任務共享參數的option,這些option是通過聯合最大化所有任務中獲得的預期獎勵從頭開始學習的(元學習)。MLSH 不使用任何其他手工制作的獎勵或子目標。通過使用特定于任務的更高級別的策略,將學習到的選項轉移到看不見的任務。 MLSH 在 MuJoCo運動域中進行評估,在該域上它優于標準 RL 和 Option-Critic。 MLSH 的主要限制是 Options 的數量需要固定,這限制了使用 MLSH 可以執行的任務的多樣性。簡單地增加選項的數量將需要代理存儲和學習大量的選項策略,這在內存和計算方面可能效率低下。

3.5 Multi-agent Hierarchical Reinforcement Learning (MAHRL)

3.6 Key Takeaways from the Survey of Approaches

通過對本節中廣泛選擇的 HRL 方法的調查,我們旨在提供有關 HRL 研究的廣泛進展和當前狀態的重要見解。在這方面,今后將討論調查方法的一些關鍵要點。

  • 沒有統一的框架來學習分層策略——不同的方法應該為了不同的優勢。
  • 多種原則可用于子任務發現。發現的子任務的質量沒有單一的標準。
  • 沿著大規模技能發現(large-scale skill discovery)的方向可能會出現新的趨勢。

4 Open problems for future research

HRL 在強化學習社區中獲得了更多的興趣。然而,關于 HRL 的可擴展性、效率和理論穩健性,仍然存在不同的未解決問題。今后將討論一些這樣的開放性問題,目的是為未來的研究確定更廣泛的方向。此討論不包括增量問題和任何特定方法的擴展。

  • Building a lifelong knowledge base of transferable skills.建立可轉移技能的終身知識庫。
  • Leveraging high-level planning for improved learning and adaptation.利用高層規劃來改進學習和適應。
  • Providing theoretical support for HRL.為HRL提供理論支持。

5 Conclusion

這項調查提供了迄今為止在分層強化學習 (HRL) 領域所做研究的全景概述,從經典方法到最新進展。設計了一種新穎的通用分類法,根據它們解決的關鍵挑戰將這些方法分為五個大類,它們是:(i)學習分層策略(LHP),(ii)學習與子任務發現統一的分層策略(UNI) , (iii) 獨立子任務發現 (ISD), (iv) 使用 HRL 的遷移學習 (TransferHRL), 和 (v) 多智能體 HRL (MAHRL)。還根據具體方法對方法進行了進一步分類。通過調查,我們發現在解決 HRL 的兩個主要子問題(如何學習分層策略和如何自動發現子任務)方面取得了重大進展,如 HRL 問題陳述中所述(第 2.2.3 節) )。該領域現在正朝著遷移學習和使用 HRL 的多智能體學習的方向邁進,其中可能會出現新的趨勢,特別是在子任務發現方面。盡管取得了這一顯著進展,但 HRL 仍有進一步增長的空間,以鼓勵其作為可擴展且穩健的范式得到更廣泛的接受。在這方面,我們確定了一組重要的開放問題,以激勵未來的研究和進步。這些選擇的問題涉及:(i)可擴展 HRL 的終身技能發現和利用,(ii)通過利用高級規劃提高數據效率,以及(iii)為 HRL 方法的最優性提供更多理論保證。

總結

以上是生活随笔為你收集整理的分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

国产亚洲aⅴaaaaaa毛片 | av成人动漫在线观看 | 中文字幕在线久一本久 | 韩国av一区 | 久99久精品 | 91av网站在线观看 | 国产黄色精品视频 | 91看片网址 | 99激情网 | 久久免费电影网 | 久久综合狠狠 | 国产香蕉久久精品综合网 | 久久精品中文字幕一区二区三区 | 亚洲国产日韩一区 | 日本久久久精品视频 | 最新91在线视频 | 免费看黄在线观看 | 国产精品久久久久久一区二区三区 | 永久中文字幕 | 国产麻豆精品免费视频 | 日本黄色免费看 | 黄色网址中文字幕 | 手机av资源 | 亚洲国产精品va在线看黑人 | 色综合欧洲 | 99久久婷婷国产综合亚洲 | 激情电影影院 | 黄色大全免费网站 | 久草在线免费播放 | 中文av字幕在线观看 | 日韩精品极品视频 | 国产午夜在线观看 | 精品欧美一区二区精品久久 | 99久久久久成人国产免费 | 国产裸体bbb视频 | 少妇bbw搡bbbb搡bbbb | 五月婷婷一区 | 丁香婷婷激情 | 美女免费视频网站 | 国产一区二区精品91 | 亚洲精品成人网 | 欧美日韩国产精品一区二区亚洲 | 久久久久国产精品一区二区 | 中文字幕 欧美性 | 国产精品久久婷婷六月丁香 | 国产91在线 | 美洲 | 久草久 | 久草久草在线 | 免费av观看 | 久久人人97超碰国产公开结果 | 在线观看中文字幕亚洲 | 在线观看不卡视频 | 片黄色毛片黄色毛片 | 久草电影在线 | 夜夜夜精品 | 国产成人精品网站 | 亚洲天天摸日日摸天天欢 | 欧美日韩国语 | 91精彩视频 | 日韩精品免费在线 | 久久久人人人 | 蜜臀久久99精品久久久无需会员 | 国产系列精品av | av解说在线观看 | 国产在线毛片 | 日韩电影在线观看一区 | 亚洲一二区精品 | 狠狠的干狠狠的操 | 久久伦理网 | 欧美日韩综合在线观看 | 日本乱码在线 | 国产亚洲观看 | 在线观看免费一级片 | 成人动漫视频在线 | 黄色a一级视频 | 国产99一区视频免费 | 久久精品1区| 欧美极品一区二区三区 | 久草精品在线观看 | 日批视频在线观看免费 | 免费在线观看毛片网站 | 亚洲精品久久久久www | 成人精品视频 | 99理论片 | 久久综合久久综合九色 | 国产精品久久久久久久99 | 欧美午夜性生活 | 毛片精品免费在线观看 | 玖玖玖精品 | 91精品久久久久久久久 | 久草9视频 | av在线电影网站 | 天天干天天插 | 久久精品人人做人人综合老师 | 中文字幕视频一区二区 | 精品人人爽 | 久久草草影视免费网 | 国产123av| 中文字幕国产一区二区 | 在线观看的av | 丁香六月中文字幕 | 久久激情五月激情 | 国产精品1区2区 | 九九在线视频 | 国产精品久久在线观看 | 国产一区二区精品久久 | 99热高清| 亚洲丝袜中文 | 在线不卡a| 国产精品亚洲片在线播放 | av在线播放一区二区三区 | 免费高清看电视网站 | 日本3级在线观看 | 久久影院中文字幕 | 久久国产成人午夜av影院潦草 | www.天天射.com| 97香蕉久久超级碰碰高清版 | 中文字幕高清 | 国产精品久久久久久婷婷天堂 | 久久免费视频这里只有精品 | 欧美极品xxxx | 97电影院网 | 亚洲精品456在线播放 | 日韩欧在线 | 天堂va在线观看 | 日韩精品一区二区三区免费观看视频 | 国产成人一区二区精品非洲 | 中文字幕色综合网 | 开心激情五月婷婷 | 国产91精品一区二区 | 欧美福利视频 | av不卡中文 | 蜜臀av在线一区二区三区 | 久久人人爽人人 | 最新极品jizzhd欧美 | 久99久精品视频免费观看 | 欧美日韩后 | 亚洲伦理电影在线 | 久久久久久久久久久久av | 久草免费资源 | 91人人揉日日捏人人看 | 精品国产一区二区三区男人吃奶 | 国产精品第52页 | 九九一级片 | 国产午夜精品一区二区三区欧美 | 777xxx欧美| 在线观看中文字幕亚洲 | 久久爱资源网 | 国产精品久久久久久久久久东京 | 黄网站a | 精品人人人人 | av大片免费在线观看 | 国产成人精品一区二 | 日本二区三区在线 | 中文字幕av有码 | 天堂网av 在线 | 国产中文字幕视频在线 | 国产成人av在线 | 97超碰影视 | 九九爱免费视频 | 国产亚洲精品美女久久 | 国产精品igao视频网入口 | 日韩在线国产精品 | 黄av免费在线观看 | 天天插一插| 激情五月播播久久久精品 | 99久久99久久精品免费 | 国产精品久久久久av免费 | 不卡的av在线播放 | 亚洲精品mv在线观看 | 久久综合婷婷 | 国产激情久久久 | 韩国一区二区三区在线观看 | 日韩在线网 | 免费在线色视频 | 欧美在线视频第一页 | 精品亚洲欧美一区 | 国产高清一级 | 人人干人人添 | 91尤物国产尤物福利在线播放 | 婷婷免费在线视频 | 久久精品2| 成人影音av | 麻豆果冻剧传媒在线播放 | 天天色天天草天天射 | 国产精品 日韩精品 | 久久999精品 | 99久久国产免费,99久久国产免费大片 | 国产中文字幕视频在线观看 | 久久99精品久久久久久秒播蜜臀 | 久久精品国产亚洲a | 国产精品毛片久久久久久久 | 久久国产欧美日韩 | 国产精品久久久久久久久久东京 | 国产美女无遮挡永久免费 | 又色又爽的网站 | 一区二区三区在线视频观看58 | 欧美亚洲国产精品久久高清浪潮 | 亚洲日本中文字幕在线观看 | 99久久99久久 | 色视频 在线 | 日本黄色大片免费看 | 99精品视频免费观看视频 | av综合站 | 欧美一级片在线播放 | 欧美成人基地 | 黄色av网站在线观看免费 | 高清一区二区三区 | 欧美a级片网站 | 美女很黄免费网站 | 91九色国产蝌蚪 | 日本中文字幕高清 | 精品主播网红福利资源观看 | 欧美黄色高清 | 2022久久国产露脸精品国产 | 日韩在线视频观看免费 | 毛片精品免费在线观看 | 国产精品久久久久国产a级 激情综合中文娱乐网 | 色婷丁香 | 天操夜夜操 | 国产在线国偷精品产拍免费yy | 日韩欧美在线观看一区二区 | 午夜精品区 | 日韩国产欧美在线播放 | 国产成人区 | 久久久影院官网 | 激情丁香婷婷 | 国产一二区免费视频 | 狠狠插天天干 | 日韩 | 欧美 日韩 久久 | 99久久精品免费看国产麻豆 | 国产精品一区二区久久精品 | 日韩精品短视频 | 免费美女久久99 | 五月婷婷欧美 | 亚洲国产日韩欧美 | 色综合久| 99久久精品国产系列 | 国产精品99久久免费黑人 | 一区二区久久久久 | 极品嫩模被强到高潮呻吟91 | 有码中文字幕在线观看 | 中字幕视频在线永久在线观看免费 | 国产精品成人久久久 | 五月色婷 | 成年人在线看片 | 亚洲va欧洲va国产va不卡 | 日韩激情第一页 | 亚洲综合网 | 亚洲国产经典视频 | 国产精品va在线播放 | 国产日韩欧美在线观看 | 免费成视频 | 日韩女同av| 久热国产视频 | a级片韩国 | 中文字幕在线第一页 | 夜色资源站国产www在线视频 | 中文字幕日本在线 | 欧美日韩超碰 | 婷婷亚洲五月色综合 | 亚洲黄色在线播放 | 日韩欧美专区 | 国产五月天婷婷 | 精品字幕| 亚洲爽爽网 | 香蕉影院在线 | 9999精品免费视频 | 久久神马影院 | 精品亚洲成人 | 免费av福利 | 国产精品国产亚洲精品看不卡15 | 国产一级免费观看视频 | 91精品国产91p65 | 三级黄色欧美 | 亚洲免费av片 | 91av99| 91你懂的 | 欧美午夜a | 91精品国产99久久久久 | 手机成人在线电影 | 二区三区中文字幕 | 久久久久久久久久久免费av | 免费婷婷 | 乱男乱女www7788 | 中文字幕一区二区三区精华液 | 午夜骚影 | 国产99久久九九精品 | 99久久精品国产一区二区成人 | 精品久久一区二区 | 91香蕉视频黄色 | 狠狠色丁香婷综合久久 | 欧美精品日韩 | 99久久精品网| 天天干天天操天天射 | 婷婷激情影院 | 免费又黄又爽的视频 | 成 人 黄 色视频免费播放 | 国产高清在线免费视频 | 91麻豆网| 国产一区二区三区四区大秀 | 黄色福利视频网站 | 999一区二区三区 | 日韩在线观看影院 | 蜜臀91丨九色丨蝌蚪老版 | 18国产精品福利片久久婷 | 免费看日韩 | 91精品视频免费在线观看 | 亚洲欧洲精品一区二区 | 欧美久久久久 | 黄色软件网站在线观看 | 一区二区三区免费播放 | 美女视频a美女大全免费下载蜜臀 | 91九色porny在线 | 一本一道波多野毛片中文在线 | 在线观看你懂的网站 | 一区三区视频在线观看 | 日韩视频一区二区三区在线播放免费观看 | 99热手机在线观看 | 亚洲视频在线观看 | 国产资源网 | 麻豆久久一区 | 狠狠亚洲 | 国产69精品久久久久久久久久 | 在线欧美国产 | 国产中文字幕第一页 | 91久久国产自产拍夜夜嗨 | 日韩黄色一级电影 | 国产激情电影综合在线看 | 久草| 国产不卡视频在线播放 | 91桃色国产在线播放 | 国产欧美中文字幕 | 国产成人在线网站 | 国产综合久久 | 午夜久久久久久久久久影院 | 国产视频综合在线 | 免费看黄色毛片 | 久久免费国产电影 | 高潮毛片无遮挡高清免费 | 视频二区在线 | 国产精品乱码在线 | 亚洲三级在线免费观看 | 国产小视频在线免费观看 | 伊人五月婷 | 超碰精品在线 | 欧美日韩性视频 | 国内精品免费 | 三级av在线免费观看 | 日韩中文字幕网站 | 亚洲激情在线播放 | 一区二区 精品 | 人人干人人超 | 欧美 激情 国产 91 在线 | 日本高清xxxx | 91精品免费在线 | 在线观av | 992tv人人网tv亚洲精品 | 狠狠综合久久 | 丁香花在线观看视频在线 | 久草热久草视频 | 久久精品91久久久久久再现 | 欧美日韩一区二区在线观看 | 天天干天天操人体 | 成人一区二区三区在线观看 | 伊香蕉大综综综合久久啪 | 成人九九视频 | 97手机电影网 | 中文在线字幕免费观 | 91一区二区三区在线观看 | 九九久 | 亚洲国产美女久久久久 | 国内精品免费 | 91成年人在线观看 | 亚洲精品777| 又色又爽的网站 | 91久久黄色| 日韩精品在线免费观看 | 99一级片 | 色www精品视频在线观看 | wwwwww黄| 久久 精品一区 | aⅴ精品av导航 | 九九视频在线 | 欧美日韩1区2区 | 成年人免费av网站 | 国产 日韩 欧美 在线 | 四虎亚洲精品 | 青春草视频在线播放 | 91久久久久久久一区二区 | 91高清视频免费 | 国产不卡免费av | 日韩精选在线观看 | 激情网站免费观看 | 午夜视频二区 | 男女激情免费网站 | a视频免费看| 亚洲1级片| 欧美国产一区二区 | 在线免费观看亚洲视频 | 精品国产伦一区二区三区免费 | 中文字幕视频网站 | 成人av免费在线播放 | 天天躁天天躁天天躁婷 | 欧美性成人 | av中文天堂在线 | 国产a视频免费观看 | 毛片一区二区 | 99精品视频在线观看 | 国产精品九九视频 | 9久久精品 | 婷婷播播网 | 人人爱在线视频 | 亚洲草视频 | 成片免费观看视频999 | 欧美成人精品在线 | 国产视频欧美视频 | 中文字幕av在线电影 | 麻豆视频免费在线播放 | 一区二区欧美日韩 | 久久久久久综合 | 丝袜网站在线观看 | 国产成人三级在线观看 | 国产精品久久久久免费a∨ 欧美一级性生活片 | 一区二区视频免费在线观看 | 四虎www com| 国产剧情在线一区 | 国产精品黄色 | www激情久久 | 成av在线 | 99久久99久久综合 | 99在线精品视频 | 偷拍福利视频一区二区三区 | 国产又粗又猛又色又黄视频 | 999色视频| 日韩在线视频播放 | 国产日韩精品欧美 | 国产精品99久久久精品免费观看 | 亚洲精品国产精品国自产观看 | 亚洲激情在线视频 | 日韩欧美在线视频一区二区 | 亚洲做受高潮欧美裸体 | 欧美精品久久久久性色 | 精品欧美一区二区在线观看 | 国产福利91精品一区二区三区 | 久久免费视频3 | 中文字幕人成乱码在线观看 | 成人av在线一区二区 | 久久久国产成人 | 91成人精品国产刺激国语对白 | 久久免费视频网站 | www.干| 国产精品久久久久aaaa九色 | 伊人久久五月天 | 国产91免费在线观看 | 日本黄色片一区二区 | 天天爽夜夜爽精品视频婷婷 | 国内精品在线看 | 天堂av网址| 69av久久| 欧美91av | 国产日本亚洲高清 | 日韩美在线 | 又大又硬又黄又爽视频在线观看 | 伊人久久国产精品 | 国产精品久久久久久一区二区 | 日韩网| 中文字幕一区二区三区四区视频 | 久久精品人人做人人综合老师 | 一区二区男女 | 又污又黄网站 | 欧美一级片在线观看视频 | 日本黄色大片儿 | 国产清纯在线 | 国产色综合天天综合网 | 狠狠操狠狠干天天操 | 黄网站色欧美视频 | 香蕉视频在线看 | 成人黄色小说在线观看 | 欧美日韩在线视频免费 | www亚洲精品| 国产精品免费看久久久8精臀av | 久久久久国产精品午夜一区 | 天堂在线一区 | 国产一级a毛片视频爆浆 | 国内精品久久久久久久影视简单 | 国产美女在线精品免费观看 | 91成人精品一区在线播放 | 久久综合狠狠 | 综合色久 | 久久精品国产一区二区三 | 午夜精品一区二区三区在线播放 | 中文字幕在线成人 | 成人永久在线 | 国产精品人人做人人爽人人添 | 毛片888| 九九热免费在线观看 | 国产午夜剧场 | 久久久久久久久久久网 | 免费av福利 | 精品国产成人 | 成人资源在线观看 | 久久欧美在线电影 | 色综合久| 狠狠操影视 | 中文字幕国产一区 | 中文字幕一二三区 | 亚洲丝袜中文 | 99精品视频免费在线观看 | 久久99在线| 日韩欧美高清一区二区三区 | 草久在线观看视频 | www在线观看视频 | 亚洲a色 | 在线免费视频你懂的 | 国产免费一区二区三区最新 | 日日夜夜天天久久 | 久久er99热精品一区二区三区 | av手机在线播放 | 日韩av在线小说 | 91亚洲国产成人久久精品网站 | 狠狠躁日日躁夜夜躁av | 91在线中字 | 91热视频在线观看 | 欧美 亚洲 另类 激情 另类 | 久久久久久久久久国产精品 | 99久久精品午夜一区二区小说 | 免费网站黄 | 97超碰人人爱 | 久久成人久久 | 99热这里只有精品在线观看 | 色噜噜在线观看视频 | 高清在线一区 | 久久久久久久久久久久电影 | 亚洲一区欧美精品 | 看国产黄色片 | 国产精品理论片 | 91九色蝌蚪国产 | 久久精品国产成人精品 | 欧美人人爱| 国产伦理久久精品久久久久_ | 日韩欧美在线视频一区二区 | 五月天亚洲婷婷 | a精品视频 | 91成人破解版 | 国产日产精品久久久久快鸭 | 国产在线视频一区二区 | 中文字幕免费一区二区 | 99精品视频免费看 | 精品久久久久_ | 日韩 在线观看 | av黄色亚洲| 久在线观看视频 | 99视频免费 | 欧美另类重口 | 又黄又爽又湿又无遮挡的在线视频 | 日韩在线观看精品 | 91精品国产99久久久久久红楼 | 亚洲欧美日韩国产精品一区午夜 | 久久国产精品成人免费浪潮 | 国产爽妇网 | 国产成年免费视频 | 国产一区二区三区久久久 | 精壮的侍卫呻吟h | 久久综合影视 | 亚洲免费国产视频 | 日本在线成人 | 成人黄色在线 | 国产在线综合视频 | 国产中文字幕第一页 | 日日干av | 久久这里只有精品视频99 | 丁香婷婷激情 | 三级黄色大片在线观看 | 夜夜操天天干, | 97超碰中文字幕 | 国产精品成人免费一区久久羞羞 | 国产午夜影院 | 91在线中文 | 91插插插免费视频 | 国产一区二区手机在线观看 | 亚洲伊人网在线观看 | 欧美人人 | 91在线区 | 在线国产专区 | 国产黑丝一区二区 | 国产精品久久久久久久久久99 | 国产中文视 | h文在线观看免费 | 欧美日韩视频在线观看一区二区 | 日韩一级片大全 | 国产一级免费在线 | 少妇高潮流白浆在线观看 | 精品uu | 免费日韩 精品中文字幕视频在线 | 97看片| 好看的国产精品视频 | 国产在线毛片 | 欧美日韩国产mv | 日韩a在线观看 | 欧洲精品在线视频 | 国产麻豆视频免费观看 | 亚洲蜜桃在线 | 日本中文字幕高清 | 国产午夜精品一区二区三区在线观看 | 波多野结衣精品在线 | 国产精品久久久久免费 | 波多野结衣在线观看一区 | 日韩欧美在线一区二区 | 国产精品美乳一区二区免费 | 成人av免费电影 | 99中文在线| 久久不卡电影 | 91爱爱网址 | 欧美 激情 国产 91 在线 | 国产人成看黄久久久久久久久 | 国产淫片免费看 | 制服丝袜在线91 | 三级动态视频在线观看 | 亚洲精品视频久久 | 亚洲成av人片在线观看无 | 久久久久久久久久久久久久免费看 | 久久精品99久久久久久2456 | 久久综合婷婷国产二区高清 | 日韩美女黄色片 | 中文字幕免费观看 | 丁香六月天婷婷 | 97精品久久 | 尤物九九久久国产精品的分类 | 99久久激情视频 | 成人国产精品免费 | 免费精品视频在线观看 | 男女啪啪免费网站 | 九九99靖品 | 亚洲做受高潮欧美裸体 | 麻豆精品视频 | 三级av网站 | 91av资源网| 国产又粗又猛又色 | 四虎在线免费视频 | 2024国产精品视频 | 91精品国自产在线观看 | 久草在线视频网 | 午夜色影院 | 久久综合中文字幕 | 91精品国产综合久久福利 | 日韩免费区 | 最新av观看| 亚洲色图22p | 在线观看视频中文字幕 | 亚洲激情综合 | 亚洲黄色在线播放 | 国产黄色片网站 | 日本aaaa级毛片在线看 | 久久久免费在线观看 | 久热电影 | 99色在线播放 | 99精品偷拍视频一区二区三区 | 欧美 激情 国产 91 在线 | 国产精品一区二区免费在线观看 | 久久国产精品成人免费浪潮 | 婷婷 综合 色 | 日韩成人精品在线观看 | 亚洲成人精品久久 | 92av视频 | 婷婷九九| 国产精品一区二区三区久久久 | 涩涩网站在线 | 91免费网站在线观看 | 四虎成人网| 中文字幕成人一区 | 免费精品视频在线观看 | 亚洲精品视频在线免费 | 伊人五月天 | 在线观看免费一区 | 久久免费视频国产 | 91麻豆精品国产91久久久无需广告 | 欧美日韩国语 | 久久男女视频 | 日韩一区二区三区免费视频 | 国产精品密入口果冻 | 久久国产99| 久久久伊人网 | 久久亚洲二区 | 激情婷婷综合网 | 亚洲综合狠狠干 | 亚洲国产伊人 | 午夜精品久久久久久久久久久 | av在线直接看 | 久草精品视频在线看网站免费 | 一级片视频免费观看 | 特级毛片aaa | 国产伦精品一区二区三区无广告 | 激情小说久久 | 日本久久高清视频 | 国产精品va在线观看入 | 91成人在线视频 | 涩涩资源网 | 免费碰碰 | 久久久久五月天 | 国产精品一区二区在线播放 | 九九国产精品视频 | 国产91全国探花系列在线播放 | 国产精品综合在线 | 激情久久久久 | 亚洲精品视频免费在线观看 | 欧美日韩在线电影 | 日韩高清精品免费观看 | 99久久精品国产观看 | 欧美日韩国产精品一区二区亚洲 | 人人干网 | 国产黄视频在线观看 | 欧美一区二区精美视频 | 人人爱在线视频 | 色婷婷激情电影 | 91免费国产在线观看 | 成片人卡1卡2卡3手机免费看 | 天天干天天射天天操 | 国产亚洲精品成人 | 欧美日韩中文字幕在线视频 | 麻花豆传媒一二三产区 | 久久精品国产一区二区电影 | 99精品视频免费看 | 一级成人免费 | 99在线高清视频在线播放 | 国产特级毛片 | 又黄又爽免费视频 | 日韩一二三在线 | 亚洲成人资源在线观看 | 九九免费精品视频在线观看 | 91视频在线免费下载 | www.av在线播放 | 天天爽天天爽天天爽 | 日韩免费在线观看 | 黄色电影网站在线观看 | 久久婷婷色 | 日一日干一干 | 国产精品久久嫩一区二区免费 | 久久色中文字幕 | 深爱激情av | 欧美在线一级片 | 亚洲视频久久久久 | 麻豆 videos | 久久久高清 | 成人黄色大片在线免费观看 | 六月色婷婷 | 午夜精品久久久久久久99 | 日本h视频在线观看 | 亚洲色图22p | 免费一级日韩欧美性大片 | 探花视频在线观看免费版 | 99国产免费网址 | 一级性视频 | 日韩一区二区在线免费观看 | 久草在线视频免费资源观看 | 久久久久久免费网 | 夜夜高潮夜夜爽国产伦精品 | 99精品视频一区二区 | 97视频在线观看网址 | 国产色视频一区 | 日韩av视屏 | 色噜噜在线观看 | 精品国产a| 特黄特色特刺激视频免费播放 | 免费福利在线播放 | 91成人午夜| 婷婷午夜 | 日本三级香港三级人妇99 | 欧美 日韩 视频 | 日韩精品短视频 | 精品一区二区精品 | 久久国产精品99久久久久久进口 | 狠狠色狠狠色综合系列 | 国产精品久久久久影院日本 | 手机看片99 | av中文字幕日韩 | 亚洲黄色成人 | 人人精品久久 | 亚洲 中文字幕av | 亚洲国产中文字幕在线观看 | 欧美在线视频日韩 | 亚洲精品午夜国产va久久成人 | 午夜天使| 在线观看亚洲精品 | 视色网站| 国产精品永久免费 | 日韩三级在线 | 欧美日韩亚洲在线观看 | 日本黄色免费在线观看 | 一区三区在线欧 | 国产亚洲综合性久久久影院 | 色就色,综合激情 | 狠狠躁天天躁综合网 | 手机在线欧美 | 久久久久久久久久久国产精品 | 麻豆传媒视频在线免费观看 | 麻豆极品 | 丁香婷婷综合五月 | 激情校园亚洲 | 干干日日 | 日本精品免费看 | 久久草草热国产精品直播 | 中文字幕在线视频一区二区 | 国产精品九九九 | 91久草视频| 2020天天干夜夜爽 | 精品视频 | 婷婷成人亚洲综合国产xv88 | 激情五月综合网 | 西西人体4444www高清视频 | 夜夜操狠狠干 | 天天天色综合a | 色香蕉视频 | 日韩理论在线 | 人人澡人人干 | 国产精品99在线播放 | a级国产毛片 | 中文字幕第一页在线播放 | 欧美亚洲国产日韩 | 日日干天天插 | 在线导航福利 | 日韩3区 | 2022久久国产露脸精品国产 | 国内免费久久久久久久久久久 | 国内免费久久久久久久久久久 | 射久久久 | av网站在线免费观看 | 中文字幕在线有码 | av在线电影网站 | 九九av | 久久国产影视 | 久久免费中文视频 | 91视频a| 免费日韩视频 | 欧美亚洲专区 | 成年人免费观看在线视频 | 手机av在线网站 | 人人爽人人做 | 天天操天天摸天天爽 | v片在线看 | 二区三区毛片 | 超碰在97| 色五丁香| 精品国产一区二区三区在线 | 天天干天天在线 | 婷婷色伊人 | 久久久视频在线 | 日韩精品一卡 | 在线免费亚洲 | 欧美视频一区二 | 天堂av在线网址 | 国产免费高清视频 | 波多野结衣视频一区二区三区 | 久久国产一区二区 | 91精品免费在线 | 国产精品久久久久久999 | 久久精品免费播放 | 日韩免费视频一区二区 | 久久伊人热 | 91九色蝌蚪国产 | 97在线精品国自产拍中文 | 又色又爽又黄高潮的免费视频 | 最近字幕在线观看第一季 | 狠狠色噜噜狠狠狠狠 | 国产成人在线免费观看 | 国产精品一区二区精品视频免费看 | 欧美另类巨大 | 日本中文字幕在线一区 | 看毛片网站| 狠狠色丁香久久婷婷综合五月 | 亚洲精品国产精品乱码在线观看 | 精品女同一区二区三区在线观看 | 欧美日韩亚洲第一 | 在线观看一区二区视频 | 在线免费观看视频一区二区三区 | 国产精品黄色影片导航在线观看 | 91精品视频在线 | 少妇bbbb搡bbbb搡bbbb | 国产精国产精品 | 日产中文字幕 | 国产精品久久久久久久久久久免费 | 亚洲精品久久视频 | 色妞色视频一区二区三区四区 | 亚洲手机av| 麻豆视频免费看 | 国产一区二区观看 | av免费电影网站 | 国产视频欧美视频 | 国产免费视频在线 | 国产手机在线观看 | 免费的黄色的网站 | 日本中文字幕一二区观 | 亚洲欧美日韩国产精品一区午夜 | 日本中文字幕在线电影 | 欧美成人播放 | 香蕉成人在线视频 | 在线综合 亚洲 欧美在线视频 | 人人爽人人爽人人爽学生一级 | www久久九| www.日日日.com | 在线电影中文字幕 | 中文字幕第 | 久久综合婷婷国产二区高清 | 亚洲国产精品一区二区尤物区 | 久久精品99久久久久久 | 麻豆视频在线播放 | 国产免费一区二区三区最新 | av一区二区三区在线 | 成人精品视频 | 久久久久久久久久久久亚洲 | 在线亚洲激情 | 人人玩人人添人人 | 97精品国产97久久久久久 | 黄色三级在线 | 黄色高清视频在线观看 | 91精品国产91久久久久久三级 | 国产97在线视频 | 天天草天天 | 开心激情网五月天 | 天天综合网在线观看 | 久久精品国产成人 | 91热这里只有精品 | 在线韩国电影免费观影完整版 | 国产免费黄色 | 日韩视频一区二区在线观看 | 天天天插 | 久久午夜精品视频 | 人人干干人人 | 精品免费久久久久久 | 在线视频第一页 | 超碰在线人人爱 | 日日激情| 亚洲日本成人网 | 国产成人三级在线观看 | 在线不卡中文字幕播放 | 欧美日产在线观看 | 综合精品在线 | 亚洲一级黄色片 | 国产福利91精品一区二区三区 | a在线免费 | 亚洲精色| 国产精品对白一区二区三区 | av视屏在线播放 | 久久国产网站 | 91亚洲精品乱码久久久久久蜜桃 | 天天舔天天搞 | 久久精品视频播放 | 久久久福利视频 | 国产精品欧美久久久久三级 | av色图天堂网 | 日韩a在线 | 国产不卡网站 | 久久久久久看片 | 国产露脸91国语对白 | 成人一级免费电影 | 最近日本字幕mv免费观看在线 | 成人看片 | 国产三级精品三级在线观看 | 国产91精品看黄网站在线观看动漫 | 色综合国产| 国产精品9999 | 永久免费观看视频 | 久草综合在线观看 | 美女黄网站视频免费 | 亚洲最新av在线网站 | 91精品国产福利在线观看 | 91看片在线免费观看 | 97超碰在线久草超碰在线观看 | 国产不卡在线观看 | 五月婷网 | 国产日韩欧美精品在线观看 | 国产精品女同一区二区三区久久夜 | 成人免费观看av | 久草精品免费 | 午夜美女视频 | 日韩精品一区在线观看 | 欧美在线视频二区 | 玖玖玖在线观看 | 欧洲激情综合 | 欧美精品久久久久久久久老牛影院 | 欧美日韩三区二区 | 亚洲欧美一区二区三区孕妇写真 | 日韩视频一区二区三区在线播放免费观看 | av蜜桃在线 | 日韩高清免费观看 | 欧美男女爱爱视频 | 在线观看黄网站 | 狠狠做深爱婷婷综合一区 | 久久精品aaa | 亚洲综合在线五月 | 伊人伊成久久人综合网站 | 午夜黄色一级片 | 日韩av线观看| 在线观看aa | 色综合中文综合网 | 国产视频欧美视频 | 婷婷网五月天 |