日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

COMA(二):Counterfactual Multi-Agent Policy Gradients 论文讲解

發(fā)布時(shí)間:2023/12/4 编程问答 74 豆豆
生活随笔 收集整理的這篇文章主要介紹了 COMA(二):Counterfactual Multi-Agent Policy Gradients 论文讲解 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Counterfactual Multi-Agent Policy Gradients

論文鏈接:https://arxiv.org/pdf/1705.08926.pdf

1. 問(wèn)題提出(解決了什么問(wèn)題?)


在現(xiàn)實(shí)世界中,有非常多的問(wèn)題需要多個(gè)單位之間的“合作”才能完成任務(wù),這就需要學(xué)習(xí)一種非中心式策略的控制系統(tǒng),即每個(gè)agent有著屬于自己的決策大腦,而非靠擁有全局信息的決策系統(tǒng)下達(dá)指令(畢竟有時(shí)候全局的信息量過(guò)于龐大,并且agent到中心網(wǎng)絡(luò)的通信不一定每時(shí)每刻都穩(wěn)定,因此中心式的決策系統(tǒng)很難實(shí)現(xiàn))。因此,該論文提出了一種方法用于學(xué)習(xí)非中心式的、部分可觀測(cè)的多智能體協(xié)同的控制策略。
COMA利用全局評(píng)價(jià)網(wǎng)絡(luò)(critic)來(lái)評(píng)價(jià)Q值,利用非全局行為網(wǎng)絡(luò)(actor)來(lái)決定agent的行為。由于在訓(xùn)練時(shí)使用的是全局網(wǎng)絡(luò)進(jìn)行評(píng)價(jià),并且采用參數(shù)共享的方式,使得agent能夠在做行為選擇的時(shí)候參考其他agent的狀態(tài)再做決定,這就加入了“協(xié)同”的功能。


2. 介紹

該論文分為以下三個(gè)部分:

  • 提出傳統(tǒng)的RL算法在協(xié)同任務(wù)中不足

若使用傳統(tǒng)的RL算法來(lái)解決多智能體的問(wèn)題,則會(huì)存在以下三個(gè)不足之處:

  • 輸入的action space應(yīng)該是所有agent的聯(lián)合動(dòng)作空間(joint action space),這個(gè)空間會(huì)隨著agent數(shù)量增加而增加。
  • 此外,由于部分可觀測(cè)性(即單個(gè)agent在某一時(shí)刻只能觀測(cè)到部分環(huán)境的信息,無(wú)法獲得全局信息,比如一個(gè)小兵只能看到視野范圍內(nèi)的地圖信息,視野外的地圖信息是無(wú)法觀測(cè)的),使得agent在做決策時(shí)只能依照自己當(dāng)前的部分觀測(cè)信息(local observation),沒(méi)有與其他agent進(jìn)行信息共享的能力。
  • 使用聯(lián)合動(dòng)作空間獲得的reward是來(lái)自所有agent采取的所有action共同得到的reward,這就很難知道每一個(gè)agent的action應(yīng)該得到的多少子回報(bào),這就是原文中提到的 “Individual Reward Assignment”。
    • COMA中的主要思想

    COMA是一種基于actor-critic的變種方法,其中actor是依照critic評(píng)估出來(lái)的梯度值進(jìn)行更新學(xué)習(xí)的。整個(gè)算法共有三個(gè)比較核心的思想:

  • 學(xué)習(xí)過(guò)程中會(huì)有一個(gè)中心式評(píng)價(jià)網(wǎng)絡(luò), 這個(gè)網(wǎng)絡(luò)主要用于對(duì)actor選擇的決策進(jìn)行好壞評(píng)價(jià)以此來(lái)教會(huì)actor如何做一個(gè)好的決策。為什么稱為中心式的網(wǎng)絡(luò)?這是因?yàn)樵摼W(wǎng)絡(luò)可以獲取場(chǎng)景中的全局信息,包括所有agent在這一時(shí)刻采取的行為信息觀測(cè)信息。但是,單個(gè)agent在利用actor做行為選擇時(shí)只能依照自身的當(dāng)前觀測(cè)信息和經(jīng)歷過(guò)的歷史信息進(jìn)行決策,做決策時(shí)是無(wú)法獲得全局信息的。這種方式被稱為“中心式評(píng)價(jià),邊緣式?jīng)Q策”。
  • COMA引入了一個(gè)概念叫做 “反事實(shí)準(zhǔn)則(counterfactual baseline)” ,這個(gè)概念是整篇論文的重點(diǎn)。為了解決 Individual Reward Assignment 的問(wèn)題,反事實(shí)準(zhǔn)則提出,每個(gè)agent應(yīng)該擁有不同的reward,這樣才能知道在這一次的全局行為決策中單個(gè)agent的action貢獻(xiàn)是多少。而單個(gè)agent的reward通過(guò)兩個(gè)值計(jì)算得來(lái):當(dāng)前情況下的全局reward和將該agent行為替換為一個(gè)默認(rèn)行為后的全局reward。可以這樣理解:該回報(bào)值其實(shí)計(jì)算的是Agent aaa采取行為 uuu 會(huì)比采取默認(rèn)行為 cac_aca? 要更好(DaD^aDa > 0)還是更壞(DaD^aDa < 0)。這個(gè)特定agent特定動(dòng)作reward就被稱為counterfactual baseline,COMA使得每一個(gè)agent的每一個(gè)action都有一個(gè)自身的counterfactual baseline。
  • 如上面所說(shuō),每一個(gè)agent的每一個(gè)動(dòng)作都會(huì)有一個(gè)counterfactual baseline,如果要計(jì)算出所有動(dòng)作的baseline,就需要把每一個(gè)行為替換成 ‘默認(rèn)行為’ 并與環(huán)境互動(dòng)得到一個(gè)reward。當(dāng)agent數(shù)目很多且聯(lián)合動(dòng)作空間很大的時(shí)候,這種方法顯然是不可取的。因此,COMA提出:使用中心critic網(wǎng)絡(luò)來(lái)estimate每一個(gè)動(dòng)作的Q值,來(lái)代替與環(huán)境交互后得到的reward
    • 驗(yàn)證場(chǎng)景及其結(jié)果分析


    3. 背景

    3.1 數(shù)學(xué)建模

    論文中將多智能體協(xié)同任務(wù)想象成一個(gè)隨機(jī)決策的游戲,這個(gè)游戲 GGG 包含以下幾個(gè)因素:
    G=<S,U,P,r,Z,O,n,γ>G = <S, U, P, r, Z, O, n, \gamma> G=<S,U,P,r,Z,O,n,γ>
    其中,

    • S→S \quad \rightarrow \quadS 環(huán)境狀態(tài)集: ?s∈S\forall s \in S?sS.

    • U→U \quad \rightarrow \quadU 所有動(dòng)作樣本空間:在每一時(shí)刻,每個(gè)agent采取一個(gè)行為 uta∈Uu_t^a \in Uuta?U,并組成聯(lián)合動(dòng)作空間 u∈U\textbf{u} \in UuU.

    • P→P \quad \rightarrow \quadP 狀態(tài)轉(zhuǎn)移函數(shù):根據(jù)當(dāng)前狀態(tài)sss和聯(lián)合動(dòng)作空間u\textbf{u}u,計(jì)算一時(shí)刻狀態(tài)s′s'sP(s′∣s,u)P(s'|s, \textbf{u})P(ss,u).

    • r→r \quad \rightarrow \quadr 全局回報(bào)值:r(s,u)r(s, \textbf{u})r(s,u).

    • Z→Z \quad \rightarrow \quadZ 局部觀測(cè)集:單個(gè)agent在每一時(shí)刻有一個(gè)局部觀測(cè) z∈Zz \in ZzZ.

    • O→O \quad \rightarrow \quadO 局部觀測(cè)函數(shù):Agent aaa 的局部觀測(cè) zzz 是根據(jù)全局環(huán)境信息 sss 通過(guò) OOO 函數(shù)計(jì)算得來(lái),z=O(s,a)z = O(s, a)z=O(s,a).

    • n→n \quad \rightarrow \quadn agent的個(gè)數(shù),共有 nnn 個(gè).

    • γ→\gamma \quad \rightarrow \quadγ 折扣因子,用于指定計(jì)算未來(lái)回報(bào)時(shí)的衰減強(qiáng)弱.

    此外,每個(gè)agent有一個(gè) action-observation 的歷史記錄 τa\tau^aτa,actor在做決策的時(shí)候是基于歷史信息做的決策 πa(ua∣τa)\pi^a(u^a|\tau^a)πa(uaτa). 其實(shí)這里基于歷史記錄做決策可以理解為:之前在做update決策網(wǎng)絡(luò)參數(shù)的時(shí)候,是基于之前的歷史信息做的更新,所以用更新后的actor去做決策就可以看作是記住了歷史經(jīng)驗(yàn)后做的決策了。

    3.2 基本概念回顧

    這里在回顧一下DQN中的一些基本概念,后續(xù)內(nèi)容會(huì)用的到:

    累計(jì)回報(bào)Rt=∑l=0∞γlrt+lR_t = \sum_{l=0}^\infty{\gamma^lr_{t+l}}Rt?=l=0?γlrt+l?,其中 γ\gammaγ 是折扣因子;
    評(píng)價(jià)函數(shù)分為兩個(gè):對(duì)當(dāng)前狀態(tài)的評(píng)價(jià)函數(shù) Vπ(st)V^\pi(s_t)Vπ(st?),對(duì)當(dāng)前狀態(tài)下當(dāng)前聯(lián)合動(dòng)作空間的評(píng)價(jià)函數(shù) Qπ(st,ut)Q^\pi(s_t, u_t)Qπ(st?,ut?);
    Vπ(st)=E[Rt∣st]Qπ(st,ut)=E[Rt∣st,ut]V^\pi(s_t) = E[R_t|s_t] \qquad Q^\pi(s_t, \textbf{u}_t) = E[R_t|s_t, \textbf{u}_t] Vπ(st?)=E[Rt?st?]Qπ(st?,ut?)=E[Rt?st?,ut?]
    優(yōu)勢(shì)函數(shù)Aπ(st,ut)=Qπ(st,ut)?Vπ(st)A^\pi(s_t, \textbf{u}_t) = Q^\pi(s_t, \textbf{u}_t) - V^\pi(s_t)Aπ(st?,ut?)=Qπ(st?,ut?)?Vπ(st?).

    Policy Gradient :Value-Based中主要使用的更新方法——梯度上升法,梯度 ggg 可以表示為:
    g=∑t=0TRt▽?duì)圈衛(wèi)ogπ(ut∣st)g = \sum_{t=0}^TR_t\bigtriangledown_{\theta^\pi}log\pi(u_t|s_t) g=t=0T?Rt?θπ?logπ(ut?st?)

    關(guān)于Actor-Critic模型:

    AC模型中,actor是根據(jù)critic所求得的梯度來(lái)進(jìn)行學(xué)習(xí)的。因?yàn)?span id="ozvdkddzhkzd" class="katex--inline">RtR_tRt?是一個(gè)期望值,無(wú)法求得精確的值,因此需要用其他的表達(dá)式來(lái)近似替代RtR_tRt?。替代RtR_tRt?一共有兩種方式:

  • 優(yōu)勢(shì)函數(shù)法:使用 Q(st,ut)?b(st)Q(s_t, u_t) - b(s_t)Q(st?,ut?)?b(st?) 來(lái)代替 RtR_tRt?,其中 bbb 為一個(gè)基準(zhǔn)值,用于保證所有action的Q值有正有負(fù),通常可以用 V(st)V(s_t)V(st?) 來(lái)代替 bbb 值。也就是用 Qπ(st,ut)?Vπ(st)=A(st,ut)Q^\pi(s_t, u_t) - V^\pi(s_t) = A(s_t, u_t)Qπ(st?,ut?)?Vπ(st?)=A(st?,ut?) 來(lái)代替 RtR_tRt?
  • TD法:使用 rt+γV(st+1)?V(st)r_t + \gamma V(s_{t+1}) - V(s_t)rt?+γV(st+1?)?V(st?) 來(lái)代替 RtR_tRt?
  • 如何訓(xùn)練中心評(píng)價(jià)網(wǎng)絡(luò)critic:

    在這篇論文中,作者訓(xùn)練了一個(gè)中心評(píng)價(jià)網(wǎng)絡(luò)fc(?,θc)f^c(·, \theta^c)fc(?,θc),網(wǎng)絡(luò)參數(shù)為 θc\theta^cθc,使用一種稍微改變了下的TD法進(jìn)行學(xué)習(xí)——TD(λ)TD(\lambda)TD(λ)nnn 步的reward值進(jìn)行綜合來(lái)得到一個(gè)平均值 Gt(n)=∑l=1nγl?1rt+l+γnfc(?t+n,θc)G_t^{(n)} = \sum_{l=1}^n\gamma^{l-1}r_{t+l} + \gamma^nf^c(·_{t+n}, \theta^c)Gt(n)?=l=1n?γl?1rt+l?+γnfc(?t+n?,θc)。使用梯度下降的方法來(lái)更新網(wǎng)絡(luò)參數(shù)θc\theta^cθcLtL_tLt?表示ttt時(shí)刻的損失函數(shù):
    Lt(θc)=(y(λ)?fc(?t,θc))2L_t(\theta^c) = (y^{(\lambda)} - f^c(_{·t}, \theta^c)) ^ 2 Lt?(θc)=(y(λ)?fc(?t?,θc))2
    其中:

    y(λ)=(1?λ)∑n=1∞λn?1Gt(n)Gt(n)=∑l=1nγl?1rt+l+γnfc(?t+n,θc)y^{(\lambda)} = (1-\lambda)\sum_{n=1}^\infty \lambda^{n-1}G_t^{(n)} \\ G_t^{(n)} = \sum_{l=1}^n\gamma^{l-1}r_{t+l} + \gamma^nf^c(·_{t+n}, \theta^c) y(λ)=(1?λ)n=1?λn?1Gt(n)?Gt(n)?=l=1n?γl?1rt+l?+γnfc(?t+n?,θc)

    因此,整個(gè)公式也可以表示為:

    Lt(θc)=((1?λ)∑n=1∞λn?1(∑l=1nγl?1rt+l+γnfc(?t+n,θc))?fc(?t,θc))2L_t(\theta^c) = ((1-\lambda)\sum_{n=1}^\infty \lambda^{n-1}(\sum_{l=1}^n\gamma^{l-1}r_{t+l} + \gamma^n {\color{red}f^c(·_{t+n}, \theta^c)}) - f^c(·_{t}, \theta^c)) ^ 2 Lt?(θc)=((1?λ)n=1?λn?1(l=1n?γl?1rt+l?+γnfc(?t+n?,θc))?fc(?t?,θc))2

    Note:公式中一共有兩個(gè) fc(?,θc)f^c(·, \theta^c)fc(?,θc) 網(wǎng)絡(luò),但是前一個(gè)fc()f^c()fc()是estimate出來(lái)的目標(biāo)值 y(λ)y^{(\lambda)}y(λ),為了加快模型的收斂速度,第一個(gè)的 fc()f^c()fc() 中的θc\theta^cθc 應(yīng)該被fix住(式子中的紅色部分),若干個(gè)steps后再被update,這和target network的思路是一樣的。


    4. 算法分析

    4.1 Independent Actor-Critic

    IAC方法指每一個(gè)agent學(xué)習(xí)一個(gè)獨(dú)立的actor-critic,在這篇論文中采用參數(shù)共享的方法,使得所有agent共用一個(gè)actor和一個(gè)critic。在學(xué)習(xí)的時(shí)候,critic只能根據(jù)agent自身的local observation進(jìn)行估計(jì)值,并且也只能估計(jì)該agent的單個(gè)動(dòng)作uau^aua的效用,而不是聯(lián)合動(dòng)作空間u\textbf{u}u的效用。
    論文中對(duì)傳統(tǒng)的IAC算法有兩處改變:

  • 在估計(jì)V值時(shí),每個(gè) agent 的 critic 估計(jì)的是V(τa)V(\tau^a)V(τa),估計(jì)的是這個(gè)agent歷史action-observation數(shù)據(jù)的效用值,而不是傳統(tǒng)的當(dāng)前狀態(tài)的效用值V(st)V(s_t)V(st?)VVV評(píng)價(jià)網(wǎng)絡(luò)基于TD(λ)TD(\lambda)TD(λ)方法進(jìn)行梯度更新,見上面。
  • 在估計(jì)Q值時(shí),每個(gè)agent的critic估計(jì)的是Q(τa,ua)Q(\tau^a, u^a)Q(τa,ua), 也是基于action-observation的歷史數(shù)據(jù)對(duì)當(dāng)前行為uau^aua進(jìn)行效用估計(jì)。QQQ評(píng)價(jià)網(wǎng)絡(luò)是通過(guò)梯度下降優(yōu)勢(shì)函數(shù)A(τa,ua)A(\tau^a, u^a)A(τa,ua)來(lái)進(jìn)行學(xué)習(xí)的,其中優(yōu)勢(shì)函數(shù)的定義為:單個(gè)動(dòng)作產(chǎn)生的Q值減去所有動(dòng)作產(chǎn)生的Q值,即 A(τa,ua)=Q(τa,ua)?V(τa)A(\tau^a, u^a) = Q(\tau^a, u^a) - V(\tau^a)A(τa,ua)=Q(τa,ua)?V(τa)。其中V(τa)V(\tau^a)V(τa)定義為:在已知"動(dòng)作-觀測(cè)"歷史數(shù)據(jù)下,所有動(dòng)作產(chǎn)生的效用總和,即V(τa)=∑uaπ(ua∣τa)Q(τa,ua)V(\tau^a) = \sum_{u^a}\pi(u^a|\tau^a)Q(\tau^a, u^a)V(τa)=ua?π(uaτa)Q(τa,ua)
  • IAC的缺陷在于,訓(xùn)練時(shí)只能依據(jù)單個(gè)agent的局部觀測(cè)和單個(gè)action的效用評(píng)定,這樣很難學(xué)出一套好的協(xié)同策略。

    4.2 Counterfatual Multi-Agent Policy Gradient

    COMA的主要思想有三個(gè):中心式評(píng)價(jià)網(wǎng)絡(luò),使用反事實(shí)準(zhǔn)為每一個(gè)行為分配不同的reward值,高效計(jì)算每一個(gè)不同的reward值,下面對(duì)每一個(gè)思想進(jìn)行介紹講解。

    • Center critic

    在IAC算法中,訓(xùn)練評(píng)價(jià)網(wǎng)絡(luò)時(shí)只用到了單個(gè)agent的history τa\tau^aτa。既然這個(gè)評(píng)價(jià)網(wǎng)絡(luò)只會(huì)在訓(xùn)練的時(shí)候使用,那么我們完全可以把全局狀態(tài) sss 輸入用于訓(xùn)練,若全局觀測(cè)不可獲得,則將當(dāng)前所有agent的"action-observation"的歷史記錄 τ\tauτ代替全局狀態(tài) sss,如下圖所示:

    圖中,每一個(gè)Actor都會(huì)給出此刻的決策行為 utu_tut?,并且環(huán)境也會(huì)給出此時(shí)環(huán)境的全局信息 sts_tst? 以及此刻的回報(bào)值 rtr_trt?

    一種很簡(jiǎn)單的方式是直接使用TD-Error來(lái)進(jìn)化這個(gè)網(wǎng)絡(luò):
    g=▽?duì)圈衛(wèi)ogπ(u∣τta)(r+γV(st+1)?V(st))g = \bigtriangledown_{\theta_\pi}log\pi(u|\tau_t^a)(r+\gamma V(s_{t+1}) - V(s_t)) g=θπ??logπ(uτta?)(r+γV(st+1?)?V(st?))
    但是,這樣的方法不能解決 Individual Reward Assignment 的問(wèn)題,因?yàn)門D算出來(lái)的Reward是一個(gè)全局Reward ,無(wú)法推算出每一個(gè)action的單獨(dú)Reward值。為此,論文提出了"反事實(shí)準(zhǔn)則"。

    • Counterfatual baseline

    反事實(shí)準(zhǔn)則(Conuterfatual Baseline)允許為不同的action獨(dú)立分配一個(gè)不同的獨(dú)立reward。這個(gè)獨(dú)立reward DaD^aDa 需要根據(jù)當(dāng)前情況下的全局reward和將該agent行為替換為一個(gè)'默認(rèn)行為'后的全局reward兩個(gè)值進(jìn)行計(jì)算,
    Da=r(s,u)?r(s,(u?a,ca))D^a = r(s, \textbf{u}) - r(s, (\textbf{u}^{-a}, c_a)) Da=r(s,u)?r(s,(u?a,ca?))
    其中,u?a\textbf{u}^{-a}u?a 代表聯(lián)合動(dòng)作空間除去當(dāng)前Agent aaa 這一時(shí)刻采取的行為。(u?a,ca)(\textbf{u}^{-a}, c_a)(u?a,ca?) 代表當(dāng)前Agent aaa 采取"默認(rèn)行為" cac_aca? 后所有Agent的聯(lián)合動(dòng)作空間。在學(xué)習(xí)過(guò)程中,agent會(huì)想辦法最大化回報(bào)值 DaD^aDa,這其實(shí)就是在想辦法最大化全局的reward r(s,u)r(s, \textbf{u})r(s,u),因?yàn)槭阶拥暮箜?xiàng)跟agent當(dāng)前采取什么行為是沒(méi)有關(guān)系的。關(guān)于DaD^aDa這個(gè)式子可以這樣理解:回報(bào)值DaD^aDa其實(shí)計(jì)算的是Agent aaa采取行為 uuu 會(huì)比采取默認(rèn)行為 cac_aca? 要更好(DaD^aDa > 0)還是更壞(DaD^aDa < 0)
    這個(gè)想法是正確的,但是要想計(jì)算出每一個(gè)動(dòng)作的DaD^aDa值,就需要將每個(gè)動(dòng)作都替換成默認(rèn)行為cac_aca?去與環(huán)境互動(dòng)一次得到最終結(jié)果,這樣采樣次數(shù)會(huì)非常多;此外,默認(rèn)行為的選取也是無(wú)法預(yù)測(cè)的,到底選擇哪一個(gè)行為當(dāng)作默認(rèn)行為才是最合適的也是比較難決定的。因此,文中提出使用"函數(shù)擬合"的方式來(lái)計(jì)算DaD^aDa

    前面提到,中心評(píng)價(jià)網(wǎng)絡(luò)可以評(píng)價(jià)一個(gè)聯(lián)合動(dòng)作空間 u\textbf{u}u 在一個(gè)狀態(tài) sss 下的 QQQ 值。由于默認(rèn)行為很難定義,于是我們把采取 “默認(rèn)行為” 得到的效用值近似為采取一個(gè)Agent “所有可能行為” 的效用值總和。因此,DaD^aDa 就可以用以下等式進(jìn)行計(jì)算:
    Aa(s,u)=Q(s,u)?∑ua′πa(u′a∣τa)Q(s,(u?a,u′a))A^a(s, \textbf{u}) = Q(s, \textbf{u}) - \sum_{u_a'}\pi^a(u'^a|\tau^a)Q(s, (\textbf{u}^{-a}, u'^a)) Aa(s,u)=Q(s,u)?ua??πa(uaτa)Q(s,(u?a,ua))
    其中,Aa(s,u)A^a(s, \textbf{u})Aa(s,u) 就是 DaD^aDa 的等效近似。

    • Efficient evaluation of baseline

    盡管baseline的方式解決了獨(dú)立回報(bào)的問(wèn)題,但是如果要建立一個(gè)網(wǎng)絡(luò),接收s,us, \textbf{u}s,u兩個(gè)輸入,輸出為所有agent的所有action的話,那么輸出神經(jīng)元的個(gè)數(shù)就等于 ∣U∣n|U|^nUn(n個(gè)agent有|U|個(gè)動(dòng)作)。當(dāng)agent數(shù)目很多或動(dòng)作空間很大的時(shí)候就會(huì)造成輸出層無(wú)法實(shí)現(xiàn)。為此,COMA構(gòu)造了一種網(wǎng)絡(luò),該網(wǎng)絡(luò)接收 ut?a,st,ota,a,ut?1?a\textbf{u}^{-a}_t, s_t, o_t^a, a, \textbf{u}^{-a}_{t-1}ut?a?,st?,ota?,a,ut?1?a? 等參數(shù),輸出為Agent aaa 每一個(gè)action的Q-value值,輸出維度由 ∣U∣n|U|^nUn 降到了 ∣U∣|U|U ,如下圖所示。

    5. 實(shí)驗(yàn)

    5.1 實(shí)驗(yàn)場(chǎng)景

    該論文使用星際爭(zhēng)霸游戲作為實(shí)驗(yàn)場(chǎng)景,讓算法控制的小隊(duì)和游戲AI控制的小隊(duì)進(jìn)行對(duì)戰(zhàn),并計(jì)算勝率。算法小隊(duì)中,每一個(gè)作戰(zhàn)單位都由一個(gè)去中心式的controller進(jìn)行控制。為了提升游戲難度,比賽加入了 “部分可觀測(cè)” 條件的限制,視野范圍等于攻擊范圍。這意味著當(dāng)敵人沒(méi)有進(jìn)入攻擊范圍內(nèi)時(shí),作戰(zhàn)單位是不知道敵人位置信息的,因此agent不僅要學(xué)會(huì)如何去探索敵方目標(biāo),還需要與隊(duì)友共享敵方目標(biāo)的位置信息。為了證明加入 “部分可觀測(cè)” 限制后問(wèn)題變得有多復(fù)雜,作者做了實(shí)驗(yàn)對(duì)比:當(dāng)不加入觀測(cè)限制時(shí),普通的啟發(fā)式算法能夠到達(dá)98%的勝率;加入限制后,勝率降到了66%。

    5.2 動(dòng)作空間及回報(bào)值

    每個(gè)agent都有著相同的動(dòng)作空間:{ move[direction],attack[enemy_id],stop,noop }。
    一次Episode下的全局Reward為:對(duì)敵人造成的傷害 DeD_eDe? 減去我方受到的傷害 DuD_uDu? 除以2,此外,若擊毀一個(gè)敵方單位獲得10點(diǎn)的回報(bào),即:

    R(t)=De?Du2+10nR(t) = D_e - \frac{D_u}{2} + 10n R(t)=De??2Du??+10n
    其中,nnn為摧毀敵方單位數(shù)。若有一方將敵方團(tuán)滅,則獲得的回報(bào)值為全隊(duì)剩余血量+200。

    5.3 狀態(tài)特征

    算法一共有兩個(gè)網(wǎng)絡(luò):actor 和 critic。其中actor接收agent的局部觀測(cè)信息;critic接收全局狀態(tài)信息。

    • 局部觀測(cè)信息

    由于作戰(zhàn)單位的視野范圍等于攻擊范圍,因此觀測(cè)到的視野是以該單位為中心的一個(gè)圓。局部觀測(cè)信息是指在視野圓圈內(nèi),每一個(gè)單位(包括敵方和友方)的以下幾個(gè)信息:distance,relative x,relative y,unit type,shield。其中 unit type 是指作戰(zhàn)單位是何種兵種,shield是為了模擬平A的冷卻(因?yàn)閠切割的很小,每一時(shí)刻Agent都有可能選擇平A這個(gè)動(dòng)作,所以在平A還沒(méi)有冷卻好的時(shí)候,敵方單位會(huì)套上一個(gè)無(wú)敵的盾來(lái)抵消這一次平A受到的傷害)。
    疑問(wèn):觀測(cè)范圍中的單位數(shù)量應(yīng)該是隨時(shí)間變化而變化的,但網(wǎng)絡(luò)的輸入層神經(jīng)元應(yīng)該是固定的,怎么解決變長(zhǎng)的問(wèn)題?(未解決)

    • 全局觀測(cè)信息

    全局觀測(cè)信息包含了所有單位的relative x,relative y,unit type,shield,healthy point,cooldown信息,其中 relative 的坐標(biāo)信息是相對(duì)據(jù)地圖中心的相對(duì)坐標(biāo),不再是針對(duì)于某一個(gè)特定目標(biāo)的坐標(biāo)。

  • 喂給獨(dú)立回報(bào)計(jì)算網(wǎng)絡(luò)(Q-function critic,用于計(jì)算單個(gè)動(dòng)作獨(dú)立回報(bào))的數(shù)據(jù)包括全局觀測(cè)信息 + 被評(píng)估agent此刻局部觀測(cè)信息
  • 喂給中心評(píng)價(jià)網(wǎng)絡(luò)(center critic,用于評(píng)估全局狀態(tài)V(st)V(s_t)V(st?))的數(shù)據(jù)包括全局觀測(cè)信息 + 全部agent此刻局部觀測(cè)信息
  • 5.4 實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)結(jié)果如下圖所示,其中3m,5m分別指代一個(gè)作戰(zhàn)小隊(duì)中包含3個(gè),5個(gè)marine(一種兵種);2d_3z指代一個(gè)作戰(zhàn)小隊(duì)中包含2條龍和3個(gè)狂熱者。

    總結(jié)

    以上是生活随笔為你收集整理的COMA(二):Counterfactual Multi-Agent Policy Gradients 论文讲解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    九色在线 | 亚洲国产成人在线 | 免费日韩在线 | www91在线观看| 免费看成人 | 国产在线观看一区 | 在线观看中文字幕av | 99久久精品午夜一区二区小说 | 中文字幕在线免费播放 | 伊在线视频| 97在线资源 | 在线观看成人国产 | 国产免费观看av | 午夜精品久久久久久99热明星 | 制服丝袜在线 | 久久看看 | 99久国产 | 日韩特级片 | 久久成人麻豆午夜电影 | 国产人成看黄久久久久久久久 | 91看国产| 91久久精品一区二区二区 | 成人黄色在线播放 | 狠狠色香婷婷久久亚洲精品 | 国产 在线 日韩 | 黄色av播放 | 国产精品一区久久久久 | 99视屏 | 国产精品自拍在线 | 国内精品小视频 | 91精品成人| 中文理论片 | 四虎在线影视 | 色av资源网| 最近中文字幕高清字幕在线视频 | 日韩在线字幕 | 久视频在线 | 精品久久久久久久久久久久久久久久 | 成年人视频免费在线 | 黄色小说在线观看视频 | 97电影网站 | 日日综合网 | 国产福利不卡视频 | 成人免费91| 亚洲1区 在线 | 白丝av免费观看 | 精品国产一区二区三区不卡 | 在线视频观看成人 | 欧美另类xxxxx | 亚a在线| 日韩精品一区在线播放 | 日韩理论片在线观看 | 西西人体4444www高清视频 | 日本在线观看黄色 | 精品影院 | 欧美午夜性生活 | 国产成人一区二区三区久久精品 | 黄色毛片视频 | av视屏在线| 黄色毛片视频 | 欧美日韩视频在线观看一区二区 | 操久| 超碰97在线资源站 | 国色天香在线观看 | 色综合激情网 | 一区二区三区观看 | 日韩精品不卡在线观看 | 手机在线欧美 | 国产高清一 | 91热精品视频| 色婷婷综合五月 | 91香蕉视频污在线 | 国产裸体永久免费视频网站 | 国产精品毛片一区 | 国产综合精品一区二区三区 | 久久a v电影 | 亚洲精品系列 | 黄色视屏在线免费观看 | 日本丶国产丶欧美色综合 | 在线看国产 | 成x99人av在线www | 成人免费视频网址 | 亚洲久草网 | 国产精品亚洲精品 | 久久草在线视频国产 | 国产在线观看你懂的 | 久久久久99精品国产片 | www.神马久久 | av在线成人| 国产精品自产拍在线观看网站 | 久久国产精品偷 | 欧美坐爱视频 | 日本狠狠干| 国产亚洲精品福利 | 天天天天色综合 | 亚洲精品国产麻豆 | 国产视频一二区 | 国产小视频91| 国产精品久久久久免费观看 | 久久精品屋 | 精品亚洲男同gayvideo网站 | 成年人在线看视频 | 91视频在线观看大全 | 日韩精品中文字幕在线不卡尤物 | 中文字幕亚洲高清 | 国产在线精品一区 | 久草免费看 | 九色精品在线 | 色婷婷婷 | 九九热精品在线 | 九精品 | 又黄又爽的视频在线观看网站 | 天天干国产 | 国产精品高潮呻吟久久久久 | 久草视频在线资源站 | 国产日韩精品一区二区三区 | 日韩精品一区二区三区在线播放 | 天天干,天天干 | 成人黄色片在线播放 | 久久综合狠狠 | 丁香婷婷电影 | 国内精品视频免费 | 亚洲不卡123 | 日韩婷婷| 成年人免费在线看 | 久久97久久 | 久草在线免费看视频 | 青草视频免费观看 | 丁香国产视频 | 精品国产区 | 国产黄色大片免费看 | 在线视频一二三 | 成人黄色在线观看视频 | 亚洲高清视频在线观看 | 97香蕉久久国产在线观看 | 91九色蝌蚪在线 | 国产美女网站在线观看 | 婷婷视频在线播放 | 亚洲国产精品激情在线观看 | 婷婷综合在线 | 日韩精品专区在线影院重磅 | 中文字幕三区 | 天天操天天射天天插 | 日韩黄色大片在线观看 | 超碰97人| 97人人添人澡人人爽超碰动图 | 国产亚洲资源 | 中文字幕一区二区三区在线视频 | 色婷婷激情综合 | 91看片看淫黄大片 | 色婷婷av在线 | 开心色插 | 日日摸日日添夜夜爽97 | 日本精品在线看 | 亚洲伊人婷婷 | 黄色一级免费网站 | 亚州精品天堂中文字幕 | 午夜a区 | 成年人在线电影 | 久久久久久久久国产 | 在线观看视频黄色 | 国产黄色大全 | 国产91国语对白在线 | 五月天婷婷狠狠 | 亚洲精品国产精品乱码不99热 | 人人插人人爱 | 97色se| 亚洲区精品视频 | 欧美少妇的秘密 | 色综合婷婷久久 | 天天插天天干天天操 | 1024手机在线看 | 亚洲激情五月 | 欧美日韩综合在线观看 | www.亚洲精品在线 | 国产福利在线免费 | 天天天干天天射天天天操 | 成人h视频在线播放 | 久久久国产精品一区二区中文 | 99久久99久国产黄毛片 | 日本精品一区二区 | 91精品秘密在线观看 | 亚洲成a人片77777kkkk1在线观看 | 国产黄色网 | 五月天久久久久久 | 国产精品免费观看国产网曝瓜 | 五月天色综合 | 高清精品在线 | 日韩欧美国产激情在线播放 | 五月花激情 | 日韩视频精品在线 | 国产高h视频 | 欧美日韩国产精品一区二区 | 日韩av中文在线 | 国内外成人免费在线视频 | 亚洲欧洲精品一区 | 天天干.com| 免费国产在线观看 | 久久伊人色综合 | 91视频久久久久 | 丝袜美腿亚洲综合 | 亚洲欧美成人 | 欧美精品亚州精品 | 成人免费看黄 | 狠狠狠色丁香婷婷综合激情 | 九九视频免费观看视频精品 | 亚洲精品国精品久久99热 | 精品视频在线观看 | 天天干天天碰 | 91九色最新 | 九九九九九九精品任你躁 | 黄色在线视频网址 | 夜夜骑天天操 | 精品久久久久_ | 日本中文字幕高清 | 成人av电影在线观看 | 久久久999免费视频 日韩网站在线 | 久久久99精品免费观看app | 中文字幕乱码日本亚洲一区二区 | 午夜美女网站 | 国产免费观看视频 | 亚洲v精品 | 99精品热视频只有精品10 | 日韩av一区二区在线影视 | 国产一区二区三区高清播放 | 国产黄色片一级三级 | 国产精品福利在线播放 | 精品在线视频一区二区三区 | 在线观看91av| 就要干b | 亚洲免费在线观看视频 | 999久久久久久久久 69av视频在线观看 | 麻豆视频在线观看免费 | 久久刺激视频 | 国产成人精品亚洲日本在线观看 | 国产又粗又硬又长又爽的视频 | 亚洲天堂香蕉 | av片中文 | 一区二区三高清 | 国产成人一区二区精品非洲 | 欧美视频在线二区 | 国产日韩精品一区二区三区 | 国产精品观看在线亚洲人成网 | 国产精品久久久久久久久久不蜜月 | 国产成人a亚洲精品v | 九九九热精品免费视频观看 | 国产系列 在线观看 | 免费观看成年人视频 | 2019免费中文字幕 | 国产一区二区三区免费在线观看 | 国产黄在线 | 久久高清免费视频 | 国产成人亚洲在线观看 | 久久免费看片 | 特级免费毛片 | 在线免费观看麻豆视频 | 狠狠干夜夜操天天爽 | 国产精品白虎 | 青草草在线视频 | 免费成视频 | 久久99久久99精品免观看粉嫩 | 99色人 | 国产福利小视频在线 | 亚洲精品国产综合久久 | 免费观看国产精品 | 999久久久久久久久久久 | 亚洲最新av | 999成人国产 | 天天射天天干天天爽 | 国产精品中文 | 日日干天天插 | 玖玖色在线观看 | 日本成人免费在线观看 | 成年人黄色大片在线 | 日韩国产欧美视频 | 国产精品片 | 99精品小视频 | 国产免费一区二区三区最新6 | 在线视频你懂 | 91试看 | 欧美成人精品欧美一级乱黄 | 中文字幕五区 | 亚洲视频精选 | 96av麻豆蜜桃一区二区 | 日韩美女免费线视频 | 国产一级二级在线观看 | 中文字幕亚洲情99在线 | 久草久| 亚洲精品女人 | 国产精品久久久久一区 | 91九色精品| 久久精品一二三区白丝高潮 | 99精品视频免费全部在线 | 中文在线免费观看 | 日韩亚洲在线视频 | 97超碰人人干 | 婷婷久操 | 国产专区日韩专区 | a精品视频 | 99久久精品免费看国产一区二区三区 | 超碰成人网 | 色99视频 | 欧美一级黄色网 | 玖玖视频 | 成人av高清在线观看 | 在线影院 国内精品 | 国产一区二区三区免费在线观看 | 看av免费网站 | 黄色av免费 | 在线播放精品一区二区三区 | 91在线精品秘密一区二区 | av在线最新| 久草在线看片 | 日韩激情在线视频 | 97超碰人人 | 欧美精品少妇xxxxx喷水 | 国产 色| 在线成人性视频 | 国产在线久草 | 国产精品免费久久久久影院仙踪林 | 日韩免费电影一区二区 | 亚洲最大的av网站 | 久久爱综合 | 亚洲粉嫩av | 视频在线观看入口黄最新永久免费国产 | 国产午夜精品在线 | 欧美日韩大片在线观看 | 免费看的视频 | 免费a一级 | 天天·日日日干 | 国产精品久久片 | 国产精品白丝av | 日精品在线观看 | 超薄丝袜一二三区 | 国产小视频在线观看免费 | 久草国产视频 | 日韩黄色中文字幕 | 亚洲va欧美va人人爽 | 亚洲精品日韩一区二区电影 | 中文一区在线 | 偷拍精品一区二区三区 | 中文字幕在线高清 | 日韩动漫免费观看高清完整版在线观看 | 亚洲免费视频观看 | 丁香激情综合 | www视频免费在线观看 | 性色av免费观看 | 狠狠色丁香婷综合久久 | 天天色成人| 人人要人人澡人人爽人人dvd | 国产91免费在线观看 | 国产亚洲成av人片在线观看桃 | 国产伦理剧 | 狂野欧美激情性xxxx欧美 | avav片| av一区二区在线观看中文字幕 | 中文字幕乱码日本亚洲一区二区 | 免费亚洲片 | 久久九九免费视频 | av天天干 | 欧美国产高清 | 91精品欧美一区二区三区 | 九九免费精品视频在线观看 | 久久99操| 狠狠干美女| 在线亚洲激情 | 一级a性色生活片久久毛片波多野 | 日韩电影精品一区 | 日韩精品你懂的 | 国产一区二区播放 | 欧美日韩视频在线观看免费 | 国产精品第一 | 精品久久国产一区 | 黄色小说免费在线观看 | 国产综合婷婷 | 亚洲综合色网站 | 国产男女免费完整视频 | 欧美成人精品欧美一级乱 | 麻豆传媒视频观看 | 精品久久综合 | 久久草草热国产精品直播 | 伊人午夜视频 | 五月激情丁香婷婷 | 日本中文字幕久久 | 午夜一级免费电影 | 在线观看涩涩 | 999国产在线 | 91网址在线 | 久久全国免费视频 | 欧美日韩高清一区二区 国产亚洲免费看 | 久久爱www.| 日韩在线观看小视频 | 午夜精品久久久99热福利 | 97免费视频在线播放 | 国产精品免费久久 | 激情网在线视频 | 久久亚洲成人网 | 91亚州 | 99视频 | 国产福利一区在线观看 | 欧美精品一区二区三区四区在线 | 中文字幕在线免费97 | 黄色高清视频在线观看 | 欧美一级欧美一级 | 黄色网址在线播放 | 五月婷婷黄色网 | 97久久精品午夜一区二区 | 成人av教育 | 久久久久久久久影院 | 国产精品理论片在线播放 | 中文字幕资源网在线观看 | 久久网站av| 国产中文字幕视频 | 成人免费精品 | 久久久久久久久久久久电影 | 超碰在线人人艹 | 91精品国产乱码久久 | 日本久久免费视频 | 久久国产美女视频 | 久久好看免费视频 | 黄色福利网站 | 免费看片网页 | 91精品国自产拍天天拍 | 人人澡超碰碰 | 欧美日韩国产欧美 | 久久久久黄色 | 在线天堂日本 | 9i看片成人免费看片 | 久久综合网色—综合色88 | 国产精品一区二区在线 | 天天天天天天操 | 国产综合久久 | av动态图片| 午夜色站| 国产精品96久久久久久吹潮 | 91在线视频免费播放 | 免费久久久 | 久久精品久久精品 | 热久久这里只有精品 | 日韩精品一区二区三区中文字幕 | 亚洲干| 国产免费一区二区三区最新 | 亚洲激情五月 | 日日干天天 | 奇米导航 | 国产一级电影免费观看 | 超碰人人在线观看 | 日韩艹 | 久久免费视频网 | 日韩欧美精选 | 欧美专区日韩专区 | 久久综合狠狠综合久久狠狠色综合 | 天天操天天是 | 久久久鲁 | 国产成人高清av | 国产精品成久久久久三级 | 久久久麻豆精品一区二区 | www最近高清中文国语在线观看 | 色综合久久中文字幕综合网 | 日本精品视频在线观看 | 国产精品s色 | 欧美日韩xxx | 91成人精品一区在线播放69 | 国产精品久久久久久久久久久久久久 | 日本一区二区高清不卡 | 500部大龄熟乱视频使用方法 | av免费网站观看 | 亚洲经典中文字幕 | 美女视频黄,久久 | 美女免费视频观看网站 | 精品一二三区视频 | 国产日韩精品一区二区在线观看播放 | 欧美日韩国产一区二 | 在线观看一二三区 | 玖玖999| 国产一区二区在线精品 | 欧美日韩99 | 人人爱天天操 | 免费一级片久久 | 看黄色91 | 成人免费在线观看av | 久草精品资源 | 亚洲欧美成人综合 | 久久国产日韩 | a色视频 | 美女国产| 中文字幕精品一区二区精品 | 免费看片网址 | 在线视频91 | 免费日韩 精品中文字幕视频在线 | 999久久精品 | 欧美电影黄色 | 中文久久精品 | 中文字幕日韩在线播放 | 婷婷丁香激情综合 | 色综合久久久久综合99 | 国产最新精品视频 | 黄网站免费大全入口 | 毛片基地黄久久久久久天堂 | 国产视频一区在线播放 | 色噜噜狠狠狠狠色综合 | 久久久免费精品 | a视频在线播放 | 国产精品99久久久精品 | a v在线视频 | av线上免费看 | 99免在线观看免费视频高清 | 国产精品久久久久永久免费观看 | 国产视频资源 | 国产特黄色片 | 国产精品美乳一区二区免费 | 欧美日韩在线视频免费 | 久久久精品国产免费观看同学 | 91精品国产91热久久久做人人 | 欧美激情综合五月 | 69精品人人人人 | 亚洲黄网站| 国产精品一区二区吃奶在线观看 | 国产成人精品av | 亚洲激情电影在线 | 欧美一级电影在线观看 | 精品久久综合 | 亚洲美女在线一区 | 91在线91拍拍在线91 | 在线亚洲小视频 | 久久精品国产第一区二区三区 | 97精品超碰一区二区三区 | 最近2019中文免费高清视频观看www99 | 国产97视频在线 | 免费网站v| 麻豆激情电影 | 天天舔天天搞 | 亚洲亚洲精品在线观看 | 激情视频免费在线观看 | 黄色成人av| 久久涩涩网站 | 亚洲专区路线二 | 激情综合中文娱乐网 | 在线日韩中文 | 久久免费毛片 | 久久字幕 | 91丨九色丨蝌蚪丨对白 | 国产亚洲一区二区在线观看 | 中文av一区二区 | 欧美日韩网址 | 天天躁日日躁狠狠躁av麻豆 | 日日夜夜狠狠 | 国产亚洲亚洲 | 国产黄色一级片在线 | 久久在现 | 久久综合中文字幕 | h动漫中文字幕 | 激情av综合 | 人人爽久久涩噜噜噜网站 | 亚洲精品午夜国产va久久成人 | 国产高清视频在线播放 | 国产偷国产偷亚洲清高 | 久操伊人 | 亚洲综合激情小说 | 综合久久久 | 天天综合中文 | 久久精品79国产精品 | 国产精品 日韩 欧美 | 97色在线观看免费视频 | 97福利社 | 在线观看不卡视频 | 中文字幕在线观看免费观看 | 日日日天天天 | 91久久黄色 | 91精品办公室少妇高潮对白 | www五月天婷婷 | 久久97久久97精品免视看 | www.777奇米 | 国产亚洲片 | 久久久久久久久久久高潮一区二区 | 国产精品一区二区 91 | 久久草草影视免费网 | 国产成人精品一区二区三区在线观看 | 国产精品99页 | 精品一区二区在线看 | 在线视频 你懂得 | 国产小视频免费观看 | 97精品国产97久久久久久久久久久久 | 亚洲一片黄 | 久久理论电影 | 亚洲精品乱码久久久久久蜜桃欧美 | 久草色在线观看 | 日日操日日| 国产成人一区二区三区 | 91视频中文字幕 | 91精品国产九九九久久久亚洲 | 在线导航av | 操操操影院 | 99热官网 | 日韩欧美视频免费看 | 亚洲资源在线 | 天天干夜夜夜 | 国产高清av免费在线观看 | 亚洲人成人在线 | 午夜精品电影一区二区在线 | 日韩美女久久 | 友田真希x88av | 亚洲人视频在线 | 去干成人网 | 99视频在线精品国自产拍免费观看 | 国产自产在线视频 | 久久综合色婷婷 | 婷婷播播网 | 国产在线一区二区 | 亚洲综合狠狠干 | 91porny九色91啦中文 | 天天色天天综合 | 免费在线成人av | 丁香花中文在线免费观看 | 婷婷网五月天 | 国产精品专区在线 | 精品视频资源站 | 狠狠色丁香婷婷综合视频 | 在线电影av | 久久久亚洲精品 | 在线观看自拍 | 一级性av| 天天爱天天草 | av看片在线观看 | 亚洲精品视频免费 | 日本精品视频免费 | 天天搞天天干天天色 | 中文字幕网址 | 国产成人精品久久久 | 色夜视频| 最新av免费在线观看 | 日日爽天天 | 黄a网 | 久久久一本精品99久久精品66 | 色播五月激情五月 | 免费福利在线 | 69国产在线观看 | 麻豆mv在线观看 | 亚洲国产高清在线观看视频 | 草久草久 | 成人啪啪18免费游戏链接 | 久久亚洲专区 | 亚洲黄色小说网 | 一本色道久久精品 | 99久久久久久久久 | 美女视频黄是免费的 | 五月天婷婷在线视频 | 日本精品二区 | a成人v | 偷拍精偷拍精品欧洲亚洲网站 | 97人人人人 | 成人久久18免费网站图片 | 亚洲一级黄色大片 | 日本精品xxxx | 五月天综合色 | 亚洲精品资源 | 看毛片网站 | 久草香蕉在线 | 在线观看aaa | 一级精品视频在线观看宜春院 | 手机看片国产日韩 | av在线一二三区 | 亚洲a免费 | 欧美成人精品欧美一级乱黄 | 久久午夜电影院 | 在线免费视频 你懂得 | 亚洲精品福利在线 | 久免费 | 国产日产精品一区二区三区四区的观看方式 | 国产一区二区三区午夜 | 久久试看 | 国产三级国产精品国产专区50 | 国产成人久久精品一区二区三区 | 蜜臀aⅴ精品一区二区三区 久久视屏网 | 99精品在线免费观看 | 国产精品久久中文字幕 | 亚洲欧美精品一区二区 | 久久中文精品视频 | 色婷婷久久久综合中文字幕 | 免费69视频| 国产天天综合 | 狠狠干,狠狠操 | 九色视频网址 | 7777xxxx| 国产精品一区二区三区在线看 | 亚洲另类久久 | 日韩试看 | 精品国产_亚洲人成在线 | 欧美xxxxx在线视频 | 亚洲黄色高清 | 久久久精品日本 | 久久免费视频5 | 欧美日韩在线播放一区 | 91精品国自产拍天天拍 | 亚洲一级电影 | 久久久久久久久福利 | 精品国产伦一区二区三区 | 天天干国产| 日韩av电影中文字幕在线观看 | 国产一级视频在线观看 | 色天天| 黄色av网站在线观看免费 | 日本电影久久 | 久久精品免费电影 | 日本中文字幕一二区观 | 精品视频免费播放 | 四虎永久免费网站 | 中文字幕成人一区 | 日韩网站一区 | 色播五月激情综合网 | 少妇bbbb| 亚洲jizzjizz日本少妇 | 精产嫩模国品一二三区 | 麻豆视频免费网站 | 国产在线一区观看 | 人人爽人人香蕉 | 国产高清在线视频 | 在线观看视频免费播放 | 国产色就色 | 伊人影院av | 久草视频在 | 国产一区成人 | 97人人射| 99这里只有精品99 | 四川妇女搡bbbb搡bbbb搡 | 五月天色综合 | 九九热在线免费观看 | 豆豆色资源网xfplay | 国产精品久久精品 | zzijzzij亚洲日本少妇熟睡 | 日韩免费看的电影 | 天天爽夜夜爽精品视频婷婷 | 成人性生交大片免费观看网站 | 国产一级电影 | 最近久乱中文字幕 | 99在线观看免费视频精品观看 | 欧美天堂影院 | 18久久久久 | 久久综合九色综合欧美就去吻 | 亚洲一区美女视频在线观看免费 | 一区二区三区四区在线 | 国产精品久久久久999 | 91精品麻豆| 中文字幕一区二区三区久久蜜桃 | 亚洲国产成人精品在线 | av中文字幕网 | 欧美久久综合 | 欧美一区二区在线免费观看 | 亚洲精品tv久久久久久久久久 | 国产高清福利在线 | 四虎亚洲精品 | 狠狠色丁香婷婷综合橹88 | 精品99视频| 国产a国产a国产a | 久久九九视频 | 人人超在线公开视频 | 天天操婷婷 | 免费在线播放av电影 | 免费观看9x视频网站在线观看 | 成人黄色免费在线观看 | 久久国产精品一区二区 | 中文字幕有码在线 | 日韩欧美一区二区三区在线观看 | 一区二区三区免费播放 | 狠狠狠色丁香婷婷综合激情 | 精品一区三区 | 18女毛片 | 免费日韩 精品中文字幕视频在线 | 欧美精品一区二区在线播放 | 亚洲狠狠干| 少妇超碰在线 | 国产亚洲精品成人av久久影院 | 免费a v网站 | 色婷婷综合久久久 | 日韩二区在线观看 | 欧美精品免费在线观看 | www视频免费在线观看 | 91欧美视频网站 | www.久久精品视频 | 国产一区二区视频在线 | 97碰碰视频 | 亚洲欧美日韩精品久久奇米一区 | 久久理论影院 | 精品国产视频在线 | 午夜电影中文字幕 | 狠狠躁日日躁狂躁夜夜躁 | 国内精品久久久久影院一蜜桃 | 亚洲 欧美 精品 | av超碰在线观看 | 欧美国产一区在线 | av片在线观看 | 日韩视频免费观看高清完整版在线 | 欧美日韩亚洲在线观看 | 国产一区二区电影在线观看 | 成年人黄色av | 免费在线观看一区二区三区 | 国产美女免费观看 | 国产高清精 | 亚洲国产精品电影 | 久久久香蕉视频 | 日韩一级成人av | 69精品久久 | 国产黄色一级片 | 片网址 | 国产综合精品一区二区三区 | 免费在线观看av网站 | 成 人 黄 色 免费播放 | 最新黄色av网址 | 久久黄色a级片 | 久草在线视频免费资源观看 | 草久在线视频 | 色姑娘综合天天 | 在线观看一区二区视频 | 国产精品久久久久久久久蜜臀 | 一本一本久久aa综合精品 | 久久字幕网| 91在线视频在线观看 | 草久在线观看视频 | 久久精品视频网 | 欧美日韩精品影院 | 久久久在线视频 | 成人aaa毛片 | 国产精品丝袜久久久久久久不卡 | 国产精品理论在线观看 | 亚洲精品xxx | 丰满少妇在线观看资源站 | 日韩亚洲精品电影 | 日日干网 | 黄色小视频在线观看免费 | 在线观看日韩专区 | 国内精品亚洲 | 99视频免费在线观看 | 久久精品综合视频 | 黄色官网在线观看 | 国产精品欧美在线 | 色中文字幕在线观看 | 亚洲国产成人av网 | 精品国产乱码 | 手机av网站 | 五月婷婷中文网 | 日韩av片无码一区二区不卡电影 | 日韩激情网 | 深爱婷婷激情 | 国产一区二区高清 | 精品麻豆| 五月激情六月丁香 | 久久久午夜剧场 | 91精品久久久久久久99蜜桃 | 亚洲成色777777在线观看影院 | 最近日本mv字幕免费观看 | 日韩毛片在线一区二区毛片 | 亚洲最新视频在线播放 | 日韩av成人在线观看 | 欧美成人精品在线 | 亚洲经典在线 | 国产明星视频三级a三级点| 91精品小视频 | 在线一级片 | 日韩91精品| 麻豆视频国产 | 国产精品久久久久久久久蜜臀 | 亚洲成人资源网 | 国产一级精品在线观看 | av在线免费播放 | 激情动态 | 免费网址在线播放 | 最近中文字幕免费av | 丝袜美腿在线视频 | 欧美成人影音 | 97在线影视 | 天天操一操 | 国产 欧美 在线 | 五月天综合婷婷 | 一区二区视频欧美 | 天天操天天艹 | 91视频91蝌蚪 | 91高清在线 | 国产中文字幕av | 国产一区在线视频观看 | 亚洲精品视频在线免费 | 亚洲视频 中文字幕 | 91夜夜夜 | 欧美一级片在线观看视频 | 日韩理论电影在线观看 | 精品美女视频 | 韩日精品在线 | 日韩欧美在线一区二区 | 国产精品久久嫩一区二区免费 | www.五月婷婷.com | 毛片在线网 | 国产精品入口a级 | 欧美激情精品久久久久久 | 在线视频 影院 | 中文字幕国产精品 | 天天干夜夜想 | www.国产视频 | 黄p网站在线观看 | 国产剧情一区在线 | 久草在线在线 | 国产精品入口66mio女同 | 一本—道久久a久久精品蜜桃 | 午夜色站 | 欧美视频国产视频 | 久久99欧美 | 麻豆国产露脸在线观看 | 国产精品一区二区久久精品爱微奶 | 福利视频区 | 久久a免费视频 | 色av资源网 | 天天色天天射综合网 | 亚洲欧洲精品一区二区精品久久久 | 色噜噜噜噜 | 久久人人爽人人爽人人片av软件 | 久久久一本精品99久久精品66 | 国产精品久久一区二区三区不卡 | 日韩免费av网址 | 国产精品久久9 | 麻豆传媒视频在线 | 狠狠干天天色 | 99久久日韩精品视频免费在线观看 | 综合色中文 | 日韩中文免费视频 | 国产精品一区二区白浆 | 久久久久久久久久久福利 | 亚洲午夜久久久久久久久久久 | 国产精品一区二区三区在线 | 亚洲精品欧美视频 | 日韩在线视频一区二区三区 | 在线99热| 开心激情五月网 | 亚洲美女精品视频 | 日韩伦理片hd | 观看免费av | 免费成人在线电影 | 精品成人国产 | 成年人精品 | 狠狠狠狠狠干 | 国产精品一区二区av麻豆 | 久久精品99国产精品亚洲最刺激 | 色国产精品 | 日韩高清在线观看 | 麻豆国产电影 | 久久九九影院 | 国产96在线视频 | 日韩最新在线视频 | 午夜久久久久久久久久久 | 女人魂免费观看 | 亚洲经典视频在线观看 | 亚洲区另类春色综合小说校园片 | 久久久久久久久免费视频 | 免费成人结看片 | 综合在线亚洲 | 国产91精品看黄网站 | 久久理论视频 | 天天摸天天干天天操天天射 | 黄色在线看网站 | 高清免费av在线 | 激情xxxx | 97日日碰人人模人人澡分享吧 | 日韩免费福利 | 亚洲精品午夜久久久久久久 | av免费在线观看1 | 日本乱码在线 | 久久国语露脸国产精品电影 | 精品麻豆入口免费 | 成人精品福利 | 国产1区在线观看 | 超碰在线97国产 | 日韩成人不卡 | av不卡中文 | 97国产精品一区二区 | 国产成人久久精品一区二区三区 | 国产精品剧情 | 久久99热国产 | 精品国产伦一区二区三区观看说明 | 91传媒在线看 | 午夜av免费在线观看 | 在线视频免费观看 | 国产中文字幕视频在线观看 | 国产一级黄大片 | a黄色片在线观看 | 免费在线观看成人小视频 | 国产精品久久久久久久久久久久久久 | 夜夜骑日日 | 免费在线成人av电影 | 尤物九九久久国产精品的分类 | 亚洲欧美国产精品久久久久 | 在线观看视频国产 | 欧美日韩精品在线视频 | 国产淫片免费看 | 欧美国产不卡 | 五月天综合婷婷 | 国产精品一区一区三区 | av福利超碰网站 | 欧美色精品天天在线观看视频 | 国产麻豆剧果冻传媒视频播放量 | 久久久精品在线观看 | 成人黄色毛片视频 |