日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

强化学习(十三) 策略梯度(Policy Gradient)

發(fā)布時(shí)間:2025/4/5 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习(十三) 策略梯度(Policy Gradient) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

 在前面講到的DQN系列強(qiáng)化學(xué)習(xí)算法中,我們主要對(duì)價(jià)值函數(shù)進(jìn)行了近似表示,基于價(jià)值來(lái)學(xué)習(xí)。這種Value Based強(qiáng)化學(xué)習(xí)方法在很多領(lǐng)域都得到比較好的應(yīng)用,但是Value Based強(qiáng)化學(xué)習(xí)方法也有很多局限性,因此在另一些場(chǎng)景下我們需要其他的方法,比如本篇討論的策略梯度(Policy Gradient),它是Policy Based強(qiáng)化學(xué)習(xí)方法,基于策略來(lái)學(xué)習(xí)。

    本文參考了Sutton的強(qiáng)化學(xué)習(xí)書(shū)第13章和策略梯度的論文。

1. Value Based強(qiáng)化學(xué)習(xí)方法的不足

    DQN系列強(qiáng)化學(xué)習(xí)算法主要的問(wèn)題主要有三點(diǎn)。

    第一點(diǎn)是對(duì)連續(xù)動(dòng)作的處理能力不足。DQN之類(lèi)的方法一般都是只處理離散動(dòng)作,無(wú)法處理連續(xù)動(dòng)作。雖然有NAF DQN之類(lèi)的變通方法,但是并不優(yōu)雅。比如我們之前提到的經(jīng)典的冰球世界(PuckWorld) 強(qiáng)化學(xué)習(xí)問(wèn)題,具體的動(dòng)態(tài)demo見(jiàn)這里。環(huán)境由一個(gè)正方形區(qū)域構(gòu)成代表著冰球場(chǎng)地,場(chǎng)地內(nèi)大的圓代表著運(yùn)動(dòng)員個(gè)體,小圓代表著目標(biāo)冰球。在這個(gè)正方形環(huán)境中,小圓會(huì)每隔一定的時(shí)間隨機(jī)改變?cè)趫?chǎng)地的位置,而代表個(gè)體的大圓的任務(wù)就是盡可能快的接近冰球目標(biāo)。大圓可以操作的行為是在水平和豎直共四個(gè)方向上施加一個(gè)時(shí)間乘時(shí)長(zhǎng)的力,借此來(lái)改變大圓的速度。假如此時(shí)這個(gè)力的大小和方向是可以靈活選擇的,那么使用普通的DQN之類(lèi)的算法就不好做了。因?yàn)榇藭r(shí)策略是一個(gè)有具體值有方向的力,我們可以把這個(gè)力在水平和垂直方向分解。那么這個(gè)力就是兩個(gè)連續(xù)的向量組成,這個(gè)策略使用離散的方式是不好表達(dá)的&#x

總結(jié)

以上是生活随笔為你收集整理的强化学习(十三) 策略梯度(Policy Gradient)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。