强化学习算法Policy Gradient
1 算法的優(yōu)缺點(diǎn)
1.1 優(yōu)點(diǎn)
在DQN算法中,神經(jīng)網(wǎng)絡(luò)輸出的是動(dòng)作的q值,這對(duì)于一個(gè)agent擁有少數(shù)的離散的動(dòng)作還是可以的。但是如果某個(gè)agent的動(dòng)作是連續(xù)的,這無(wú)疑對(duì)DQN算法是一個(gè)巨大的挑戰(zhàn),為了解決這個(gè)問(wèn)題,前輩們將基于值的方法改成了基于策略的方法,即輸出動(dòng)作的概率。
1.2 缺點(diǎn)
策略梯度算法應(yīng)用未來(lái)?yè)p失的return作為更新迭代的依據(jù),即在一個(gè)回合過(guò)后,在這一回合中,若執(zhí)行的某一動(dòng)作的動(dòng)作價(jià)值R大,則會(huì)加在下一回合選擇這一動(dòng)作的概率,反之,若執(zhí)行的某一動(dòng)作的動(dòng)作價(jià)值R小,則會(huì)在下一回合選擇這一動(dòng)作的概率減小。因此,要想用return做為預(yù)測(cè)動(dòng)作概率的神經(jīng)網(wǎng)絡(luò)更新的依據(jù),就必須先擁有一個(gè)決策鏈,才能將return計(jì)算出來(lái),因此每一個(gè)更新是在一個(gè)回合結(jié)束后才能更新一個(gè)。更新的速率比較慢
2 算法的流程
2.1 算法的整體邏輯
? 2.2 算法的更新邏輯
?
轉(zhuǎn)載于:https://www.cnblogs.com/swenwen/p/10722851.html
總結(jié)
以上是生活随笔為你收集整理的强化学习算法Policy Gradient的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 使用Spring工厂模式管理多个类实现同
- 下一篇: 为什么Node约定,回调函数的第一个参数