當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

强化学习（六）时序差分在线控制算法SARSA

發(fā)布時(shí)間：2025/4/5 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习（六）时序差分在线控制算法SARSA 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

　在強(qiáng)化學(xué)習(xí)（五）用時(shí)序差分法（TD）求解中，我們討論了用時(shí)序差分來(lái)求解強(qiáng)化學(xué)習(xí)預(yù)測(cè)問(wèn)題的方法，但是對(duì)控制算法的求解過(guò)程沒(méi)有深入，本文我們就對(duì)時(shí)序差分的在線控制算法SARSA做詳細(xì)的討論。

　　　　SARSA這一篇對(duì)應(yīng)Sutton書(shū)的第六章部分和UCL強(qiáng)化學(xué)習(xí)課程的第五講部分。

1. SARSA算法的引入

　　　　SARSA算法是一種使用時(shí)序差分求解強(qiáng)化學(xué)習(xí)控制問(wèn)題的方法，回顧下此時(shí)我們的控制問(wèn)題可以表示為：給定強(qiáng)化學(xué)習(xí)的5個(gè)要素：狀態(tài)集SS, 動(dòng)作集AA, 即時(shí)獎(jiǎng)勵(lì)RR，衰減因子γγ, 探索率??, 求解最優(yōu)的動(dòng)作價(jià)值函數(shù)q?q?和最優(yōu)策略π?π?。

　　　　這一類(lèi)強(qiáng)化學(xué)習(xí)的問(wèn)題求解不需要環(huán)境的狀態(tài)轉(zhuǎn)化模型，是不基于模型的強(qiáng)化學(xué)習(xí)問(wèn)題求解方法。對(duì)于它的控制問(wèn)題求解，和蒙特卡羅法類(lèi)似，都是價(jià)值迭代，即通過(guò)價(jià)值函數(shù)的更新，來(lái)更新當(dāng)前的策略，再通過(guò)新的策略，來(lái)產(chǎn)生新的狀態(tài)和即時(shí)獎(jiǎng)勵(lì)，進(jìn)而更新價(jià)值函數(shù)。一直進(jìn)行下去，直到價(jià)值函數(shù)和策略都收斂。

　　　　再回顧下時(shí)序差分法的控制問(wèn)題，可以分為兩類(lèi)，一類(lèi)是在線控制，即一直使用一個(gè)策略來(lái)更新價(jià)值函數(shù)和選擇新的動(dòng)作。而另一類(lèi)是離線控制，會(huì)使用兩個(gè)控制策略，一個(gè)策略用于選擇新的動(dòng)作，另一個(gè)策略用于更新價(jià)值函數(shù)。

　　　　我們的SARSA算法，屬于在線控制這一類(lèi)，即一直使用一個(gè)策略來(lái)更新價(jià)值函數(shù)和選擇新的動(dòng)作，而這個(gè)策略是????貪婪法，在

總結(jié)

以上是生活随笔為你收集整理的强化学习（六）时序差分在线控制算法SARSA的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：强化学习（五）用时序差分法（TD）求解
下一篇：强化学习（八）价值函数的近似表示与Dee

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

强化学习（六）时序差分在线控制算法SARSA

1. SARSA算法的引入

總結(jié)