强化学习(六)时序差分在线控制算法SARSA
在強(qiáng)化學(xué)習(xí)(五)用時(shí)序差分法(TD)求解中,我們討論了用時(shí)序差分來(lái)求解強(qiáng)化學(xué)習(xí)預(yù)測(cè)問(wèn)題的方法,但是對(duì)控制算法的求解過(guò)程沒(méi)有深入,本文我們就對(duì)時(shí)序差分的在線控制算法SARSA做詳細(xì)的討論。
SARSA這一篇對(duì)應(yīng)Sutton書(shū)的第六章部分和UCL強(qiáng)化學(xué)習(xí)課程的第五講部分。
1. SARSA算法的引入
SARSA算法是一種使用時(shí)序差分求解強(qiáng)化學(xué)習(xí)控制問(wèn)題的方法,回顧下此時(shí)我們的控制問(wèn)題可以表示為:給定強(qiáng)化學(xué)習(xí)的5個(gè)要素:狀態(tài)集SS, 動(dòng)作集AA, 即時(shí)獎(jiǎng)勵(lì)RR,衰減因子γγ, 探索率??, 求解最優(yōu)的動(dòng)作價(jià)值函數(shù)q?q?和最優(yōu)策略π?π?。
這一類(lèi)強(qiáng)化學(xué)習(xí)的問(wèn)題求解不需要環(huán)境的狀態(tài)轉(zhuǎn)化模型,是不基于模型的強(qiáng)化學(xué)習(xí)問(wèn)題求解方法。對(duì)于它的控制問(wèn)題求解,和蒙特卡羅法類(lèi)似,都是價(jià)值迭代,即通過(guò)價(jià)值函數(shù)的更新,來(lái)更新當(dāng)前的策略,再通過(guò)新的策略,來(lái)產(chǎn)生新的狀態(tài)和即時(shí)獎(jiǎng)勵(lì),進(jìn)而更新價(jià)值函數(shù)。一直進(jìn)行下去,直到價(jià)值函數(shù)和策略都收斂。
再回顧下時(shí)序差分法的控制問(wèn)題,可以分為兩類(lèi),一類(lèi)是在線控制,即一直使用一個(gè)策略來(lái)更新價(jià)值函數(shù)和選擇新的動(dòng)作。而另一類(lèi)是離線控制,會(huì)使用兩個(gè)控制策略,一個(gè)策略用于選擇新的動(dòng)作,另一個(gè)策略用于更新價(jià)值函數(shù)。
我們的SARSA算法,屬于在線控制這一類(lèi),即一直使用一個(gè)策略來(lái)更新價(jià)值函數(shù)和選擇新的動(dòng)作,而這個(gè)策略是????貪婪法,在
總結(jié)
以上是生活随笔為你收集整理的强化学习(六)时序差分在线控制算法SARSA的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 强化学习(五)用时序差分法(TD)求解
- 下一篇: 强化学习(八)价值函数的近似表示与Dee