动态规划算法实验报告_强化学习之动态规划算法
如今的強化學習研究大體分為了兩個研究學派:一個是以Sutton,Sliver等人為代表的value-based學派,他們主要從值函數近似角度入手去研究強化學習,這也是強化學習早期最初發展起來時沿用的路線;第二個是以伯克利Sergey Levine為代表的policy-based學派,主要從策略近似角度出發研究強化學習。
今天我介紹的動態規劃算法思想在value-based乃至整個強化學習領域都起到了至關重要的作用,有非常多的算法都從其中衍生而來。話不多說,請坐穩扶好,老司機要發車了,嘟嘟~
動態規劃是一種優化算法,起源于最優控制領域,可以用來解決多階段序列決策問題,或者離散時間動態自適應控制問題。一個問題可以用動態規劃求解,需要滿足一下幾條基本性質:
- 子問題最優性/最優子結構
原問題可以被分解為子問題,原問題的最優性可以通過子問題的最優性推導出
- 子問題重疊性/重疊子問題
一個問題滿足子問題重疊性,意味著當我們去求解一個較大問題的最優解時,會多次調用子問題的最優解,即子問題的解會被多次遞歸調用。實際編程中我們會把子問題的解存儲起來,后續會多次訪問。例如OI中的記憶化搜索等等。
—————————————————————————————————————
馬爾可夫決策過程滿足上述兩條基本性質:
- 貝爾曼期望方程給出了遞歸分解式,將原問題的求解分解為子問題的求解
- 價值函數可以被存儲和多次調用
MDPs產生的序列是有先后順序的,對于這種序列決策問題,前驅狀態可以看做子問題,后繼狀態可以看做原問題,通過backup即可利用
可達狀態的價值函數推導出 的價值函數。動態規劃方法用于解決model-based reinforcement learning問題,假設可知環境的所有動態信息,例如狀態之間的轉移規律等等。這個要求實際是非常苛刻的,因此后續會有很多的變體,不要求已知一個環境的模型。
接下來先介紹一下prediction和control的區別:
prediction:
prediction過程主要在做policy evaluation,即輸入
和policy ,輸出是follow policy 得到的狀態價值函數control
control主要在solve一個optimal policy and optimal value function。輸入是MDP
,輸出:- optimal policy
- optimal value function
接下來我們介紹利用動態規劃解決Policy Evaluation的方法:
目標:評估一個Policy的好壞;
解決方法:不斷迭代貝爾曼期望方程;
——————————————————————————————稍后繼續更新
策略改進:
策略評估:
''' 動態規劃之策略迭代實現 算法:Policy Iteration 策略評估 + 策略改進:Bellman Expectation Equation + Greedy Policy Improvement ''' import gym import matplotlib.pyplot as plt import numpy as np %matplotlib inlineenv = gym.make('CliffWalking-v0') # 導入gym環境-懸崖尋路def play_once(env,q_table):total_reward = 0state = env.reset()action = np.argmax(q_table[state,:]) # greedy policy improvement 公式(1)while True:next_state, reward, done, _ = env.step(action)next_action = np.argmax(q_table[next_state,:])# 貝爾曼期望方程策略改進,公式(2)q_table[state,action] = reward + 0.9*q_table[next_state,next_action] total_reward += rewardif done:breakstate = next_stateaction = next_actionreturn total_rewardq_table = np.zeros((env.nS,env.nA)) ans = [] for i in range(30):total_reward = play_once(env,q_table)print("總獎勵 = {}".format(total_reward))ans.append(total_reward) plt.figure() plt.plot(ans,'b-') plt.show()——————————————稍后繼續更——————————————————
總結
以上是生活随笔為你收集整理的动态规划算法实验报告_强化学习之动态规划算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mqtt如何判断设备离线_反渗透纯水设备
- 下一篇: ajax 请求svg,jQuery ap