HJB方程简述
參考資料:維基的哈密頓-雅克比-貝爾曼方程條目。有條件的同學(xué)可以自行查看,效果比本文要好一些。文末也會給出相關(guān)更深入的資料供大家學(xué)習(xí)。
作為強(qiáng)化學(xué)習(xí)的一個基礎(chǔ)思想,HJB方程從大框架概述了控制優(yōu)化的方向。這里對其推導(dǎo)與應(yīng)用進(jìn)行簡述。
定義如下變量:為過程價值函數(shù),其中S(t)為在t時刻的狀態(tài)函數(shù),A(t)為在t時刻的動作函數(shù)。
為在t時刻狀態(tài)為S(t)的終點值函數(shù)。
我們可以定義如下過程:在[0,T]時間段,最終值函數(shù)的表現(xiàn)形式如下:
?而我們的優(yōu)化目標(biāo)就是保證右端公式的最小化。
HJB偏微分形式推導(dǎo):
考慮如下表達(dá)形式:
?
?對右端的進(jìn)行泰勒展開,可得到以下形式:
?與上式聯(lián)立可消去,然后去除dt,可得如下優(yōu)化形式:
?JCB方程微分形式推導(dǎo)得證。
如何求解:
一般采用逆向歸納法,即從t=T推導(dǎo)至t=0,利用動態(tài)規(guī)劃的思想求解。
?HJB方程相關(guān)資料:
鏈接:https://pan.baidu.com/s/1pBom-F4cLqHVA3_u3XSOyA?pwd=4s5e
提取碼:4s5e
總結(jié)
- 上一篇: hjb
- 下一篇: HJB方程的一些简单理解和过程推导