當(dāng)前位置：首頁(yè) >

强化学习笔记： MDP - Policy iteration

發(fā)布時(shí)間：2025/4/5 33 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习笔记： MDP - Policy iteration 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 Policy iteration介紹

?Policy iteration式馬爾可夫決策過程 MDP里面用來搜索最優(yōu)策略的算法

?Policy iteration 由兩個(gè)步驟組成：policy evaluation 和 policy improvement。

2 Policy iteration 的兩個(gè)主要步驟

????????第一個(gè)步驟是 policy evaluation，當(dāng)前我們?cè)趦?yōu)化這個(gè) policy π，我們先保證這個(gè) policy 不變，然后去估計(jì)它出來的這個(gè)價(jià)值。即：給定當(dāng)前的 policy function 來估計(jì)這個(gè) v 函數(shù) （一直迭代至收斂，獲得準(zhǔn)確的V(s)）

????????第二個(gè)步驟是 policy improvement，得到 v 函數(shù)過后，我們可以進(jìn)一步推算出它的 Q 函數(shù)。

得到 Q 函數(shù)過后，我們直接在 Q 函數(shù)上面取極大化，通過在這個(gè) Q 函數(shù)上面做一個(gè)貪心的搜索來進(jìn)一步改進(jìn)它的策略。

各個(gè)轉(zhuǎn)移概率是不變的，改變的只是我選取那個(gè)策略

????????這兩個(gè)步驟就一直是在迭代進(jìn)行，所以在 policy iteration 里面，在初始化的時(shí)候，我們有一個(gè)初始化的?V和?π?，然后就是在這兩個(gè)過程之間迭代。

3 Q-table

把 Q 函數(shù)看成一個(gè) Q-table,得到 Q 函數(shù)后，Q-table也就得到了。:

橫軸是它的所有狀態(tài)，
縱軸是它的可能的 action。

????????那么對(duì)于某一個(gè)狀態(tài)，每一列里面我們會(huì)取最大的那個(gè)值，最大值對(duì)應(yīng)的那個(gè) action 就是它現(xiàn)在應(yīng)該采取的 action。

????????所以 arg max 操作就說在每個(gè)狀態(tài)里面采取一個(gè) action，這個(gè) action 是能使這一列的 Q 最大化的那個(gè)動(dòng)作。

????????這張表格里面 Q 函數(shù)的意義就是我選擇了這個(gè)動(dòng)作之后，后續(xù)能夠一共拿到多少總收益。如果可以預(yù)估未來的總收益的大小，我們當(dāng)然知道在當(dāng)前的這個(gè)狀態(tài)下選擇哪個(gè)動(dòng)作，價(jià)值更高。我選擇某個(gè)動(dòng)作是因?yàn)槲椅磥砜梢阅玫降哪莻€(gè)價(jià)值會(huì)更高一點(diǎn)。所以強(qiáng)化學(xué)習(xí)的目標(biāo)導(dǎo)向性很強(qiáng)，環(huán)境給出的獎(jiǎng)勵(lì)是一個(gè)非常重要的反饋，它就是根據(jù)環(huán)境的獎(jiǎng)勵(lì)來去做選擇。

? ? ? ? ?對(duì)于model-free的MDP，最開始這張 Q 表格會(huì)全部初始化為零，然后 agent 會(huì)不斷地去和環(huán)境交互得到不同的軌跡。

????????當(dāng)交互的次數(shù)足夠多的時(shí)候，我們就可以估算出每一個(gè)狀態(tài)下，每個(gè)行動(dòng)的平均總收益，然后去更新這個(gè) Q 表格。

????????當(dāng)一直在采取 arg max 操作的時(shí)候，我們會(huì)得到一個(gè)單調(diào)的遞增。

????????通過采取這種 greedy，即 arg max 操作，我們就會(huì)得到更好的或者不變的 policy，而不會(huì)使它這個(gè)價(jià)值函數(shù)變差。

????????所以當(dāng)這個(gè)改進(jìn)停止過后，我們就會(huì)得到一個(gè)最佳策略

3.1?為什么可以用未來的總收益來評(píng)價(jià)當(dāng)前這個(gè)動(dòng)作是好是壞?

????????舉個(gè)例子，假設(shè)一輛車在路上，當(dāng)前是紅燈，我們直接走的收益就很低，因?yàn)檫`反交通規(guī)則，這就是當(dāng)前的單步收益。

????????可是如果我們這是一輛救護(hù)車，我們正在運(yùn)送病人，把病人快速送達(dá)醫(yī)院的收益非常的高，而且越快你的收益越大。

????????在這種情況下，我們很可能應(yīng)該要闖紅燈，因?yàn)槲磥淼倪h(yuǎn)期收益太高了。

????????這也是為什么強(qiáng)化學(xué)習(xí)需要去學(xué)習(xí)遠(yuǎn)期的收益，因?yàn)樵诂F(xiàn)實(shí)世界中獎(jiǎng)勵(lì)往往是延遲的。

????????所以我們一般會(huì)從當(dāng)前狀態(tài)開始，把后續(xù)有可能會(huì)收到所有收益加起來計(jì)算當(dāng)前動(dòng)作的 Q 的價(jià)值，讓 Q 的價(jià)值可以真正地代表當(dāng)前這個(gè)狀態(tài)下，動(dòng)作的真正的價(jià)值。

4 Bellman Optimization Equation

對(duì)于MDP，我們知道有這樣的式子

????????當(dāng)改進(jìn)停止的時(shí)候，action的決策已經(jīng)確定，此時(shí)只有一個(gè)action的?為1，其余的均為0【這樣可以使得q(s,a)最大】，所以我們可以得到一個(gè)新的等式：

?????????這個(gè)等式被稱為?Bellman optimality equation，當(dāng) MDP 滿足 Bellman optimality equation 的時(shí)候，整個(gè) MDP 已經(jīng)到達(dá)最佳的狀態(tài)。

????????它到達(dá)最佳狀態(tài)過后，對(duì)于這個(gè) Q 函數(shù)，取它最大的 action 的那個(gè)值，就是直接等于它的最佳的 value function。

? ? ? ? 這個(gè)等式只有當(dāng)整個(gè)狀態(tài)已經(jīng)收斂，得到一個(gè)最佳的 policy 的時(shí)候，才會(huì)滿足。

?????????在滿足Bellman optimality equation后，我們重新審視以下Q函數(shù)的Bellman expectation equation：

? ? ? ? ?把bellman optimization equation 代入，有：

?這個(gè)式子就是Q-learning 的轉(zhuǎn)移方程

?同樣，對(duì)于value function的轉(zhuǎn)移函數(shù)，

通過

可以推出：

【

原來的式子是：

】?

總結(jié)

以上是生活随笔為你收集整理的强化学习笔记： MDP - Policy iteration的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：强化学习笔记： backup diagr
下一篇：机器学习笔记： Upsampling,