日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记: MDP - Policy iteration

發(fā)布時(shí)間:2025/4/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习笔记: MDP - Policy iteration 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 Policy iteration介紹

?Policy iteration式馬爾可夫決策過(guò)程 MDP里面用來(lái)搜索最優(yōu)策略的算法

?

?Policy iteration 由兩個(gè)步驟組成:policy evaluation 和 policy improvement。

2 Policy iteration 的兩個(gè)主要步驟

????????第一個(gè)步驟是 policy evaluation,當(dāng)前我們?cè)趦?yōu)化這個(gè) policy π,我們先保證這個(gè) policy 不變,然后去估計(jì)它出來(lái)的這個(gè)價(jià)值。即:給定當(dāng)前的 policy function 來(lái)估計(jì)這個(gè) v 函數(shù) (一直迭代至收斂,獲得準(zhǔn)確的V(s))

????????第二個(gè)步驟是 policy improvement,得到 v 函數(shù)過(guò)后,我們可以進(jìn)一步推算出它的 Q 函數(shù)。

得到 Q 函數(shù)過(guò)后,我們直接在 Q 函數(shù)上面取極大化,通過(guò)在這個(gè) Q 函數(shù)上面做一個(gè)貪心的搜索來(lái)進(jìn)一步改進(jìn)它的策略

各個(gè)轉(zhuǎn)移概率是不變的,改變的只是我選取那個(gè)策略

????????這兩個(gè)步驟就一直是在迭代進(jìn)行,所以在 policy iteration 里面,在初始化的時(shí)候,我們有一個(gè)初始化的?V和?π?,然后就是在這兩個(gè)過(guò)程之間迭代。

3 Q-table

把 Q 函數(shù)看成一個(gè) Q-table,得到 Q 函數(shù)后,Q-table也就得到了。:

  • 橫軸是它的所有狀態(tài),
  • 縱軸是它的可能的 action。

????????那么對(duì)于某一個(gè)狀態(tài),每一列里面我們會(huì)取最大的那個(gè)值,最大值對(duì)應(yīng)的那個(gè) action 就是它現(xiàn)在應(yīng)該采取的 action。

????????所以 arg max 操作就說(shuō)在每個(gè)狀態(tài)里面采取一個(gè) action,這個(gè) action 是能使這一列的 Q 最大化的那個(gè)動(dòng)作。

????????這張表格里面 Q 函數(shù)的意義就是我選擇了這個(gè)動(dòng)作之后,后續(xù)能夠一共拿到多少總收益。如果可以預(yù)估未來(lái)的總收益的大小,我們當(dāng)然知道在當(dāng)前的這個(gè)狀態(tài)下選擇哪個(gè)動(dòng)作,價(jià)值更高。我選擇某個(gè)動(dòng)作是因?yàn)槲椅磥?lái)可以拿到的那個(gè)價(jià)值會(huì)更高一點(diǎn)。所以強(qiáng)化學(xué)習(xí)的目標(biāo)導(dǎo)向性很強(qiáng),環(huán)境給出的獎(jiǎng)勵(lì)是一個(gè)非常重要的反饋,它就是根據(jù)環(huán)境的獎(jiǎng)勵(lì)來(lái)去做選擇。

? ? ? ? ?對(duì)于model-free的MDP,最開(kāi)始這張 Q 表格會(huì)全部初始化為零,然后 agent 會(huì)不斷地去和環(huán)境交互得到不同的軌跡。

????????當(dāng)交互的次數(shù)足夠多的時(shí)候,我們就可以估算出每一個(gè)狀態(tài)下,每個(gè)行動(dòng)的平均總收益,然后去更新這個(gè) Q 表格。

????????當(dāng)一直在采取 arg max 操作的時(shí)候,我們會(huì)得到一個(gè)單調(diào)的遞增。

????????通過(guò)采取這種 greedy,即 arg max 操作,我們就會(huì)得到更好的或者不變的 policy,而不會(huì)使它這個(gè)價(jià)值函數(shù)變差。

????????所以當(dāng)這個(gè)改進(jìn)停止過(guò)后,我們就會(huì)得到一個(gè)最佳策略

3.1?為什么可以用未來(lái)的總收益來(lái)評(píng)價(jià)當(dāng)前這個(gè)動(dòng)作是好是壞?

????????舉個(gè)例子,假設(shè)一輛車在路上,當(dāng)前是紅燈,我們直接走的收益就很低,因?yàn)檫`反交通規(guī)則,這就是當(dāng)前的單步收益。

????????可是如果我們這是一輛救護(hù)車,我們正在運(yùn)送病人,把病人快速送達(dá)醫(yī)院的收益非常的高,而且越快你的收益越大。

????????在這種情況下,我們很可能應(yīng)該要闖紅燈,因?yàn)槲磥?lái)的遠(yuǎn)期收益太高了。

????????這也是為什么強(qiáng)化學(xué)習(xí)需要去學(xué)習(xí)遠(yuǎn)期的收益,因?yàn)樵诂F(xiàn)實(shí)世界中獎(jiǎng)勵(lì)往往是延遲的。

????????所以我們一般會(huì)從當(dāng)前狀態(tài)開(kāi)始,把后續(xù)有可能會(huì)收到所有收益加起來(lái)計(jì)算當(dāng)前動(dòng)作的 Q 的價(jià)值,讓 Q 的價(jià)值可以真正地代表當(dāng)前這個(gè)狀態(tài)下,動(dòng)作的真正的價(jià)值。

?

4 Bellman Optimization Equation

對(duì)于MDP,我們知道有這樣的式子

????????當(dāng)改進(jìn)停止的時(shí)候,action的決策已經(jīng)確定,此時(shí)只有一個(gè)action的?為1,其余的均為0【這樣可以使得q(s,a)最大】,所以我們可以得到一個(gè)新的等式:

?????????這個(gè)等式被稱為?Bellman optimality equation,當(dāng) MDP 滿足 Bellman optimality equation 的時(shí)候,整個(gè) MDP 已經(jīng)到達(dá)最佳的狀態(tài)。

????????它到達(dá)最佳狀態(tài)過(guò)后,對(duì)于這個(gè) Q 函數(shù),取它最大的 action 的那個(gè)值,就是直接等于它的最佳的 value function。

? ? ? ? 這個(gè)等式只有當(dāng)整個(gè)狀態(tài)已經(jīng)收斂,得到一個(gè)最佳的 policy 的時(shí)候,才會(huì)滿足

?????????在滿足Bellman optimality equation后,我們重新審視以下Q函數(shù)的Bellman expectation equation:

? ? ? ? ?把bellman optimization equation 代入,有:

?這個(gè)式子就是Q-learning 的轉(zhuǎn)移方程

?同樣,對(duì)于value function的轉(zhuǎn)移函數(shù),

通過(guò)

可以推出:

原來(lái)的式子是:

】?

總結(jié)

以上是生活随笔為你收集整理的强化学习笔记: MDP - Policy iteration的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。