日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

强化学习笔记: MDP - Policy iteration

發(fā)布時(shí)間:2025/4/5 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习笔记: MDP - Policy iteration 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1 Policy iteration介紹

?Policy iteration式馬爾可夫決策過程 MDP里面用來搜索最優(yōu)策略的算法

?

?Policy iteration 由兩個(gè)步驟組成:policy evaluation 和 policy improvement。

2 Policy iteration 的兩個(gè)主要步驟

????????第一個(gè)步驟是 policy evaluation,當(dāng)前我們?cè)趦?yōu)化這個(gè) policy π,我們先保證這個(gè) policy 不變,然后去估計(jì)它出來的這個(gè)價(jià)值。即:給定當(dāng)前的 policy function 來估計(jì)這個(gè) v 函數(shù) (一直迭代至收斂,獲得準(zhǔn)確的V(s))

????????第二個(gè)步驟是 policy improvement,得到 v 函數(shù)過后,我們可以進(jìn)一步推算出它的 Q 函數(shù)。

得到 Q 函數(shù)過后,我們直接在 Q 函數(shù)上面取極大化,通過在這個(gè) Q 函數(shù)上面做一個(gè)貪心的搜索來進(jìn)一步改進(jìn)它的策略

各個(gè)轉(zhuǎn)移概率是不變的,改變的只是我選取那個(gè)策略

????????這兩個(gè)步驟就一直是在迭代進(jìn)行,所以在 policy iteration 里面,在初始化的時(shí)候,我們有一個(gè)初始化的?V和?π?,然后就是在這兩個(gè)過程之間迭代。

3 Q-table

把 Q 函數(shù)看成一個(gè) Q-table,得到 Q 函數(shù)后,Q-table也就得到了。:

  • 橫軸是它的所有狀態(tài),
  • 縱軸是它的可能的 action。

????????那么對(duì)于某一個(gè)狀態(tài),每一列里面我們會(huì)取最大的那個(gè)值,最大值對(duì)應(yīng)的那個(gè) action 就是它現(xiàn)在應(yīng)該采取的 action。

????????所以 arg max 操作就說在每個(gè)狀態(tài)里面采取一個(gè) action,這個(gè) action 是能使這一列的 Q 最大化的那個(gè)動(dòng)作。

????????這張表格里面 Q 函數(shù)的意義就是我選擇了這個(gè)動(dòng)作之后,后續(xù)能夠一共拿到多少總收益。如果可以預(yù)估未來的總收益的大小,我們當(dāng)然知道在當(dāng)前的這個(gè)狀態(tài)下選擇哪個(gè)動(dòng)作,價(jià)值更高。我選擇某個(gè)動(dòng)作是因?yàn)槲椅磥砜梢阅玫降哪莻€(gè)價(jià)值會(huì)更高一點(diǎn)。所以強(qiáng)化學(xué)習(xí)的目標(biāo)導(dǎo)向性很強(qiáng),環(huán)境給出的獎(jiǎng)勵(lì)是一個(gè)非常重要的反饋,它就是根據(jù)環(huán)境的獎(jiǎng)勵(lì)來去做選擇。

? ? ? ? ?對(duì)于model-free的MDP,最開始這張 Q 表格會(huì)全部初始化為零,然后 agent 會(huì)不斷地去和環(huán)境交互得到不同的軌跡。

????????當(dāng)交互的次數(shù)足夠多的時(shí)候,我們就可以估算出每一個(gè)狀態(tài)下,每個(gè)行動(dòng)的平均總收益,然后去更新這個(gè) Q 表格。

????????當(dāng)一直在采取 arg max 操作的時(shí)候,我們會(huì)得到一個(gè)單調(diào)的遞增。

????????通過采取這種 greedy,即 arg max 操作,我們就會(huì)得到更好的或者不變的 policy,而不會(huì)使它這個(gè)價(jià)值函數(shù)變差。

????????所以當(dāng)這個(gè)改進(jìn)停止過后,我們就會(huì)得到一個(gè)最佳策略

3.1?為什么可以用未來的總收益來評(píng)價(jià)當(dāng)前這個(gè)動(dòng)作是好是壞?

????????舉個(gè)例子,假設(shè)一輛車在路上,當(dāng)前是紅燈,我們直接走的收益就很低,因?yàn)檫`反交通規(guī)則,這就是當(dāng)前的單步收益。

????????可是如果我們這是一輛救護(hù)車,我們正在運(yùn)送病人,把病人快速送達(dá)醫(yī)院的收益非常的高,而且越快你的收益越大。

????????在這種情況下,我們很可能應(yīng)該要闖紅燈,因?yàn)槲磥淼倪h(yuǎn)期收益太高了。

????????這也是為什么強(qiáng)化學(xué)習(xí)需要去學(xué)習(xí)遠(yuǎn)期的收益,因?yàn)樵诂F(xiàn)實(shí)世界中獎(jiǎng)勵(lì)往往是延遲的。

????????所以我們一般會(huì)從當(dāng)前狀態(tài)開始,把后續(xù)有可能會(huì)收到所有收益加起來計(jì)算當(dāng)前動(dòng)作的 Q 的價(jià)值,讓 Q 的價(jià)值可以真正地代表當(dāng)前這個(gè)狀態(tài)下,動(dòng)作的真正的價(jià)值。

?

4 Bellman Optimization Equation

對(duì)于MDP,我們知道有這樣的式子

????????當(dāng)改進(jìn)停止的時(shí)候,action的決策已經(jīng)確定,此時(shí)只有一個(gè)action的?為1,其余的均為0【這樣可以使得q(s,a)最大】,所以我們可以得到一個(gè)新的等式:

?????????這個(gè)等式被稱為?Bellman optimality equation,當(dāng) MDP 滿足 Bellman optimality equation 的時(shí)候,整個(gè) MDP 已經(jīng)到達(dá)最佳的狀態(tài)。

????????它到達(dá)最佳狀態(tài)過后,對(duì)于這個(gè) Q 函數(shù),取它最大的 action 的那個(gè)值,就是直接等于它的最佳的 value function。

? ? ? ? 這個(gè)等式只有當(dāng)整個(gè)狀態(tài)已經(jīng)收斂,得到一個(gè)最佳的 policy 的時(shí)候,才會(huì)滿足

?????????在滿足Bellman optimality equation后,我們重新審視以下Q函數(shù)的Bellman expectation equation:

? ? ? ? ?把bellman optimization equation 代入,有:

?這個(gè)式子就是Q-learning 的轉(zhuǎn)移方程

?同樣,對(duì)于value function的轉(zhuǎn)移函數(shù),

通過

可以推出:

原來的式子是:

】?

總結(jié)

以上是生活随笔為你收集整理的强化学习笔记: MDP - Policy iteration的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。