日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习之基于伪计数的探索算法

發(fā)布時(shí)間:2024/10/8 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习之基于伪计数的探索算法 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?作者|王治海

學(xué)校|中國科學(xué)技術(shù)大學(xué)碩士生

研究方向|強(qiáng)化學(xué)習(xí)與機(jī)器博弈

強(qiáng)化學(xué)習(xí)基于智能體與環(huán)境的交互,以最大化累積獎(jiǎng)勵(lì)為目標(biāo),學(xué)習(xí)狀態(tài)到動(dòng)作的映射(即策略)。本文將主要圍繞強(qiáng)化學(xué)習(xí)中的探索問題展開,首先介紹強(qiáng)化學(xué)習(xí)中的探索問題,并針對(duì)此問題介紹基于偽計(jì)數(shù)的探索算法,從核心思想和算法有效原因兩個(gè)角度對(duì)該算法進(jìn)行了深入的分析與討論。

強(qiáng)化學(xué)習(xí)中的探索問題介紹

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)

強(qiáng)化學(xué)習(xí)用于解決序貫決策問題,而該類問題往往通過馬爾可夫決策過程(Markov Decision Process)進(jìn)行建模。該過程可以通過五元組表示。其中

  • 表示狀態(tài)空間,假設(shè)狀態(tài)空間連續(xù)。

  • 表示動(dòng)作空間,假設(shè)動(dòng)作空間連續(xù)。

  • 是狀態(tài)轉(zhuǎn)移的概率密度函數(shù)。

  • 是獎(jiǎng)勵(lì)函數(shù)。

  • 表示折扣因子,是一個(gè)常數(shù)。

接下來將介紹強(qiáng)化學(xué)習(xí)算法面臨的一個(gè)重要挑戰(zhàn),探索與利用困境。

探索與利用困境(Exploration and Exploitation Dilemma)

何為探索與利用困境

探索與利用困境是強(qiáng)化學(xué)習(xí)算法的一個(gè)重要挑戰(zhàn)。直觀的例子是今天小明想去吃頓好的,現(xiàn)在他有兩家飯店A,B可以選擇,A飯店是吃過一次的店,體驗(yàn)還不錯(cuò),B飯店是新開張的店,B飯店有可能物美價(jià)廉,也有可能又貴又難吃。擺在小明面前的選擇難題就是探索與利用困境。如果小明傾向于「利用」自己已有的信息,則會(huì)選擇A飯店;如果小明傾向于「探索」自己不確定的動(dòng)作,則會(huì)選擇嘗試B飯店。

圖1. 小明選擇飯館吃飯(圖片來源:UC Berkeley CS188 Intro to AI 課程ppt)

在對(duì)環(huán)境未知的情況下,智能體通過與環(huán)境交互,即嘗試A 飯店或者B 飯店,收集關(guān)于環(huán)境的信息。智能體應(yīng)該基于已有的經(jīng)驗(yàn)選擇自認(rèn)為最優(yōu)的動(dòng)作,如小明選擇A飯店;還是去選擇智能體不確定度高的動(dòng)作,如小明嘗試B飯店,便是探索與利用困境。

如果智能體只利用,則由于信息的不完整性,智能體很有可能陷入次優(yōu)策略,如上例中B 飯店遠(yuǎn)優(yōu)于A 飯店;如果智能體均勻隨機(jī)盲目探索,則依舊會(huì)訪問已經(jīng)確認(rèn)是低獎(jiǎng)勵(lì)的狀態(tài)動(dòng)作對(duì),增加低質(zhì)量的樣本數(shù)量,如上例中小明分別去過4次A 飯店和B 飯店,幾乎確認(rèn)B 飯店體驗(yàn)極差,而如果小明均勻隨機(jī)盲目探索,則還是會(huì)嘗試B 飯店。因此,強(qiáng)化學(xué)習(xí)算法需要考慮如何平衡探索與利用,高效的探索環(huán)境,降低對(duì)環(huán)境的不確定性。接下來將介紹一種高效探索的原則——面向不確定度的樂觀探索(Optimism in the Face of Uncertainty)。

面向不確定度的樂觀探索(Optimism in the Face of Uncertainty)

何為不確定度(Uncertainty)

不確定度是涉及不完美或者未知信息時(shí)的認(rèn)知情況。如小明在十八歲那一年高考750分和獲得750萬現(xiàn)金二選一,小明該如何決策。相信很多讀者都沒法直接給出決策,因?yàn)檫x擇高考750分的未來發(fā)展的信息幾乎未知,這個(gè)選擇涉及非常高的不確定度,可能“一戰(zhàn)封神“,也可能如仲永泯然眾人。

深度學(xué)習(xí)領(lǐng)域中能夠建模的不確定度主要有兩種類別:偶然不確定度和認(rèn)知不確定度[5][7]。

在強(qiáng)化學(xué)習(xí)中偶然不確定度產(chǎn)生于環(huán)境本身的隨機(jī)性,認(rèn)知不確定度的主要來源是因?yàn)槭占臄?shù)據(jù)量不足而導(dǎo)致的不確定度。認(rèn)知不確定度的特點(diǎn)是隨著數(shù)據(jù)收集越來越多,不確定度會(huì)越來越小,直至0。如智能體走迷宮,在智能體沒有充分的和環(huán)境交互之前,迷宮終點(diǎn)附近的數(shù)據(jù)量不足,智能體對(duì)于迷宮終點(diǎn)附近的認(rèn)知不確定度高,這些地點(diǎn)可能有寶藏,也可能有陷阱。

以下通過例子給出一種數(shù)學(xué)建模認(rèn)知不確定度的方式。

「例子:」 給定一個(gè)單狀態(tài)單動(dòng)作問題,定義獎(jiǎng)勵(lì)為隨機(jī)變量,服從分布,為區(qū)間上的未知分布。假設(shè)已經(jīng)獨(dú)立采集4個(gè)樣本,我們希望去估計(jì),一種常用的估計(jì)器是使用樣本均值估計(jì),即,但是我們對(duì)于的估計(jì)是不確定的,這個(gè)不確定度的大小可以由置信區(qū)間給出。給定置信度90%,應(yīng)用霍夫丁不等式(Hoeffding's inequality),我們可得

注意其中,可以求得 有至少90%的概率落入?yún)^(qū)間,此時(shí)對(duì)于隨機(jī)變量 均值的估計(jì)的不確定度的度量為。這類對(duì)于隨機(jī)變量均值的估計(jì)的不確定度屬于認(rèn)知不確定度,因?yàn)殡S著收集的數(shù)據(jù)量趨于無窮,相應(yīng)不確定度會(huì)趨于0 (大數(shù)定理)。

面向不確定度的樂觀探索

直觀來說,面向不確定度的樂觀探索是一個(gè)探索原則,即智能體傾向于探索不確定度高的狀態(tài)動(dòng)作對(duì),以便確認(rèn)這些狀態(tài)動(dòng)作對(duì)是否具備高獎(jiǎng)勵(lì)。智能體對(duì)于環(huán)境的不確定度可以由度量[2],為常數(shù)(離散狀態(tài)離散動(dòng)作問題設(shè)置,代表狀態(tài)動(dòng)作對(duì) 被訪問的次數(shù))。具體推導(dǎo)細(xì)節(jié)由于篇幅限制在此不展開敘述,感興趣的同學(xué)可以參考文獻(xiàn)[2]。至此,基于計(jì)數(shù)的探索算法呼之欲出,具體地,將作為獎(jiǎng)勵(lì)函數(shù)的額外獎(jiǎng)勵(lì),即用于訓(xùn)練智能體的獎(jiǎng)勵(lì)為

直覺解釋為如果智能體訪問一個(gè)狀態(tài)動(dòng)作對(duì)越少,即越小,對(duì)應(yīng)的額外獎(jiǎng)勵(lì)越大,智能體應(yīng)該更傾向于訪問這個(gè)狀態(tài)動(dòng)作對(duì),確認(rèn)這個(gè)狀態(tài)動(dòng)作對(duì)是否會(huì)是高獎(jiǎng)勵(lì)狀態(tài)動(dòng)作對(duì)。

但是基于計(jì)數(shù)的探索算法依賴于統(tǒng)計(jì)訪問過的狀態(tài)動(dòng)作對(duì)的次數(shù),這限制了其在連續(xù)狀態(tài)空間下的應(yīng)用。因?yàn)檫B續(xù)狀態(tài)空間問題中,訪問過的狀態(tài)動(dòng)作對(duì)幾乎不會(huì)重復(fù),在大部分狀態(tài)動(dòng)作對(duì)下都是零,無法起到指導(dǎo)探索的作用。針對(duì)于連續(xù)狀態(tài)空間設(shè)置下的問題,下文介紹一種基于「偽計(jì)數(shù)(pseudo-count)」 的探索算法[1]。

基于偽計(jì)數(shù)的探索算法

算法基本思想

在連續(xù)空間問題下,直接對(duì)狀態(tài)動(dòng)作對(duì)計(jì)數(shù)將失效,所以基于「偽計(jì)數(shù)(pseudo-count)」 的探索算法通過設(shè)計(jì)密度模型(density model)來評(píng)估狀態(tài)出現(xiàn)的頻率,從而計(jì)算偽計(jì)數(shù)替代真實(shí)計(jì)數(shù),將作為獎(jiǎng)勵(lì)函數(shù)的額外獎(jiǎng)勵(lì),即訓(xùn)練智能體的獎(jiǎng)勵(lì)為

何為偽計(jì)數(shù)

為了簡化推導(dǎo),假設(shè)只考慮狀態(tài)的計(jì)數(shù)。假定狀態(tài)空間為集合,給定已經(jīng)訪問過的狀態(tài)信息, 學(xué)習(xí)密度模型評(píng)估狀態(tài)出現(xiàn)的頻率,其中為模型參數(shù)。該密度模型應(yīng)該滿足以下幾個(gè)性質(zhì):

(1)輸出總是非負(fù),即。

(2)對(duì)于沒有見過且與都不相似的狀態(tài),輸出接近于0。

(3)對(duì)于出現(xiàn)過或者與中的狀態(tài)比較相似,輸出較高的值。

在智能體收集到新樣本后,歷史數(shù)據(jù)更新為,密度模型也會(huì)更新為,密度模型的更新方式可以參考文獻(xiàn)[4]。基于密度模型,模擬計(jì)數(shù)特性,依據(jù)頻率逼近概率的思想,定義偽計(jì)數(shù)函數(shù)和偽計(jì)數(shù)總數(shù),

也就是說,我們希望在觀察到一個(gè)數(shù)據(jù)后,密度模型預(yù)測的的概率密度會(huì)上升,反映到偽計(jì)數(shù)函數(shù)上為相應(yīng)偽計(jì)數(shù)增長1,即。由此聯(lián)立方程可求出

為了使得偽計(jì)數(shù)符合我們的直覺,它需要滿足,因此,密度模型需要滿足性質(zhì):

(4)對(duì)于每次收集到任意新樣本時(shí),滿足。即數(shù)據(jù) 出現(xiàn)的頻率增加,密度模型預(yù)測的概率密度上升。

綜上,只要有能夠滿足以上4點(diǎn)性質(zhì)的密度模型,則可以估計(jì)偽計(jì)數(shù),從而利用偽計(jì)數(shù)指導(dǎo)探索。具體密度模型的實(shí)現(xiàn)方式見文獻(xiàn)[4]。

注意,以上定義能方便地拓展延伸到計(jì)數(shù)狀態(tài)動(dòng)作對(duì)的情況,即。

算法流程

以下是基于偽計(jì)數(shù)探索算法的偽代碼,由于論文中沒有給出相應(yīng)的偽代碼,我根據(jù)自己的理解列出了該算法基本的流程。

圖2. 基于偽計(jì)數(shù)的探索算法偽代碼

算法有效的原因

該算法有效的主要原因在于以下兩點(diǎn):理論啟發(fā),在表格問題設(shè)置下,前人證明了可以作為智能體對(duì)環(huán)境的不確定度,將加入獎(jiǎng)勵(lì)函數(shù),可以保證高效探索;在連續(xù)空間問題下,該算法設(shè)計(jì)的偽計(jì)數(shù)函數(shù)具備泛化性的同時(shí)能有效反映真實(shí)計(jì)數(shù)的變化情況。

「(1)理論啟發(fā):作為探索額外獎(jiǎng)勵(lì)符合直覺且具備理論保證。」 該算法沿襲了算法Model Based Interval Estimation with Exploration Bonus(MBIE-EB)[2] 的思路。從理論角度看,在表格的問題設(shè)置下,MBIE-EB從理論上推導(dǎo)出了可以度量智能體對(duì)環(huán)境的不確定度。因此,「如果偽計(jì)數(shù)能夠有效反映真實(shí)計(jì)數(shù),」 則可以近似認(rèn)為也可以度量智能體對(duì)環(huán)境的不確定度,將加入獎(jiǎng)勵(lì)函數(shù),依舊可以保證高效探索。從直覺角度看,如果智能體訪問一個(gè)狀態(tài)動(dòng)作對(duì)越少,則計(jì)算出來的越小,智能體應(yīng)該更傾向于去訪問這個(gè)狀態(tài)動(dòng)作對(duì),確定這個(gè)狀態(tài)動(dòng)作對(duì)是否會(huì)是高獎(jiǎng)勵(lì)狀態(tài)動(dòng)作對(duì),即對(duì)應(yīng)的額外獎(jiǎng)勵(lì)越大。

「(2)偽計(jì)數(shù)具備泛化性的同時(shí)能有效反映真實(shí)計(jì)數(shù)的變化情況,即偽計(jì)數(shù)和真實(shí)計(jì)數(shù)在總體趨勢上成正相關(guān)關(guān)系。」 論文[1] 中的Figure 1展示了Atari 游戲環(huán)境FREEWAY 環(huán)境中使用連續(xù)密度模型計(jì)算的偽計(jì)數(shù)和真實(shí)計(jì)數(shù)有較強(qiáng)正相關(guān)關(guān)系。也就是圖3,右側(cè)是FREEWAY 游戲環(huán)境,游戲任務(wù)是控制一只小雞過馬路,在過馬路的過程中可能會(huì)被小車撞擊導(dǎo)致倒退。小雞被初始化在馬路的一邊,目標(biāo)是控制小雞到達(dá)馬路對(duì)邊。左側(cè)曲線橫軸代表和環(huán)境交互的步數(shù),縱軸代表偽計(jì)數(shù)。黑色曲線代表小雞初始化的位置對(duì)應(yīng)的偽計(jì)數(shù)、變化趨勢是持續(xù)正向增加,和真實(shí)發(fā)生的次數(shù)的變化趨勢一致。綠色曲線代表小雞到達(dá)馬路對(duì)面對(duì)應(yīng)的偽計(jì)數(shù),淡綠色區(qū)域?qū)?yīng)的時(shí)間段內(nèi),小雞到達(dá)了馬路對(duì)面,偽計(jì)數(shù)變化趨勢是迅速增加,而在小雞還沒有到達(dá)過馬路對(duì)面時(shí),其偽計(jì)數(shù)接近于0。

圖3. FREEWAY 環(huán)境偽計(jì)數(shù)變化趨勢圖示 [1]

研究思路分析

本文介紹的基于偽計(jì)數(shù)的探索算法由論文[1] 提出,而這篇論文研究科學(xué)問題的思路有許多值得借鑒之處,故在這一章節(jié)專門針對(duì)論文[1] 的研究思路進(jìn)行總結(jié)與分析。

(1)理論啟發(fā)。在有限馬爾科夫決策過程中,基于計(jì)數(shù)指導(dǎo)探索的思路具備理論保證,從而啟發(fā)在連續(xù)控制問題中使用相關(guān)技術(shù)去近似計(jì)數(shù)。

(2)方法以性質(zhì)為導(dǎo)向。論文[1] 提出了求取偽計(jì)數(shù)的一種思路之后,圍繞偽計(jì)數(shù)直覺上應(yīng)該滿足的性質(zhì)進(jìn)行分析與驗(yàn)證,從而使得方法有效的原因更加清晰。

總結(jié)

本文針對(duì)于強(qiáng)化學(xué)習(xí)中的高效探索問題介紹了一種基于偽計(jì)數(shù)的探索算法。首先介紹了強(qiáng)化學(xué)習(xí)和探索與利用困境。然后給出解決如何高效探索問題的算法——基于偽計(jì)數(shù)的探索算法。分析了該算法的基本思想和有效的原因。該算法的基本思想來自于表格環(huán)境下的基于計(jì)數(shù)的探索算法,但是基于計(jì)數(shù)的探索算法依賴于統(tǒng)計(jì)訪問過的狀態(tài)動(dòng)作對(duì)的次數(shù),而連續(xù)狀態(tài)空間問題中,訪問過的狀態(tài)動(dòng)作對(duì)幾乎不會(huì)重復(fù),在大部分狀態(tài)動(dòng)作對(duì)下都是零,無法起到指導(dǎo)探索的作用。因此,該算法通過設(shè)計(jì)滿足一定性質(zhì)的密度模型來評(píng)估頻次,計(jì)算在連續(xù)空間下具有泛化性的偽計(jì)數(shù)鼓勵(lì)探索。最后,本文分析了提出基于偽計(jì)數(shù)的探索算法的論文的研究思路。

參考文獻(xiàn)

[1] Bellemare M, Srinivasan S, Ostrovski G, et al. Unifying count-based exploration and intrinsic motivation[C] Advances in neural information processing systems. 2016: 1471-1479.

[2] Strehl A L, Littman M L. An analysis of model-based interval estimation for Markov decision processes[J]. Journal of Computer and System Sciences, 2008, 74(8): 1309-1331.

[3] THEREFORE STOC, ASM. Guide to the Expression of Uncertainty in Measurement[J]. 1993.

[4] Bellemare M, Veness J, Talvitie E. Skip context tree switching[C] International Conference on Machine Learning. 2014: 1458-1466.

[5] Kendall A, Gal Y. What uncertainties do we need in bayesian deep learning for computer vision?[C] Advances in neural information processing systems. 2017: 5574-5584.

[6] Brockman G, Cheung V, Pettersson L, et al. Openai gym[J]. arXiv preprint arXiv:1606.01540, 2016.

[7] Clements W R, Robaglia B M, Van Delft B, et al. Estimating risk and uncertainty in deep reinforcement learning[J]. arXiv preprint arXiv:1905.09638, 2019.

作者簡介:

王治海,2020年畢業(yè)于華中科技大學(xué)電氣與電子工程學(xué)院,獲得工學(xué)學(xué)士學(xué)位。現(xiàn)于中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系的 MIRA Lab 實(shí)驗(yàn)室攻讀研究生,師從王杰教授。研究興趣包括強(qiáng)化學(xué)習(xí)與機(jī)器博弈。

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的强化学习之基于伪计数的探索算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。