EnforceLearning-主动强化学习
前言:
?????????被動學習Agent由固定的策略決定其行為。主動學習Agent必須自己決定采取什么行動。
??????? 具體方法是:
?????????????Agent將要學習一個包含所有行動結果概率的完整模型,而不僅僅是固定策略的模型;
????????????接下來,Agent自身要對行動做出選擇( 它需要學習的函數是由最優策略所決定的,這些效用遵循 Berman方程 );
????????????最后的問題是每一步要做什么(在獲得了對于學習到的模型而言最優的效用函數U之后,Agent能夠通過使期望最大化的單步前瞻提取一個最優行動;或者它使用迭代策略,最優策略已經得到,所以它應該簡單的執行最優策略所建議的行動)。
? ? ? ? ? ?參考小品文:強化學習的分類。和上一篇:EnforceLearning-在線學習-被動強化學習/評價學習。畫圖挺好:深度學習進階之路-從遷移學習到強化學習。
? ? ? ? ??
?
一、完整模型
???????? Passive-ADP-Agent所使用的簡單學習機制將做的很好。
????????
二、探索
?1、貪婪算法
?????????????????? 一個ADP Agent在搜索路徑時,每一步都遵循所學習的模型的最優策略的建議,被稱為 貪婪Agent。
?????????????????? 一般問題:選擇最優策略是如何導致非最優結果的? 答案是:學習到的模型與真實環境中的模型并不相同;因而學習到的模型的最優可能不是真實環境中的最優。不幸的是,Agent并不知道真實環境是什么,所以它不能針對真實環境計算最優行動。
?
?2、如何改進?
???????????????????? 折中:貪婪Agent忽略的事實是行動不僅根據當前學習到的模型提供回報,他們也通過影響所接受的感知信息對真實模型的學習做出貢獻。通過改進模型,Agent將在未來得到更高的回報。
???????????????????? 方法:Agent必須在充分利用信息exploitation 以最大化回報——反映在其當前效用估計上,和探索exploration以及最大化長期利益之間進行折中。
???????????????????? 單純的充分利用信息要冒墨守成規的風險;那么單純的探索對于提高一個人的知識是毫無用處的。
?
?3、GLIE Greedy in the limit of infinite exploration
????????????????????? 尋找最優搜索策略,在統計決策理論領域得到了深入的研究。對精確求解最優策略并沒有一個固定的方法,但是可以提出一個合理的方案最終導致Agent的最優行動。技術上,任何這樣的方案在無窮探索的極限下都必然是貪婪的。
????????????????????? 一個GLIE方案必須在每個狀態下的每個行動進行無限制次數的嘗試,以避免一系列不常見的糟糕結果而錯過最優行動的概率。一個ADP Agent使用這樣的方案最終將學習到真實的環境模型。 一個GLIE方案最終還必須變得貪婪,以使得Agent的行動對于學習到(此時等同于真實的)真實模型而言 是最優的。
???????????
4、幾種嘗試
? ? ? ? ? ? ? ? ? ? ? ? 一種最簡單的方式是:讓Agent在1/t的時間片段內選擇一個隨機行動,而其他時刻走遵循貪婪策略。簡單時序片段脫離法
? ? ? ? ? ? ? ? ? ??? 另一種更為有效的方法是:給Agent很少嘗試的行動進行加權,同時避免那些已經確信的具有最低效用的行動,實現方法為 改變約束方程,以便給相對來說尚未探索的狀態——行動分配更高的效用估計。 ? 本質上,會得到一個關于可能環境的樂觀先驗估計,并導致Agent 最初的行動過如同整個區域到處散布者幾號的回報一樣。?
? ? ? ? ? ? ? ? ? ? ?? ????
三、學習行動-效用函數
???????? 1、為一個主動ADP Agent構建一個主動時序差分學習,與被動情況最明顯的變化是Agent不再有固定的策略,它學習效用函數U時,就需要學習一個模型以便能夠通過單步前瞻基于U采取一個行動。
?????????????? 構建一個主動學習ADP Agent,隨著訓練序列的時間趨于無窮,TD算法與ADP算法收斂到相同的值。
???????? 2、Q-Learn作為一種時序TD方法,它學習 一種行動-效用表示 而不是學習效用。
???????
后續:
????? 參考:? DeepMind用ReinforcementLearning玩游戲
???????????????????????
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的EnforceLearning-主动强化学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 除夕什么时候贴对联(大年三十贴春联,三个
- 下一篇: 时序分析:隐马尔可夫模型