當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EnforceLearning-主动强化学习

發布時間：2023/12/31 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 EnforceLearning-主动强化学习小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言：

?????????被動學習Agent由固定的策略決定其行為。主動學習Agent必須自己決定采取什么行動。

??????? 具體方法是：

?????????????Agent將要學習一個包含所有行動結果概率的完整模型，而不僅僅是固定策略的模型；

????????????接下來，Agent自身要對行動做出選擇（它需要學習的函數是由最優策略所決定的，這些效用遵循 Berman方程）；

????????????最后的問題是每一步要做什么（在獲得了對于學習到的模型而言最優的效用函數U之后，Agent能夠通過使期望最大化的單步前瞻提取一個最優行動；或者它使用迭代策略，最優策略已經得到，所以它應該簡單的執行最優策略所建議的行動）。

? ? ? ? ? ?參考小品文：強化學習的分類。和上一篇：EnforceLearning-在線學習-被動強化學習/評價學習。畫圖挺好：深度學習進階之路-從遷移學習到強化學習。

? ? ? ? ??

一、完整模型

???????? Passive-ADP-Agent所使用的簡單學習機制將做的很好。

????????

二、探索

?1、貪婪算法

?????????????????? 一個ADP Agent在搜索路徑時，每一步都遵循所學習的模型的最優策略的建議，被稱為貪婪Agent。

?????????????????? 一般問題：選擇最優策略是如何導致非最優結果的？答案是：學習到的模型與真實環境中的模型并不相同；因而學習到的模型的最優可能不是真實環境中的最優。不幸的是，Agent并不知道真實環境是什么，所以它不能針對真實環境計算最優行動。

?2、如何改進？

???????????????????? 折中：貪婪Agent忽略的事實是行動不僅根據當前學習到的模型提供回報，他們也通過影響所接受的感知信息對真實模型的學習做出貢獻。通過改進模型，Agent將在未來得到更高的回報。

???????????????????? 方法：Agent必須在充分利用信息exploitation 以最大化回報——反映在其當前效用估計上，和探索exploration以及最大化長期利益之間進行折中。

???????????????????? 單純的充分利用信息要冒墨守成規的風險；那么單純的探索對于提高一個人的知識是毫無用處的。

?3、GLIE Greedy in the limit of infinite exploration

????????????????????? 尋找最優搜索策略，在統計決策理論領域得到了深入的研究。對精確求解最優策略并沒有一個固定的方法，但是可以提出一個合理的方案最終導致Agent的最優行動。技術上，任何這樣的方案在無窮探索的極限下都必然是貪婪的。

????????????????????? 一個GLIE方案必須在每個狀態下的每個行動進行無限制次數的嘗試，以避免一系列不常見的糟糕結果而錯過最優行動的概率。一個ADP Agent使用這樣的方案最終將學習到真實的環境模型。一個GLIE方案最終還必須變得貪婪，以使得Agent的行動對于學習到（此時等同于真實的）真實模型而言是最優的。

???????????

4、幾種嘗試

? ? ? ? ? ? ? ? ? ? ? ? 一種最簡單的方式是：讓Agent在1/t的時間片段內選擇一個隨機行動，而其他時刻走遵循貪婪策略。簡單時序片段脫離法

? ? ? ? ? ? ? ? ? ??? 另一種更為有效的方法是：給Agent很少嘗試的行動進行加權，同時避免那些已經確信的具有最低效用的行動，實現方法為改變約束方程，以便給相對來說尚未探索的狀態——行動分配更高的效用估計。 ? 本質上，會得到一個關于可能環境的樂觀先驗估計，并導致Agent 最初的行動過如同整個區域到處散布者幾號的回報一樣。?

? ? ? ? ? ? ? ? ? ? ?? ????

三、學習行動-效用函數

???????? 1、為一個主動ADP Agent構建一個主動時序差分學習，與被動情況最明顯的變化是Agent不再有固定的策略，它學習效用函數U時，就需要學習一個模型以便能夠通過單步前瞻基于U采取一個行動。

?????????????? 構建一個主動學習ADP Agent，隨著訓練序列的時間趨于無窮，TD算法與ADP算法收斂到相同的值。

???????? 2、Q-Learn作為一種時序TD方法，它學習一種行動-效用表示而不是學習效用。

???????

后續：

????? 參考：? DeepMind用ReinforcementLearning玩游戲

???????????????????????

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的EnforceLearning-主动强化学习的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：除夕什么时候贴对联（大年三十贴春联，三个
下一篇：时序分析：隐马尔可夫模型

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

EnforceLearning-主动强化学习

總結