日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EnforceLearning-主动强化学习

發布時間:2023/12/31 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 EnforceLearning-主动强化学习 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言:

?????????被動學習Agent由固定的策略決定其行為。主動學習Agent必須自己決定采取什么行動。

??????? 具體方法是:

?????????????Agent將要學習一個包含所有行動結果概率的完整模型,而不僅僅是固定策略的模型;

????????????接下來,Agent自身要對行動做出選擇( 它需要學習的函數是由最優策略所決定的,這些效用遵循 Berman方程 );

????????????最后的問題是每一步要做什么(在獲得了對于學習到的模型而言最優的效用函數U之后,Agent能夠通過使期望最大化的單步前瞻提取一個最優行動;或者它使用迭代策略,最優策略已經得到,所以它應該簡單的執行最優策略所建議的行動)。

? ? ? ? ? ?參考小品文:強化學習的分類。和上一篇:EnforceLearning-在線學習-被動強化學習/評價學習。畫圖挺好:深度學習進階之路-從遷移學習到強化學習。

? ? ? ? ??

?

一、完整模型

???????? Passive-ADP-Agent所使用的簡單學習機制將做的很好。

????????

二、探索

?1、貪婪算法

?????????????????? 一個ADP Agent在搜索路徑時,每一步都遵循所學習的模型的最優策略的建議,被稱為 貪婪Agent。

?????????????????? 一般問題:選擇最優策略是如何導致非最優結果的? 答案是:學習到的模型與真實環境中的模型并不相同;因而學習到的模型的最優可能不是真實環境中的最優。不幸的是,Agent并不知道真實環境是什么,所以它不能針對真實環境計算最優行動。

?

?2、如何改進?

???????????????????? 折中:貪婪Agent忽略的事實是行動不僅根據當前學習到的模型提供回報,他們也通過影響所接受的感知信息對真實模型的學習做出貢獻。通過改進模型,Agent將在未來得到更高的回報。

???????????????????? 方法:Agent必須在充分利用信息exploitation 以最大化回報——反映在其當前效用估計上,和探索exploration以及最大化長期利益之間進行折中。

???????????????????? 單純的充分利用信息要冒墨守成規的風險;那么單純的探索對于提高一個人的知識是毫無用處的。

?

?3、GLIE Greedy in the limit of infinite exploration

????????????????????? 尋找最優搜索策略,在統計決策理論領域得到了深入的研究。對精確求解最優策略并沒有一個固定的方法,但是可以提出一個合理的方案最終導致Agent的最優行動。技術上,任何這樣的方案在無窮探索的極限下都必然是貪婪的。

????????????????????? 一個GLIE方案必須在每個狀態下的每個行動進行無限制次數的嘗試,以避免一系列不常見的糟糕結果而錯過最優行動的概率。一個ADP Agent使用這樣的方案最終將學習到真實的環境模型。 一個GLIE方案最終還必須變得貪婪,以使得Agent的行動對于學習到(此時等同于真實的)真實模型而言 是最優的。

???????????

4、幾種嘗試

? ? ? ? ? ? ? ? ? ? ? ? 一種最簡單的方式是:讓Agent在1/t的時間片段內選擇一個隨機行動,而其他時刻走遵循貪婪策略。簡單時序片段脫離法

? ? ? ? ? ? ? ? ? ??? 另一種更為有效的方法是:給Agent很少嘗試的行動進行加權,同時避免那些已經確信的具有最低效用的行動,實現方法為 改變約束方程,以便給相對來說尚未探索的狀態——行動分配更高的效用估計。 ? 本質上,會得到一個關于可能環境的樂觀先驗估計,并導致Agent 最初的行動過如同整個區域到處散布者幾號的回報一樣。?

? ? ? ? ? ? ? ? ? ? ?? ????

三、學習行動-效用函數

???????? 1、為一個主動ADP Agent構建一個主動時序差分學習,與被動情況最明顯的變化是Agent不再有固定的策略,它學習效用函數U時,就需要學習一個模型以便能夠通過單步前瞻基于U采取一個行動。

?????????????? 構建一個主動學習ADP Agent,隨著訓練序列的時間趨于無窮,TD算法與ADP算法收斂到相同的值。

???????? 2、Q-Learn作為一種時序TD方法,它學習 一種行動-效用表示 而不是學習效用。

???????

后續:

????? 參考:? DeepMind用ReinforcementLearning玩游戲

???????????????????????

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的EnforceLearning-主动强化学习的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。