数据追加用什么函数_RL用算法发现算法:DeepMind 数据驱动「价值函数」自我更新,14款Atari游戏完虐人类!...
【新智元導讀】擊敗卡斯帕羅夫的「深藍」并不是真正的人工智能,它過度依賴了人類設計的規則,而最近DeepMind的一項深度強化學習新研究表明,不用人工介入,完全數據驅動,算法自己就能發現算法。
- 「深藍」并非以智取勝,而是一個勞動密集型選手
當「深藍」在1997年擊敗國際象棋世界冠軍卡斯帕羅夫時,人工智能似乎要來了。一臺電腦擊敗了有史以來最聰明的國際象棋選手之一,很多人驚呼,電腦要超越人類了。然而事實并非如此,雖然「深藍」是一段精心編制的程序,但這種方法過于勞動密集,過于依賴清晰的規則和有限的可能性,無法遷移到更復雜的游戲中,更不用說現實世界了。
深度學習成功的關鍵在于算法基本上是自己編寫的,給定數據集,他們從中學習到一些表征,所謂的算法就是這么出來的。而DeepMind 正在開發一種新的元學習算法來進一步實現自動化,這種算法能夠從零開始發現自己的價值函數--深度強化學習中的一個關鍵編程規則。近日該論文發表在了arxiv上。
- 發現強化學習算法的算法
DeepMind最近引入了一種新的元學習方法,可以自動生成強化學習算法,稱為學習策略梯度(LPG)。研究人員認為,該算法可以從數據中自動發現更新規則,而且能更好地適應特定環境,它既包括預測什么(價值函數),又包括如何從中學習,如何與環境交互。該元學習方法的目標是從環境和初始代理參數的分布中尋找最優的更新規則。
我們來看下學習策略梯度(LPG)是如何進行元訓練的。首先用θ參數化主體產生狀態的動作概率π和預測向量y。其次由η設置的更新規則(LPG)將代理的輸出作為輸入,向后展開給LSTM以生成代理輸出(π?,y?)的目標。最后,更新規則參數η是從多個生存期進行元學習的,在每個生存期中,不同的代理與采樣的環境進行交互,并使用共享更新規則更新其參數θ。
在所有K <N個參數通過滑動窗口更新后(在所有并行生命周期內取平均值),計算出元梯度以使回報最大化。LPG進行元訓練時,沒有做任何試圖發現更新規則的先驗工作,取而代之的是,它們全都依賴于價值函數(可以說是RL的最基本構建塊)進行引導。代理的更新(θ)代理通過下面這個公式引導梯度上升來更新參數:
其中π?和y?是LPG的輸出。
是Kullback-Leibler散度。αy是用于預測更新的系數,在更高的層面來看,π?指定應如何調整動作概率,并直接影響代理的行為。y?指定 代理在給定狀態預測下的類別分布,并且在LPG發現其有用的語義(例如,價值函數)并使用y通過自舉來間接更改策略之前,不會對策略產生影響。
LPG的元訓練過程這只是研究人員建議的框架,實際上并不限于這種特定形式的代理更新和架構(例如,具有KL散度的分類預測),你也可以采用其他方案。但是,有一點需要注意,不要對y強制執行任何語義,只能允許LPG從數據中發現y的語義。LPG的更新(η)對LPG進行元訓練時,要考慮到它可以在多大程度上改善與不同類型環境交互的代理的性能。具體而言,通過對等式中的目標應用策略梯度來計算元梯度。
直觀地,我們使用從θ0到θN的更新規則η進行N次參數更新,直到生命周期結束,并估計更新參數θN的策略梯度,以找到使θN的預期收益(G)最大化的超梯度方向。
- 從零開始自主學習,已經在14款游戲中超越人類
LPG生成的強化學習算法表現如何呢?研究人員在復雜的Atari游戲中對LPG進行了評估。與高級RL算法相比,LPG可以很好地推廣到Atari游戲。令人驚訝的是,訓練環境主要由表格形式的數據組成,其基本任務比Atari游戲要簡單得多,而且LPG在元訓練期間從未見過如此復雜的世界。不過,接受LPG訓練的代理可以在許多Atari游戲中學習復雜的行為,從而在14款游戲中實現超越人類的表現,而無需依賴任何手工設計的RL組件(例如價值函數),而是使用從零開始發現的規則。
上圖展示了LPG從玩具環境到Atari的泛化。X軸是用于元學習LPG的玩具環境的數量。Y軸是代理在訓練結束時勝過人類的Atari游戲的數量。虛線對應每年的最新算法。可以看到LPG的表現非常喜人。更多的細節請參見:https://arxiv.org/pdf/2007.08794.pdf
- LPG不是很完美,但我們離通用RL又近了一步
LPG仍然落后于人工設計的先進算法。但是它在訓練甚至是某些Atari游戲中的表現都超過了人為設計的基準,但這只能表明它在某些環境下是出色的。本文首次嘗試了結合「預測內容」和「如何進行引導」來元學習完整的RL的更新規則,從而取代了一些現有的RL概念。由于LPG完全是數據驅動的,得出的算法可能會捕獲環境訓練集中的意外偏差,而除了發現算法時的獎勵,訓練時并沒有提供特定領域的信息,這使得算法很難在訓練環境中捕獲偏見。但是至少證明了,強化學習從玩具環境遷移到具有挑戰性的基準是可能的。DeepMind的這一研究,讓我們朝著通用 RL 算法又邁進了一步。
總結
以上是生活随笔為你收集整理的数据追加用什么函数_RL用算法发现算法:DeepMind 数据驱动「价值函数」自我更新,14款Atari游戏完虐人类!...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 支付宝备用金怎么解封?
- 下一篇: @cacheable 是否缓存成功_缓存