邓侃:深度强化学习“深”在哪里?
當今世界,科技發(fā)展日新月異。即便是業(yè)界中人,往往也搞不清同行們的動態(tài)。所以,隔三差五需要有人梳理業(yè)界的動態(tài)。?
“Deep?ReinforcementLearning: An Overview” [1] 這篇論文的作者,梳理了深度學習與增強學習相融合的最新動態(tài)。
?
這是一篇苦心之作,
?
梳理了該領域各個學派的基本思路及其區(qū)別。
羅列了各種測試平臺,目前主要是各種游戲,之所以用游戲來做測試,是因為容易采集數(shù)據(jù)。
值得讀的論文,羅列了各個學派的重要論文。
?枚舉了若干重要的應用,包括游戲,重點介紹了下圍棋的 AlphaGo,教無人機做特技,教機器人行走和跳躍,機器翻譯和對話,智能醫(yī)療診斷,深度學習系統(tǒng)的自動設計等等。
論文:深度強化學習概覽
作者:Yuxi Li,加拿大阿爾伯塔大學(University of Alberta)計算機系的博士
摘要
本文概述了最近取得許多令人振奮的成果的深度增強學習(RL)。我們從深度學習和增強學習的背景開始說起,并介紹了各種測試平臺。然后我們討論了 Deep Q-Network(DQN)及其擴展,異步方法,策略優(yōu)化,激勵,以及規(guī)劃。接著,我們討論了注意力和記憶,無監(jiān)督學習,以及學習學習(learning to learn)。我們還討論了 RL 的各種應用,包括游戲(尤其是 AlphaGo),機器人,語音對話系統(tǒng)(即,chatbot),機器翻譯,文本序列預測,神經架構設計,個性化網絡服務,醫(yī)療保健,金融,以及音樂自動生成等。我們也提了一些尚沒有綜述的主題/論文。本論文以一系列值得閱讀的 RL 重要論文的列舉結束。
?
什么是增強學習,為什么需要引入深度學習?
?
不妨把機器學習看成二維空間,第一個維度是問題,第二個維度是方法,用什么方法來解決問題。
?
大致來說,機器學習想解決兩大類問題,模擬和決策。
?
1.???模擬:
給定一系列輸入 x 和輸出 y,模擬兩者之間的函數(shù)關系 y = f(x)。
預測是函數(shù)模擬的一個小類,譬如根據(jù)各種經濟因素 x,預測股票價格。
分類是另一個小類,譬如給定一張人像照片 x,識別照片中的人物是不是y。
?
2.???決策:
先構造三元組,包括狀態(tài) state、行動action、收益 reward。
序列是一連串三元組
輸入若干序列,作為訓練數(shù)據(jù)。
決策的任務,是分析這些訓練數(shù)據(jù),發(fā)現(xiàn)最優(yōu)行動策略,目的是獲得最大的收益。
類似于金融折現(xiàn)率,未來的收益,折算成現(xiàn)鈔,得打個折扣。遠期的折扣,比近期的折扣大,這就是的意義。
決策的應用很多,下棋、開車、問答、醫(yī)療診斷、機器人自主行走跳躍等等,都是決策問題。
? ??
邏輯回歸 Logistic Regression、向量機 SVM、決策樹Decision Tree 等等是傳統(tǒng)的機器學習的方法,主要用于解決模擬問題。
?
深度學習 Deep Learning 是最新的方法,起先也主要用于解決模擬問題。
?
增強學習 Reinforcement Learning,譬如 Q-learning 算法,是解決決策問題的傳統(tǒng)方法。
?
為什么要用深度學習這個新方法解決決策問題?
?
目的無非是,1. 解決更復雜的決策問題,2. 學得更準,3. 學得更快,4. 用更少的訓練數(shù)據(jù)。
?
傳統(tǒng)的增強學習存在什么問題?
?
盧浮宮館藏美術作品眾多,經驗豐富的導游,會幫游客規(guī)劃一條參觀路徑,走最短的路,看最多的名畫。
?
如何規(guī)劃最佳參觀路徑,是一個決策問題。傳統(tǒng)的方法,是增強學習 Reinforcement Learning。
?
簡單而蠻力的辦法,是找一張盧浮宮地圖,盡可能羅列所有可能的參觀路徑,評價每一種路徑的總收益。
?
這是 Monte Carlo tree search (MCTS) 的思路。
?
MCST 簡單有效,但是缺陷是計算成本高。
?
下圍棋的 AlphaGo,用 MCST 算法來精算局部的對弈策略。
?
但是,不能用這個方法來學習整盤棋的策略,因為如果要窮舉整盤棋的所有對弈策略,數(shù)量級大概是。單機搞不定,云計算也搞不定。
?
如何降低計算量?思路是不必浪費精力去為槽糕的路徑評估收益。問題是,如何甄別槽糕的路徑?
?
不妨換一個思路。不會有觀眾故意跟自己過不去,專挑路程長、名畫少的槽糕路徑去參觀盧浮宮。
?
我們不必關心哪條路徑是槽糕的路徑,我們只需要研究其他觀眾曾經走過的路徑,就不會偏離最佳的路徑太遠。
?
什么是最佳路徑?兩個要素,
?
1.?當前收益大:每走一步,多半能看到一副名畫。
2.?潛在的未來收益大:每走一步,離其它名畫更近。
?
用數(shù)學公式來表達,就是,
?
的專業(yè)名稱是行動價值?Action Value。
?
用價值取代收益,既著眼當前收益,又兼顧未來潛力。
?
即便當前沒有收益,譬如爬樓梯時一幅作品都看不到,但是樓上的展廳有名畫,未來潛力巨大,爬樓就是明智的行動。
?
為了估算當前的行動價值,先得估算下一步的潛在價值。
?
為了估算下一步的潛在價值,先得估算再下一步的潛在價值。
?
重復以上步驟,直到走出盧浮宮出口。這個辦法,就是?Q-learning算法。
?
Q-learning 算法是傳統(tǒng)增強學習中最重要的算法。除此之外,有若干變種。
?
但是無論哪一種變種,面對復雜的問題,傳統(tǒng)的增強學習算法都難以勝任。
?
如果狀態(tài)不僅僅是位置,而且也包含每幅名作附近的擁堵程度,參觀盧浮宮的路徑規(guī)劃就變得更復雜了。
?
如果行動不僅僅是前進、后退、左轉、右轉,而且也包括速度,問題就更復雜了。?
?
如果收益不僅僅取決于作品的知名度,而且也包括觀眾的品味,?問題就更復雜了。
?
解決復雜的決策問題,是增強學習與深度學習融合的一大動機。
?
增強學習與深度學習融合的切入點,是用結構復雜的神經網絡,來估算增強學習中的行動價值、收益、策略等等。
1. 用深度學習來估算價值
? ??
Deep Q-network (DQN),??Double DQN , Dueling architecture 等等算法,都是這個思路。
?
先根據(jù)訓練數(shù)據(jù),來計算當前的行動價值,
然后用深度神經網絡,估算,如果估算得完全準確,那么
。
?
如果兩者之間有差距,那么就不斷調整深度神經網絡的參數(shù),縮小兩者的差距,這就是深度增強學習的訓練過程。
?
這個辦法,就是?DeepQ-network?DQN,及其變種?Double DQN 的基本原理。
?
DQN 的計算成本較大,為了學得更快。決斗模型?Dueling architecture 提議,拆解。
?
把拆解為,其中是每個狀態(tài)的價值,而是指在狀態(tài)下采取行動后,價值的增量。
?
DQN 算法用一個規(guī)模較大的神經網絡,去模擬,訓練過程的計算成本高。
?
而決斗架構?Duelingarchitecture?用兩個規(guī)模較小的神經網絡,分別去模擬和,從而大大降低了訓練過程的計算成本。
??
2. ?用深度學習來估算策略
? ? ?
DPG (Deterministic PolicyGradient),Deep?DPG,GPS (Guided Policy Search),TRPO (Trust Region Policy Optimization) ,PGQ 等等算法,都是這個思路。
?
DPG 把增強學習的訓練過程,類比成演員和評委的互動。
?
DPG?用一個神經網絡?actor,去模擬策略。
?
用另一個神經網絡?critic,評估使用某種策略后的行動價值。
?
選定了策略 π 后,在每一種狀態(tài),actor 都會選擇固定的行動,所以,
。
?
正因為如此,訓練評委神經網絡?critic時,只需要對狀態(tài)做梯度下降?(Gradient Descent),不僅計算量小,而且能夠解決復雜的增強學習問題。
??
Deep?DPG 在此基礎上,做了一些改進。尤其是把訓練數(shù)據(jù)回放,并且每次訓練時,柔和地改進網絡參數(shù)。
?
回放和柔和改進,目的是為了既不增加訓練數(shù)據(jù)的數(shù)量,又提高訓練的穩(wěn)定性。
3. 用深度學習來估算收益
?
某些應用場景的收益,無法用簡單的方式表達,譬如模仿書法家的字體風格,或者模仿某位飛行員的特技飛行動作。
?
反向增強學習 Inverse ReinforcementLearning,小樣本學習 One-shot Learning 等等算法,針對這類模仿問題,做過有益的嘗試。
?
生成對抗網絡,Generative AdversarialNetworks (GANs),提供了新思路。
?
GAN 主要由兩個神經網絡構成,
?
1.???生成模型Generator,從訓練數(shù)據(jù)中猜測這些樣本的數(shù)據(jù)分布,并偽造數(shù)據(jù)。
2.???鑒別模型Discriminator,識別哪些數(shù)據(jù)是真實的訓練數(shù)據(jù),哪些是生成模型偽造的假數(shù)據(jù)。
兩個模型不斷對抗,使得生成模型偽造的數(shù)據(jù)越來越像真的,而鑒別模型的識別能力越來越精準。
?
對抗的結果,是生成模型對數(shù)據(jù)分布的猜測,越來越精準。
?
模仿,是增強學習的一個子領域。
把 GAN 應用于增強學習,將是一大熱點。??
?
DQN 用深度學習來估算價值函數(shù),DPG?用深度學習來估算策略函數(shù),GAN?用深度學習來估算難以言說的收益函數(shù)。
?
Asynchronous AdvantageActor-Critic (A3C) 算法,試圖把模擬價值函數(shù)的決斗架構,與模擬策略的演員-評委模型,外加多核并行計算,融合在一起。
?
Differentiable NeuralComputer (DNC)?不糾結價值函數(shù)和策略函數(shù)的細節(jié),而是把它們看成黑盒子的內部構成。
?
DNC?用 LSTM 來分析訓練數(shù)據(jù),把分析結果保存在 LSTM 外部的存儲空間。
?
LSTM 分析結果是一組數(shù)字向量,數(shù)字向量的物理意義很隱晦,如同表達生命特征的 DNA,但是它們包含了和的內容。
?
雖然數(shù)字向量的物理意義很隱晦,但是只要黑盒子能夠做出正確的決策,就是好盒子。
?
DNC 的論文作者,用這個技術來玩積木游戲,來規(guī)劃倫敦地鐵任何兩站之間的最佳換乘路徑,效果很好。
?
黑盒子能不能完成更復雜的任務?這是吊足觀眾胃口的懸念。
文章轉自新智元公眾號,原文鏈接
總結
以上是生活随笔為你收集整理的邓侃:深度强化学习“深”在哪里?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大数据治理需要具备哪些能力和关键技术?
- 下一篇: 杰和弯道超车 推企业级NAS存储应用方案