日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

邓侃:深度强化学习“深”在哪里?

發(fā)布時間:2025/3/20 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 邓侃:深度强化学习“深”在哪里? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

當今世界,科技發(fā)展日新月異。即便是業(yè)界中人,往往也搞不清同行們的動態(tài)。所以,隔三差五需要有人梳理業(yè)界的動態(tài)。?


“Deep?ReinforcementLearning: An Overview” [1] 這篇論文的作者,梳理了深度學習與增強學習相融合的最新動態(tài)。

?

這是一篇苦心之作,

?

  • 梳理了該領域各個學派的基本思路及其區(qū)別。

  • 羅列了各種測試平臺,目前主要是各種游戲,之所以用游戲來做測試,是因為容易采集數(shù)據(jù)。

  • 值得讀的論文,羅列了各個學派的重要論文。

  • ?枚舉了若干重要的應用,包括游戲,重點介紹了下圍棋的 AlphaGo,教無人機做特技,教機器人行走和跳躍,機器翻譯和對話,智能醫(yī)療診斷,深度學習系統(tǒng)的自動設計等等。


  • 論文:深度強化學習概覽

    作者:Yuxi Li,加拿大阿爾伯塔大學(University of Alberta)計算機系的博士

    摘要


    本文概述了最近取得許多令人振奮的成果的深度增強學習(RL)。我們從深度學習和增強學習的背景開始說起,并介紹了各種測試平臺。然后我們討論了 Deep Q-Network(DQN)及其擴展,異步方法,策略優(yōu)化,激勵,以及規(guī)劃。接著,我們討論了注意力和記憶,無監(jiān)督學習,以及學習學習(learning to learn)。我們還討論了 RL 的各種應用,包括游戲(尤其是 AlphaGo),機器人,語音對話系統(tǒng)(即,chatbot),機器翻譯,文本序列預測,神經架構設計,個性化網絡服務,醫(yī)療保健,金融,以及音樂自動生成等。我們也提了一些尚沒有綜述的主題/論文。本論文以一系列值得閱讀的 RL 重要論文的列舉結束。

    ?

    什么是增強學習,為什么需要引入深度學習?

    ?

    不妨把機器學習看成二維空間,第一個維度是問題,第二個維度是方法,用什么方法來解決問題。

    ?

    大致來說,機器學習想解決兩大類問題,模擬和決策。

    ?

    1.???模擬:


    給定一系列輸入 x 和輸出 y,模擬兩者之間的函數(shù)關系 y = f(x)。

    預測是函數(shù)模擬的一個小類,譬如根據(jù)各種經濟因素 x,預測股票價格。

    分類是另一個小類,譬如給定一張人像照片 x,識別照片中的人物是不是y。

    ?

    2.???決策:


    先構造三元組,包括狀態(tài) state、行動action、收益 reward。

    序列是一連串三元組


    輸入若干序列,作為訓練數(shù)據(jù)。

    決策的任務,是分析這些訓練數(shù)據(jù),發(fā)現(xiàn)最優(yōu)行動策略,目的是獲得最大的收益


    類似于金融折現(xiàn)率,未來的收益,折算成現(xiàn)鈔,得打個折扣。遠期的折扣,比近期的折扣大,這就是的意義。


    決策的應用很多,下棋、開車、問答、醫(yī)療診斷、機器人自主行走跳躍等等,都是決策問題。

    ? ??

    邏輯回歸 Logistic Regression、向量機 SVM、決策樹Decision Tree 等等是傳統(tǒng)的機器學習的方法,主要用于解決模擬問題。

    ?

    深度學習 Deep Learning 是最新的方法,起先也主要用于解決模擬問題。

    ?

    增強學習 Reinforcement Learning,譬如 Q-learning 算法,是解決決策問題的傳統(tǒng)方法。

    ?

    為什么要用深度學習這個新方法解決決策問題?

    ?

    目的無非是,1. 解決更復雜的決策問題,2. 學得更準,3. 學得更快,4. 用更少的訓練數(shù)據(jù)。

    ?

    傳統(tǒng)的增強學習存在什么問題?

    ?

    盧浮宮館藏美術作品眾多,經驗豐富的導游,會幫游客規(guī)劃一條參觀路徑,走最短的路,看最多的名畫。

    ?

    如何規(guī)劃最佳參觀路徑,是一個決策問題。傳統(tǒng)的方法,是增強學習 Reinforcement Learning。

    ?

    簡單而蠻力的辦法,是找一張盧浮宮地圖,盡可能羅列所有可能的參觀路徑,評價每一種路徑的總收益。

    ?

    這是 Monte Carlo tree search (MCTS) 的思路。

    ?

    MCST 簡單有效,但是缺陷是計算成本高。

    ?

    下圍棋的 AlphaGo,用 MCST 算法來精算局部的對弈策略。

    ?

    但是,不能用這個方法來學習整盤棋的策略,因為如果要窮舉整盤棋的所有對弈策略,數(shù)量級大概是。單機搞不定,云計算也搞不定。

    ?

    如何降低計算量?思路是不必浪費精力去為槽糕的路徑評估收益。問題是,如何甄別槽糕的路徑?

    ?

    不妨換一個思路。不會有觀眾故意跟自己過不去,專挑路程長、名畫少的槽糕路徑去參觀盧浮宮。

    ?

    我們不必關心哪條路徑是槽糕的路徑,我們只需要研究其他觀眾曾經走過的路徑,就不會偏離最佳的路徑太遠。

    ?

    什么是最佳路徑?兩個要素,

    ?

    1.?當前收益大:每走一步,多半能看到一副名畫。

    2.?潛在的未來收益大:每走一步,離其它名畫更近。

    ?

    用數(shù)學公式來表達,就是,


    ?


    的專業(yè)名稱是行動價值?Action Value

    ?

    用價值取代收益,既著眼當前收益,又兼顧未來潛力。

    ?

    即便當前沒有收益,譬如爬樓梯時一幅作品都看不到,但是樓上的展廳有名畫,未來潛力巨大,爬樓就是明智的行動。

    ?

    為了估算當前的行動價值,先得估算下一步的潛在價值

    ?

    為了估算下一步的潛在價值,先得估算再下一步的潛在價值

    ?

    重復以上步驟,直到走出盧浮宮出口。這個辦法,就是?Q-learning算法。

    ?

    Q-learning 算法是傳統(tǒng)增強學習中最重要的算法。除此之外,有若干變種。

    ?

    但是無論哪一種變種,面對復雜的問題,傳統(tǒng)的增強學習算法都難以勝任。

    ?

    如果狀態(tài)不僅僅是位置,而且也包含每幅名作附近的擁堵程度,參觀盧浮宮的路徑規(guī)劃就變得更復雜了。

    ?

    如果行動不僅僅是前進、后退、左轉、右轉,而且也包括速度,問題就更復雜了。?

    ?

    如果收益不僅僅取決于作品的知名度,而且也包括觀眾的品味,?問題就更復雜了。

    ?

    解決復雜的決策問題,是增強學習與深度學習融合的一大動機。

    ?

    增強學習與深度學習融合的切入點,是用結構復雜的神經網絡,來估算增強學習中的行動價值、收益、策略等等。


    深度增強學習深在哪里?


    1. 用深度學習來估算價值

    ? ??

    Deep Q-network (DQN),??Double DQN , Dueling architecture 等等算法,都是這個思路。

    ?

    先根據(jù)訓練數(shù)據(jù),來計算當前的行動價值,



    然后用深度神經網絡,估算,如果估算得完全準確,那么


    ?

    如果兩者之間有差距,那么就不斷調整深度神經網絡的參數(shù),縮小兩者的差距,這就是深度增強學習的訓練過程。

    ?

    這個辦法,就是?DeepQ-network?DQN,及其變種?Double DQN 的基本原理。

    ?

    DQN 的計算成本較大,為了學得更快。決斗模型?Dueling architecture 提議,拆解

    ?

    拆解為,其中是每個狀態(tài)的價值,而是指在狀態(tài)下采取行動后,價值的增量。

    ?

    DQN 算法用一個規(guī)模較大的神經網絡,去模擬,訓練過程的計算成本高。

    ?

    而決斗架構?Duelingarchitecture?用兩個規(guī)模較小的神經網絡,分別去模擬,從而大大降低了訓練過程的計算成本。

    ??

    2. ?用深度學習來估算策略

    ? ? ?

    DPG (Deterministic PolicyGradient),Deep?DPG,GPS (Guided Policy Search),TRPO (Trust Region Policy Optimization) ,PGQ 等等算法,都是這個思路。

    ?

    DPG 把增強學習的訓練過程,類比成演員和評委的互動。

    ?

    DPG?用一個神經網絡?actor,去模擬策略

    ?

    用另一個神經網絡?critic,評估使用某種策略后的行動價值

    ?

    選定了策略 π 后,在每一種狀態(tài),actor 都會選擇固定的行動,所以,


    ?

    正因為如此,訓練評委神經網絡?critic時,只需要對狀態(tài)做梯度下降?(Gradient Descent),不僅計算量小,而且能夠解決復雜的增強學習問題。

    ??

    Deep?DPG 在此基礎上,做了一些改進。尤其是把訓練數(shù)據(jù)回放,并且每次訓練時,柔和地改進網絡參數(shù)。

    ?

    回放和柔和改進,目的是為了既不增加訓練數(shù)據(jù)的數(shù)量,又提高訓練的穩(wěn)定性。


    3. 用深度學習來估算收益

    ?

    某些應用場景的收益,無法用簡單的方式表達,譬如模仿書法家的字體風格,或者模仿某位飛行員的特技飛行動作。

    ?

    反向增強學習 Inverse ReinforcementLearning,小樣本學習 One-shot Learning 等等算法,針對這類模仿問題,做過有益的嘗試。

    ?

    生成對抗網絡,Generative AdversarialNetworks (GANs),提供了新思路。

    ?

    GAN 主要由兩個神經網絡構成,

    ?

    1.???生成模型Generator,從訓練數(shù)據(jù)中猜測這些樣本的數(shù)據(jù)分布,并偽造數(shù)據(jù)。

    2.???鑒別模型Discriminator,識別哪些數(shù)據(jù)是真實的訓練數(shù)據(jù),哪些是生成模型偽造的假數(shù)據(jù)。


    兩個模型不斷對抗,使得生成模型偽造的數(shù)據(jù)越來越像真的,而鑒別模型的識別能力越來越精準。

    ?

    對抗的結果,是生成模型對數(shù)據(jù)分布的猜測,越來越精準。

    ?

    模仿,是增強學習的一個子領域。


    把 GAN 應用于增強學習,將是一大熱點。??


    4. 融合

    ?

    DQN 用深度學習來估算價值函數(shù),DPG?用深度學習來估算策略函數(shù),GAN?用深度學習來估算難以言說的收益函數(shù)

    ?

    Asynchronous AdvantageActor-Critic (A3C) 算法,試圖把模擬價值函數(shù)的決斗架構,與模擬策略的演員-評委模型,外加多核并行計算,融合在一起。

    ?

    Differentiable NeuralComputer (DNC)?不糾結價值函數(shù)和策略函數(shù)的細節(jié),而是把它們看成黑盒子的內部構成。

    ?

    DNC?用 LSTM 來分析訓練數(shù)據(jù),把分析結果保存在 LSTM 外部的存儲空間。

    ?

    LSTM 分析結果是一組數(shù)字向量,數(shù)字向量的物理意義很隱晦,如同表達生命特征的 DNA,但是它們包含了的內容。

    ?

    雖然數(shù)字向量的物理意義很隱晦,但是只要黑盒子能夠做出正確的決策,就是好盒子。

    ?

    DNC 的論文作者,用這個技術來玩積木游戲,來規(guī)劃倫敦地鐵任何兩站之間的最佳換乘路徑,效果很好。

    ?

    黑盒子能不能完成更復雜的任務?這是吊足觀眾胃口的懸念。


    文章轉自新智元公眾號,原文鏈接

    總結

    以上是生活随笔為你收集整理的邓侃:深度强化学习“深”在哪里?的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。