當前位置：首頁 >

邓侃：深度强化学习“深”在哪里？

發布時間：2025/3/20 24 豆豆

生活随笔收集整理的這篇文章主要介紹了邓侃：深度强化学习“深”在哪里？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

當今世界，科技發展日新月異。即便是業界中人，往往也搞不清同行們的動態。所以，隔三差五需要有人梳理業界的動態。?

“Deep?ReinforcementLearning: An Overview” [1] 這篇論文的作者，梳理了深度學習與增強學習相融合的最新動態。

這是一篇苦心之作，

梳理了該領域各個學派的基本思路及其區別。

羅列了各種測試平臺，目前主要是各種游戲，之所以用游戲來做測試，是因為容易采集數據。

值得讀的論文，羅列了各個學派的重要論文。

?枚舉了若干重要的應用，包括游戲，重點介紹了下圍棋的 AlphaGo，教無人機做特技，教機器人行走和跳躍，機器翻譯和對話，智能醫療診斷，深度學習系統的自動設計等等。

論文：深度強化學習概覽

作者：Yuxi Li，加拿大阿爾伯塔大學（University of Alberta）計算機系的博士

摘要

本文概述了最近取得許多令人振奮的成果的深度增強學習（RL）。我們從深度學習和增強學習的背景開始說起，并介紹了各種測試平臺。然后我們討論了 Deep Q-Network（DQN）及其擴展，異步方法，策略優化，激勵，以及規劃。接著，我們討論了注意力和記憶，無監督學習，以及學習學習（learning to learn）。我們還討論了 RL 的各種應用，包括游戲（尤其是 AlphaGo），機器人，語音對話系統（即，chatbot），機器翻譯，文本序列預測，神經架構設計，個性化網絡服務，醫療保健，金融，以及音樂自動生成等。我們也提了一些尚沒有綜述的主題/論文。本論文以一系列值得閱讀的 RL 重要論文的列舉結束。

什么是增強學習，為什么需要引入深度學習？

不妨把機器學習看成二維空間，第一個維度是問題，第二個維度是方法，用什么方法來解決問題。

大致來說，機器學習想解決兩大類問題，模擬和決策。

1.???模擬：

給定一系列輸入 x 和輸出 y，模擬兩者之間的函數關系 y = f(x)。

預測是函數模擬的一個小類，譬如根據各種經濟因素 x，預測股票價格。

分類是另一個小類，譬如給定一張人像照片 x，識別照片中的人物是不是y。

2.???決策：

先構造三元組，包括狀態 state、行動action、收益 reward。

序列是一連串三元組

輸入若干序列，作為訓練數據。

決策的任務，是分析這些訓練數據，發現最優行動策略，目的是獲得最大的收益。

類似于金融折現率，未來的收益，折算成現鈔，得打個折扣。遠期的折扣，比近期的折扣大，這就是的意義。

決策的應用很多，下棋、開車、問答、醫療診斷、機器人自主行走跳躍等等，都是決策問題。

? ??

邏輯回歸 Logistic Regression、向量機 SVM、決策樹Decision Tree 等等是傳統的機器學習的方法，主要用于解決模擬問題。

深度學習 Deep Learning 是最新的方法，起先也主要用于解決模擬問題。

增強學習 Reinforcement Learning，譬如 Q-learning 算法，是解決決策問題的傳統方法。

為什么要用深度學習這個新方法解決決策問題？

目的無非是，1. 解決更復雜的決策問題，2. 學得更準，3. 學得更快，4. 用更少的訓練數據。

傳統的增強學習存在什么問題？

盧浮宮館藏美術作品眾多，經驗豐富的導游，會幫游客規劃一條參觀路徑，走最短的路，看最多的名畫。

如何規劃最佳參觀路徑，是一個決策問題。傳統的方法，是增強學習 Reinforcement Learning。

簡單而蠻力的辦法，是找一張盧浮宮地圖，盡可能羅列所有可能的參觀路徑，評價每一種路徑的總收益。

這是 Monte Carlo tree search (MCTS) 的思路。

MCST 簡單有效，但是缺陷是計算成本高。

下圍棋的 AlphaGo，用 MCST 算法來精算局部的對弈策略。

但是，不能用這個方法來學習整盤棋的策略，因為如果要窮舉整盤棋的所有對弈策略，數量級大概是。單機搞不定，云計算也搞不定。

如何降低計算量？思路是不必浪費精力去為槽糕的路徑評估收益。問題是，如何甄別槽糕的路徑？

不妨換一個思路。不會有觀眾故意跟自己過不去，專挑路程長、名畫少的槽糕路徑去參觀盧浮宮。

我們不必關心哪條路徑是槽糕的路徑，我們只需要研究其他觀眾曾經走過的路徑，就不會偏離最佳的路徑太遠。

什么是最佳路徑？兩個要素，

1.?當前收益大：每走一步，多半能看到一副名畫。

2.?潛在的未來收益大：每走一步，離其它名畫更近。

用數學公式來表達，就是，

的專業名稱是行動價值?Action Value。

用價值取代收益，既著眼當前收益，又兼顧未來潛力。

即便當前沒有收益，譬如爬樓梯時一幅作品都看不到，但是樓上的展廳有名畫，未來潛力巨大，爬樓就是明智的行動。

為了估算當前的行動價值，先得估算下一步的潛在價值。

為了估算下一步的潛在價值，先得估算再下一步的潛在價值。

重復以上步驟，直到走出盧浮宮出口。這個辦法，就是?Q-learning算法。

Q-learning 算法是傳統增強學習中最重要的算法。除此之外，有若干變種。

但是無論哪一種變種，面對復雜的問題，傳統的增強學習算法都難以勝任。

如果狀態不僅僅是位置，而且也包含每幅名作附近的擁堵程度，參觀盧浮宮的路徑規劃就變得更復雜了。

如果行動不僅僅是前進、后退、左轉、右轉，而且也包括速度，問題就更復雜了。?

如果收益不僅僅取決于作品的知名度，而且也包括觀眾的品味，?問題就更復雜了。

解決復雜的決策問題，是增強學習與深度學習融合的一大動機。

增強學習與深度學習融合的切入點，是用結構復雜的神經網絡，來估算增強學習中的行動價值、收益、策略等等。

深度增強學習深在哪里？

1. 用深度學習來估算價值

? ??

Deep Q-network (DQN)，??Double DQN ， Dueling architecture 等等算法，都是這個思路。

先根據訓練數據，來計算當前的行動價值，

然后用深度神經網絡，估算，如果估算得完全準確，那么

。

如果兩者之間有差距，那么就不斷調整深度神經網絡的參數，縮小兩者的差距，這就是深度增強學習的訓練過程。

這個辦法，就是?DeepQ-network?DQN，及其變種?Double DQN 的基本原理。

DQN 的計算成本較大，為了學得更快。決斗模型?Dueling architecture 提議，拆解。

把拆解為，其中是每個狀態的價值，而是指在狀態下采取行動后，價值的增量。

DQN 算法用一個規模較大的神經網絡，去模擬，訓練過程的計算成本高。

而決斗架構?Duelingarchitecture?用兩個規模較小的神經網絡，分別去模擬和，從而大大降低了訓練過程的計算成本。

2. ?用深度學習來估算策略

? ? ?

DPG (Deterministic PolicyGradient)，Deep?DPG，GPS (Guided Policy Search)，TRPO (Trust Region Policy Optimization) ，PGQ 等等算法，都是這個思路。

DPG 把增強學習的訓練過程，類比成演員和評委的互動。

DPG?用一個神經網絡?actor，去模擬策略。

用另一個神經網絡?critic，評估使用某種策略后的行動價值。

選定了策略 π 后，在每一種狀態，actor 都會選擇固定的行動，所以，

。

正因為如此，訓練評委神經網絡?critic時，只需要對狀態做梯度下降?(Gradient Descent)，不僅計算量小，而且能夠解決復雜的增強學習問題。

Deep?DPG 在此基礎上，做了一些改進。尤其是把訓練數據回放，并且每次訓練時，柔和地改進網絡參數。

回放和柔和改進，目的是為了既不增加訓練數據的數量，又提高訓練的穩定性。

3. 用深度學習來估算收益

某些應用場景的收益，無法用簡單的方式表達，譬如模仿書法家的字體風格，或者模仿某位飛行員的特技飛行動作。

反向增強學習 Inverse ReinforcementLearning，小樣本學習 One-shot Learning 等等算法，針對這類模仿問題，做過有益的嘗試。

生成對抗網絡，Generative AdversarialNetworks (GANs)，提供了新思路。

GAN 主要由兩個神經網絡構成，

1.???生成模型Generator，從訓練數據中猜測這些樣本的數據分布，并偽造數據。

2.???鑒別模型Discriminator，識別哪些數據是真實的訓練數據，哪些是生成模型偽造的假數據。

兩個模型不斷對抗，使得生成模型偽造的數據越來越像真的，而鑒別模型的識別能力越來越精準。

對抗的結果，是生成模型對數據分布的猜測，越來越精準。

模仿，是增強學習的一個子領域。

把 GAN 應用于增強學習，將是一大熱點。??

4. 融合

DQN 用深度學習來估算價值函數，DPG?用深度學習來估算策略函數，GAN?用深度學習來估算難以言說的收益函數。

Asynchronous AdvantageActor-Critic (A3C) 算法，試圖把模擬價值函數的決斗架構，與模擬策略的演員-評委模型，外加多核并行計算，融合在一起。

Differentiable NeuralComputer (DNC)?不糾結價值函數和策略函數的細節，而是把它們看成黑盒子的內部構成。

DNC?用 LSTM 來分析訓練數據，把分析結果保存在 LSTM 外部的存儲空間。

LSTM 分析結果是一組數字向量，數字向量的物理意義很隱晦，如同表達生命特征的 DNA，但是它們包含了和的內容。

雖然數字向量的物理意義很隱晦，但是只要黑盒子能夠做出正確的決策，就是好盒子。

DNC 的論文作者，用這個技術來玩積木游戲，來規劃倫敦地鐵任何兩站之間的最佳換乘路徑，效果很好。

黑盒子能不能完成更復雜的任務？這是吊足觀眾胃口的懸念。

文章轉自新智元公眾號，原文鏈接

總結

以上是生活随笔為你收集整理的邓侃：深度强化学习“深”在哪里？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：大数据治理需要具备哪些能力和关键技术？
下一篇：杰和弯道超车推企业级NAS存储应用方案

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

邓侃：深度强化学习“深”在哪里？

總結