日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

深度增强学习前沿算法思想

發(fā)布時間:2025/3/15 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度增强学习前沿算法思想 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者:?Flood Sung,CSDN博主,人工智能方向研究生,專注于深度學(xué)習(xí),增強學(xué)習(xí)與機器人的研究。?
責(zé)編:何永燦,歡迎人工智能領(lǐng)域技術(shù)投稿、約稿、給文章糾錯,請發(fā)送郵件至heyc@csdn.net?
本文為《程序員》原創(chuàng)文章,未經(jīng)允許不得轉(zhuǎn)載,更多精彩文章請訂閱2017年《程序員》

2016年AlphaGo計算機圍棋系統(tǒng)戰(zhàn)勝頂尖職業(yè)棋手李世石,引起了全世界的廣泛關(guān)注,人工智能進一步被推到了風(fēng)口浪尖。而其中的深度增強學(xué)習(xí)算法是AlphaGo的核心,也是通用人工智能的實現(xiàn)關(guān)鍵。本文將帶領(lǐng)大家了解深度增強學(xué)習(xí)的前沿算法思想,領(lǐng)略人工智能的核心奧秘。

前言

深度增強學(xué)習(xí)(Deep Reinforcement Learning,DRL)是近兩年來深度學(xué)習(xí)領(lǐng)域迅猛發(fā)展起來的一個分支,目的是解決計算機從感知到?jīng)Q策控制的問題,從而實現(xiàn)通用人工智能。以Google DeepMind公司為首,基于深度增強學(xué)習(xí)的算法已經(jīng)在視頻、游戲、圍棋、機器人等領(lǐng)域取得了突破性進展。2016年Google DeepMind推出的AlphaGo圍棋系統(tǒng),使用蒙特卡洛樹搜索和深度學(xué)習(xí)結(jié)合的方式使計算機的圍棋水平達到甚至超過了頂尖職業(yè)棋手的水平,引起了世界性的轟動。AlphaGo的核心就在于使用了深度增強學(xué)習(xí)算法,使得計算機能夠通過自對弈的方式不斷提升棋力。深度增強學(xué)習(xí)算法由于能夠基于深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)從感知到?jīng)Q策控制的端到端自學(xué)習(xí),具有非常廣闊的應(yīng)用前景,它的發(fā)展也將進一步推動人工智能的革命。

深度增強學(xué)習(xí)與通用人工智能

當(dāng)前深度學(xué)習(xí)已經(jīng)在計算機視覺、語音識別、自然語言理解等領(lǐng)域取得了突破,相關(guān)技術(shù)也已經(jīng)逐漸成熟并落地進入到我們的生活當(dāng)中。然而,這些領(lǐng)域研究的問題都只是為了讓計算機能夠感知和理解這個世界。以此同時,決策控制才是人工智能領(lǐng)域要解決的核心問題。計算機視覺等感知問題要求輸入感知信息到計算機,計算機能夠理解,而決策控制問題則要求計算機能夠根據(jù)感知信息進行判斷思考,輸出正確的行為。要使計算機能夠很好地決策控制,要求計算機具備一定的“思考”能力,使計算機能夠通過學(xué)習(xí)來掌握解決各種問題的能力,而這正是通用人工智能(Artificial General Intelligence,AGI)(即強人工智能)的研究目標(biāo)。通用人工智能是要創(chuàng)造出一種無需人工編程自己學(xué)會解決各種問題的智能體,最終目標(biāo)是實現(xiàn)類人級別甚至超人級別的智能。

通用人工智能的基本框架即是增強學(xué)習(xí)(Reinforcement Learning,RL)的框架,如圖1所示。


圖1 通用人工智能基本框架

智能體的行為都可以歸結(jié)為與世界的交互。智能體觀察這個世界,然后根據(jù)觀察及自身的狀態(tài)輸出動作,這個世界會因此而發(fā)生改變,從而形成回饋返回給智能體。所以核心問題就是如何構(gòu)建出這樣一個能夠與世界交互的智能體。深度增強學(xué)習(xí)將深度學(xué)習(xí)(Deep Learning)和增強學(xué)習(xí)(Reinforcement Learning)結(jié)合起來,深度學(xué)習(xí)用來提供學(xué)習(xí)的機制,而增強學(xué)習(xí)為深度學(xué)習(xí)提供學(xué)習(xí)的目標(biāo)。這使得深度增強學(xué)習(xí)具備構(gòu)建出復(fù)雜智能體的潛力,也因此,AlphaGo的第一作者David Silver認(rèn)為深度增強學(xué)習(xí)等價于通用人工智能DRL=DL+RL=Universal AI。

深度增強學(xué)習(xí)的Actor-Critic框架

目前深度增強學(xué)習(xí)的算法都可以包含在Actor-Critic框架下,如圖2所示。


圖2 Actor-Critic框架

把深度增強學(xué)習(xí)的算法認(rèn)為是智能體的大腦,那么這個大腦包含了兩個部分:Actor行動模塊和Critic評判模塊。其中Actor行動模塊是大腦的執(zhí)行機構(gòu),輸入外部的狀態(tài)s,然后輸出動作a。而Critic評判模塊則可認(rèn)為是大腦的價值觀,根據(jù)歷史信息及回饋r進行自我調(diào)整,然后影響整個Actor行動模塊。這種Actor-Critic的方法非常類似于人類自身的行為方式。我們?nèi)祟愐彩窃谧陨韮r值觀和本能的指導(dǎo)下進行行為,并且價值觀受經(jīng)驗的影響不斷改變。在Actor-Critic框架下,Google DeepMind相繼提出了DQN,A3C和UNREAL等深度增強學(xué)習(xí)算法,其中UNREAL是目前最好的深度增強學(xué)習(xí)算法。下面我們將介紹這三個算法的基本思想。

DQN(Deep Q Network)算法

DQN是Google DeepMind于2013年提出的第一個深度增強學(xué)習(xí)算法,并在2015年進一步完善,發(fā)表在2015年的《Nature》上。DeepMind將DQN應(yīng)用在計算機玩Atari游戲上,不同于以往的做法,僅使用視頻信息作為輸入,和人類玩游戲一樣。在這種情況下,基于DQN的程序在多種Atari游戲上取得了超越人類水平的成績。這是深度增強學(xué)習(xí)概念的第一次提出,并由此開始快速發(fā)展。

DQN算法面向相對簡單的離散輸出,即輸出的動作僅有少數(shù)有限的個數(shù)。在這種情況下,DQN算法在Actor-Critic框架下僅使用Critic評判模塊,而沒有使用Actor行動模塊,因為使用Critic評判模塊即可以選擇并執(zhí)行最優(yōu)的動作,如圖3所示。


圖3 DQN基本結(jié)構(gòu)

在DQN中,用一個價值網(wǎng)絡(luò)(Value Network)來表示Critic評判模塊,價值網(wǎng)絡(luò)輸出Q(s,a),即狀態(tài)s和動作a下的價值。基于價值網(wǎng)絡(luò),我們可以遍歷某個狀態(tài)s下各種動作的價值,然后選擇價值最大的一個動作輸出。所以,主要問題是如何通過深度學(xué)習(xí)的隨機梯度下降方法來更新價值網(wǎng)絡(luò)。為了使用梯度下降方法,我們必須為價值網(wǎng)絡(luò)構(gòu)造一個損失函數(shù)。由于價值網(wǎng)絡(luò)輸出的是Q值,因此如果能夠構(gòu)造出一個目標(biāo)Q值,就能夠通過平方差MSE的方式來得到損失函數(shù)。但對于價值網(wǎng)絡(luò)來說,輸入的信息僅有狀態(tài)s,動作a及回饋r。因此,如何計算出目標(biāo)Q值是DQN算法的關(guān)鍵,而這正是增強學(xué)習(xí)能夠解決的問題。基于增強學(xué)習(xí)的Bellman公式,我們能夠基于輸入信息特別是回饋r構(gòu)造出目標(biāo)Q值,從而得到損失函數(shù),對價值網(wǎng)絡(luò)進行更新。


圖4 UNREAL算法框圖

在實際使用中,價值網(wǎng)絡(luò)可以根據(jù)具體的問題構(gòu)造不同的網(wǎng)絡(luò)形式。比如Atari有些輸入的是圖像信息,就可以構(gòu)造一個卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)來作為價值網(wǎng)絡(luò)。為了增加對歷史信息的記憶,還可以在CNN之后加上LSTM長短記憶模型。在DQN訓(xùn)練的時候,先采集歷史的輸入輸出信息作為樣本放在經(jīng)驗池(Replay Memory)里面,然后通過隨機采樣的方式采樣多個樣本進行minibatch的隨機梯度下降訓(xùn)練。

DQN算法作為第一個深度增強學(xué)習(xí)算法,僅使用價值網(wǎng)絡(luò),訓(xùn)練效率較低,需要大量的時間訓(xùn)練,并且只能面向低維的離散控制問題,通用性有限。但由于DQN算法第一次成功結(jié)合了深度學(xué)習(xí)和增強學(xué)習(xí),解決了高維數(shù)據(jù)輸入問題,并且在Atari游戲上取得突破,具有開創(chuàng)性的意義。

A3C(Asynchronous Advantage Actor Critic)算法

A3C算法是2015年DeepMind提出的相比DQN更好更通用的一個深度增強學(xué)習(xí)算法。A3C算法完全使用了Actor-Critic框架,并且引入了異步訓(xùn)練的思想,在提升性能的同時也大大加快了訓(xùn)練速度。A3C算法的基本思想,即Actor-Critic的基本思想,是對輸出的動作進行好壞評估,如果動作被認(rèn)為是好的,那么就調(diào)整行動網(wǎng)絡(luò)(Actor Network)使該動作出現(xiàn)的可能性增加。反之如果動作被認(rèn)為是壞的,則使該動作出現(xiàn)的可能性減少。通過反復(fù)的訓(xùn)練,不斷調(diào)整行動網(wǎng)絡(luò)找到最優(yōu)的動作。AlphaGo的自我學(xué)習(xí)也是基于這樣的思想。

基于Actor-Critic的基本思想,Critic評判模塊的價值網(wǎng)絡(luò)(Value Network)可以采用DQN的方法進行更新,那么如何構(gòu)造行動網(wǎng)絡(luò)的損失函數(shù),實現(xiàn)對網(wǎng)絡(luò)的訓(xùn)練是算法的關(guān)鍵。一般行動網(wǎng)絡(luò)的輸出有兩種方式:一種是概率的方式,即輸出某一個動作的概率;另一種是確定性的方式,即輸出具體的某一個動作。A3C采用的是概率輸出的方式。因此,我們從Critic評判模塊,即價值網(wǎng)絡(luò)中得到對動作的好壞評價,然后用輸出動作的對數(shù)似然值(Log Likelihood)乘以動作的評價,作為行動網(wǎng)絡(luò)的損失函數(shù)。行動網(wǎng)絡(luò)的目標(biāo)是最大化這個損失函數(shù),即如果動作評價為正,就增加其概率,反之減少,符合Actor-Critic的基本思想。有了行動網(wǎng)絡(luò)的損失函數(shù),也就可以通過隨機梯度下降的方式進行參數(shù)的更新。

為了使算法取得更好的效果,如何準(zhǔn)確地評價動作的好壞也是算法的關(guān)鍵。A3C在動作價值Q的基礎(chǔ)上,使用優(yōu)勢A(Advantage)作為動作的評價。優(yōu)勢A是指動作a在狀態(tài)s下相對其他動作的優(yōu)勢。假設(shè)狀態(tài)s的價值是V,那么A=Q-V。這里的動作價值Q是指狀態(tài)s下a的價值,與V的含義不同。直觀上看,采用優(yōu)勢A來評估動作更為準(zhǔn)確。舉個例子來說,假設(shè)在狀態(tài)s下,動作1的Q值是3,動作2的Q值是1,狀態(tài)s的價值V是2。如果使用Q作為動作的評價,那么動作1和2的出現(xiàn)概率都會增加,但是實際上我們知道唯一要增加出現(xiàn)概率的是動作1。這時如果采用優(yōu)勢A,我們可以計算出動作1的優(yōu)勢是1,動作2的優(yōu)勢是-1。基于優(yōu)勢A來更新網(wǎng)絡(luò),動作1的出現(xiàn)概率增加,動作2的出現(xiàn)概率減少,更符合我們的目標(biāo)。因此,A3C算法調(diào)整了Critic評判模塊的價值網(wǎng)絡(luò),讓其輸出V值,然后使用多步的歷史信息來計算動作的Q值,從而得到優(yōu)勢A,進而計算出損失函數(shù),對行動網(wǎng)絡(luò)進行更新。

A3C算法為了提升訓(xùn)練速度還采用異步訓(xùn)練的思想,即同時啟動多個訓(xùn)練環(huán)境,同時進行采樣,并直接使用采集的樣本進行訓(xùn)練。相比DQN算法,A3C算法不需要使用經(jīng)驗池來存儲歷史樣本,節(jié)約了存儲空間,并且采用異步訓(xùn)練,大大加倍了數(shù)據(jù)的采樣速度,也因此提升了訓(xùn)練速度。與此同時,采用多個不同訓(xùn)練環(huán)境采集樣本,樣本的分布更加均勻,更有利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

A3C算法在以上多個環(huán)節(jié)上做出了改進,使得其在Atari游戲上的平均成績是DQN算法的4倍,取得了巨大的提升,并且訓(xùn)練速度也成倍的增加。因此,A3C算法取代了DQN成為了更好的深度增強學(xué)習(xí)算法。

UNREAL(UNsupervised REinforcement and Auxiliary Learning)算法

UNREAL算法是2016年11月DeepMind提出的最新深度增強學(xué)習(xí)算法,在A3C算法的基礎(chǔ)上對性能和速度進行進一步提升,在Atari游戲上取得了人類水平8.8倍的成績,并且在第一視角的3D迷宮環(huán)境Labyrinth上也達到了87%的人類水平,成為當(dāng)前最好的深度增強學(xué)習(xí)算法。

A3C算法充分使用了Actor-Critic框架,是一套完善的算法,因此,我們很難通過改變算法框架的方式來對算法做出改進。UNREAL算法在A3C算法的基礎(chǔ)上,另辟蹊徑,通過在訓(xùn)練A3C的同時,訓(xùn)練多個輔助任務(wù)來改進算法。UNREAL算法的基本思想來源于我們?nèi)祟惖膶W(xué)習(xí)方式。人要完成一個任務(wù),往往通過完成其他多種輔助任務(wù)來實現(xiàn)。比如說我們要收集郵票,可以自己去買,也可以讓朋友幫忙獲取,或者和其他人交換的方式得到。UNREAL算法通過設(shè)置多個輔助任務(wù),同時訓(xùn)練同一個A3C網(wǎng)絡(luò),從而加快學(xué)習(xí)的速度,并進一步提升性能。

在UNREAL算法中,包含了兩類輔助任務(wù):第一種是控制任務(wù),包括像素控制和隱藏層激活控制。像素控制是指控制輸入圖像的變化,使得圖像的變化最大。因為圖像變化大往往說明智能體在執(zhí)行重要的環(huán)節(jié),通過控制圖像的變化能夠改善動作的選擇。隱藏層激活控制則是控制隱藏層神經(jīng)元的激活數(shù)量,目的是使其激活量越多越好。這類似于人類大腦細胞的開發(fā),神經(jīng)元使用得越多,可能越聰明,也因此能夠做出更好的選擇。另一種輔助任務(wù)是回饋預(yù)測任務(wù)。因為在很多場景下,回饋r并不是每時每刻都能獲取的(比如在Labyrinth中吃到蘋果才能得1分),所以讓神經(jīng)網(wǎng)絡(luò)能夠預(yù)測回饋值會使其具有更好的表達能力。在UNREAL算法中,使用歷史連續(xù)多幀的圖像輸入來預(yù)測下一步的回饋值作為訓(xùn)練目標(biāo)。除了以上兩種回饋預(yù)測任務(wù)外,UNREAL算法還使用歷史信息額外增加了價值迭代任務(wù),即DQN的更新方法,進一步提升算法的訓(xùn)練速度。

UNREAL算法本質(zhì)上是通過訓(xùn)練多個面向同一個最終目標(biāo)的任務(wù)來提升行動網(wǎng)絡(luò)的表達能力和水平,符合人類的學(xué)習(xí)方式。值得注意的是,UNREAL雖然增加了訓(xùn)練任務(wù),但并沒有通過其他途徑獲取別的樣本,是在保持原有樣本數(shù)據(jù)不變的情況下對算法進行提升,這使得UNREAL算法被認(rèn)為是一種無監(jiān)督學(xué)習(xí)的方法。基于UNREAL算法的思想,可以根據(jù)不同任務(wù)的特點針對性地設(shè)計輔助任務(wù),來改進算法。

小結(jié)

深度增強學(xué)習(xí)經(jīng)過近兩年的發(fā)展,在算法層面上取得了越來越好的效果。從DQN,A3C到UNREAL,精妙的算法設(shè)計無不閃耀著人類智慧的光芒。在未來,除了算法本身的改進,深度增強學(xué)習(xí)作為能夠解決從感知到?jīng)Q策控制的通用型學(xué)習(xí)算法,將能夠在現(xiàn)實生活中的各種領(lǐng)域得到廣泛的應(yīng)用。AlphaGo的成功只是通用人工智能爆發(fā)的前夜。


原文地址: http://geek.csdn.net/news/detail/138103

與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的深度增强学习前沿算法思想的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。