日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【强化学习】强化学习的基本概念与代码实现

發(fā)布時(shí)間:2024/1/8 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【强化学习】强化学习的基本概念与代码实现 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

選自DeepLearning4j

機(jī)器之心編譯

參與:Nurhachu Null、李澤南


從 AlphaGo 到自動(dòng)駕駛汽車,我們能在很多最先進(jìn)的人工智能應(yīng)用中找到強(qiáng)化學(xué)習(xí)的身影。這種技術(shù)是如何從零開始慢慢學(xué)會(huì)完成任務(wù),成長(zhǎng)為「超越人類水平」的專家的?本文將會(huì)進(jìn)行一番簡(jiǎn)要介紹。


神經(jīng)網(wǎng)絡(luò)造就了最近我們?cè)谟?jì)算機(jī)視覺、機(jī)器翻譯和時(shí)間序列預(yù)測(cè)等領(lǐng)域上的突破—同時(shí)它也可以和強(qiáng)化學(xué)習(xí)算法結(jié)合來創(chuàng)建一些驚人的成果,例如 AlphaGo(參閱:無需人類知識(shí),DeepMind 新一代圍棋程序 AlphaGo Zero 再次登上 Nature)。


強(qiáng)化學(xué)習(xí)指的是面向目標(biāo)的算法,這種算法學(xué)習(xí)如何在一些具體的步驟中達(dá)到一個(gè)目標(biāo)或者最大化;例如,最大化一個(gè)游戲中通過一些行動(dòng)而獲得的得分。它們可以從一個(gè)空白狀態(tài)開始,然后在合適的條件下達(dá)到超越人類水平的性能。就像被糖果和體罰刺激的小孩子一樣,當(dāng)它們做出錯(cuò)誤的預(yù)測(cè)時(shí),這些算法會(huì)受到懲罰,當(dāng)它們做出正確的預(yù)測(cè)時(shí),它們會(huì)得到獎(jiǎng)勵(lì)—這便是強(qiáng)化的意義所在。


結(jié)合深度學(xué)習(xí)的強(qiáng)化算法可以在圍棋和 Atari 游戲中打敗人類冠軍。盡管這聽起來還不具有足夠的說服力,但是這已經(jīng)遠(yuǎn)遠(yuǎn)優(yōu)于它們之前的成就了,而且目前最先進(jìn)的進(jìn)步是很迅速的。


兩個(gè)強(qiáng)化學(xué)習(xí)的算法 Deep-Q learning 和 A3C 已經(jīng)在 Deeplearning4j 庫(kù)上實(shí)現(xiàn)了,現(xiàn)在,它已經(jīng)可以玩《毀滅戰(zhàn)士(Doom)》了。


強(qiáng)化學(xué)習(xí)解決了對(duì)即刻行動(dòng)和與之相關(guān)的延遲響應(yīng)之間的關(guān)聯(lián)的問題。就像人類一樣,強(qiáng)化學(xué)習(xí)算法必須等待一會(huì),看看它們決策的結(jié)果如何。它們運(yùn)行在延遲響應(yīng)的環(huán)境之中,在這種環(huán)境中理解哪些行動(dòng)在多個(gè)步驟后導(dǎo)致哪些結(jié)果是很困難的。


我們可以期望強(qiáng)化學(xué)習(xí)算法在更加模糊的現(xiàn)實(shí)環(huán)境中表現(xiàn)得更好,它可以在真實(shí)環(huán)境下從任意多個(gè)可能的行動(dòng)中進(jìn)行選擇,而不是從有限個(gè)電子游戲動(dòng)作選項(xiàng)中進(jìn)行選擇。也就是說,隨著時(shí)間的推移,我們希望它們(強(qiáng)化學(xué)習(xí)算法)能夠在現(xiàn)實(shí)世界中有著實(shí)現(xiàn)目標(biāo)的價(jià)值。


強(qiáng)化學(xué)習(xí)入門(https://docs.skymind.ai/docs?__hstc=3042607.e3fc0b81c1643174a38ec061d10e5084.1517447567935.1517447567935.1517447567935.1&__hssc=3042607.1.1517447567935&__hsfp=3282609078)


強(qiáng)化學(xué)習(xí)定義


我們可以通過了解智能體、環(huán)境、狀態(tài)、行動(dòng)以及獎(jiǎng)勵(lì)等概念來理解強(qiáng)化學(xué)習(xí),我們會(huì)在一下的內(nèi)容里解釋這些概念。大寫字母表示事物的集合,小寫字母代表事物的實(shí)例;例如,A 是所有可能存在的行動(dòng)的集合,而 a 是這個(gè)集合中包含的一個(gè)實(shí)例。


  • 智能體(Agent):可以采取行動(dòng)的智能個(gè)體;例如,可以完成投遞的無人機(jī),或者在視頻游戲中朝目標(biāo)行動(dòng)的超級(jí)馬里奧。強(qiáng)化學(xué)習(xí)算法就是一個(gè)智能體。而在現(xiàn)實(shí)生活中,那個(gè)智能體就是你。

  • 行動(dòng)(Action):A 是智能體可以采取的行動(dòng)的集合。一個(gè)行動(dòng)(action)幾乎是一目了然的,但是應(yīng)該注意的是智能體是在從可能的行動(dòng)列表中進(jìn)行選擇。在電子游戲中,這個(gè)行動(dòng)列表可能包括向右奔跑或者向左奔跑,向高出處跳或者向低處跳,下蹲或者站住不動(dòng)。在股市中,這個(gè)行動(dòng)列表可能包括買入,賣出或者持有任何有價(jià)證券或者它們的變體。在處理空中飛行的無人機(jī)時(shí),行動(dòng)選項(xiàng)包含三維空間中的很多速度和加速度。

  • 環(huán)境(Environment):指的就是智能體行走于其中的世界。這個(gè)環(huán)境將智能體當(dāng)前的狀態(tài)和行動(dòng)作為輸入,輸出是智能體的獎(jiǎng)勵(lì)和下一步的狀態(tài)。如果你是一個(gè)智能體,那么你所處的環(huán)境就是能夠處理行動(dòng)和決定你一系列行動(dòng)的結(jié)果的物理規(guī)律和社會(huì)規(guī)則。

  • 狀態(tài)(State,S):一個(gè)狀態(tài)就是智能體所處的具體即時(shí)狀態(tài);也就是說,一個(gè)具體的地方和時(shí)刻,這是一個(gè)具體的即時(shí)配置,它能夠?qū)⒅悄荏w和其他重要的失事物關(guān)聯(lián)起來,例如工具、敵人和或者獎(jiǎng)勵(lì)。它是由環(huán)境返回的當(dāng)前形勢(shì)。你是否曾在錯(cuò)誤的時(shí)間出現(xiàn)在錯(cuò)誤的地點(diǎn)?那無疑就是一個(gè)狀態(tài)了。

  • 獎(jiǎng)勵(lì)(Reward,R):獎(jiǎng)勵(lì)是我們衡量某個(gè)智能體的行動(dòng)成敗的反饋。例如,在視頻游戲中,當(dāng)馬里奧碰到金幣的時(shí)候,它就會(huì)贏得分?jǐn)?shù)。面對(duì)任何既定的狀態(tài),智能體要以行動(dòng)的形式向環(huán)境輸出,然后環(huán)境會(huì)返回這個(gè)智能體的一個(gè)新狀態(tài)(這個(gè)新狀態(tài)會(huì)受到基于之前狀態(tài)的行動(dòng)的影響)和獎(jiǎng)勵(lì)(如果有任何獎(jiǎng)勵(lì)的話)。獎(jiǎng)勵(lì)可能是即時(shí)的,也可能是遲滯的。它們可以有效地評(píng)估該智能體的行動(dòng)。

  • 策略(policy,π):policy 是智能體基于當(dāng)前的狀態(tài)做出下一步行動(dòng)所用的策略。

  • 價(jià)值(value,V):期望的具有折扣的長(zhǎng)期收益,而不是短期回報(bào) R。我們定義 Vπ(s) 為當(dāng)前狀態(tài)為 s 時(shí)基于策略π的長(zhǎng)期回報(bào)。

  • Q 價(jià)值或者行動(dòng)價(jià)值(Q):Q 價(jià)值(Q-Value)和上述的價(jià)值類似,不同的是它還使用了另一個(gè)參數(shù)--當(dāng)前的行動(dòng) a。Vπ(s) 指的是基于當(dāng)前狀態(tài) s,行動(dòng) a 和策略π,得到的長(zhǎng)期回報(bào)。


所以,環(huán)境就是能夠?qū)?dāng)前狀態(tài)下采取的動(dòng)作轉(zhuǎn)換成下一個(gè)狀態(tài)和獎(jiǎng)勵(lì)的函數(shù);智能體是將新的狀態(tài)和獎(jiǎng)勵(lì)轉(zhuǎn)換成下一個(gè)行動(dòng)的函數(shù)。我們可以知悉智能體的函數(shù),但是我們無法知悉環(huán)境的函數(shù)。環(huán)境是一個(gè)我們只能看到輸入輸出的黑盒子。強(qiáng)化學(xué)習(xí)相當(dāng)于智能體在嘗試逼近這個(gè)環(huán)境的函數(shù),這樣我們就能夠向黑盒子環(huán)境發(fā)送最大化獎(jiǎng)勵(lì)的行動(dòng)了。



在上圖的反饋回路中,每一個(gè)代表時(shí)間步驟的下標(biāo) t 和 t+1 都指的是一個(gè)不同的狀態(tài):在 t 時(shí)刻和 t+1 時(shí)刻的狀態(tài)。與其他諸如監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)形式不同—強(qiáng)化學(xué)習(xí)僅可以被認(rèn)為是一系列先后發(fā)生的狀態(tài)-行動(dòng)(state-action)對(duì)。


強(qiáng)化學(xué)習(xí)通過行動(dòng)產(chǎn)生的結(jié)果來判斷行動(dòng)。它是面向目標(biāo)的,它的目標(biāo)是習(xí)得能夠讓智能體達(dá)到目標(biāo)的一些行動(dòng)序列。這里有一些例子:


  • 在電子游戲中,這個(gè)目標(biāo)是以最高的分?jǐn)?shù)完成游戲,所以游戲過程中每一次得到的額外分?jǐn)?shù)都會(huì)影響智能體隨后的行動(dòng);也就是說,智能體可能學(xué)會(huì):為了最大化它的得分,他應(yīng)該射擊戰(zhàn)艦,觸碰硬幣或者躲避流星。

  • 在現(xiàn)實(shí)世界中,一個(gè)機(jī)器人的目標(biāo)可能是從 A 點(diǎn)移動(dòng)到 B 點(diǎn),機(jī)器人從 A 點(diǎn)向 B 點(diǎn)移動(dòng)的每一英寸都算作得分。


可以通過對(duì)輸入的解釋將強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)區(qū)分開來。我們可以通過描述它們學(xué)習(xí)的「東西」來說明它們的不同之處。


  • 無監(jiān)督學(xué)習(xí):那東西就是這個(gè)樣子的。(無監(jiān)督學(xué)習(xí)算法學(xué)到了沒有名字的事物之間的相似性,通過進(jìn)一步的擴(kuò)展,它們可以通過識(shí)別不尋?;蛘卟幌嗨频膶?shí)例來發(fā)現(xiàn)相反或者執(zhí)行異常檢測(cè))

  • 監(jiān)督學(xué)習(xí):那個(gè)東西是一塊「雙層吉士漢堡」。(標(biāo)簽,聯(lián)系名字和面孔……)這些監(jiān)督學(xué)習(xí)算法學(xué)到了數(shù)據(jù)實(shí)體實(shí)例和它們的標(biāo)簽之間的關(guān)聯(lián);也就是說,監(jiān)督學(xué)習(xí)算法需要有一個(gè)有標(biāo)簽的數(shù)據(jù)集。那些標(biāo)簽被用來「監(jiān)督」和矯正算法,因?yàn)樗惴ㄔ陬A(yù)測(cè)標(biāo)簽的時(shí)候可能會(huì)做出錯(cuò)誤的猜測(cè)。

  • 強(qiáng)化學(xué)習(xí):吃了這個(gè)東西,因?yàn)樗兜佬U不錯(cuò),而且可以讓你活得更久。(基于短期和回報(bào)和長(zhǎng)期回報(bào)的獎(jiǎng)勵(lì),就相當(dāng)于你攝入的卡路里或者你生存的時(shí)間一樣。)強(qiáng)化學(xué)習(xí)可以被看做是在一個(gè)具有稀疏反饋的環(huán)境中的監(jiān)督學(xué)習(xí)。


強(qiáng)化學(xué)習(xí)的域選擇


可以將一個(gè)自動(dòng)強(qiáng)化學(xué)習(xí)的智能體想象為一個(gè)盲人,這個(gè)盲人智能依靠耳朵和手中的白手杖來嘗試在這個(gè)世界中導(dǎo)航。智能體有一些允許它們感知所處環(huán)境的小窗,但是那些小窗甚至是最不適合它們感知周遭環(huán)境的最不適合的方式。


事實(shí)上,決定你的智能體的輸入和反饋類型是一個(gè)需要解決的復(fù)雜問題。這就是所謂的域選擇問題。學(xué)習(xí)玩電子游戲的算法可以忽略這個(gè)問題,因?yàn)樗鼈兊沫h(huán)境是人為設(shè)定的,而且是受到嚴(yán)格限制的。因此,電子游戲提供了無菌的實(shí)驗(yàn)室環(huán)境,可以在里面測(cè)試強(qiáng)化學(xué)習(xí)的想法。域選擇需要人為決定,通常是基于需要解決的問題的知識(shí)或理論來進(jìn)行的;例如,在無人車的算法中輸入域的選擇可能包括雷達(dá)傳感器、相機(jī)以及 GPS 數(shù)據(jù)的信息。



狀態(tài)-動(dòng)作對(duì)(state-action pair)& 復(fù)雜的獎(jiǎng)勵(lì)概率分布


強(qiáng)化學(xué)習(xí)算法的目標(biāo)是習(xí)得針對(duì)任意給定狀態(tài)的最佳行動(dòng),這意味著行動(dòng)必須被排序,并逐個(gè)賦值。由于那些行動(dòng)都是依賴于狀態(tài)的,所以我們實(shí)際上測(cè)量的是狀態(tài)-行動(dòng)對(duì)(state-action pairs)的價(jià)值;也就是說,您在某個(gè)狀態(tài)下采取的行動(dòng),也就是你在某地方所做的某件事情。這里有幾個(gè)例子,可以描述一下一個(gè)行動(dòng)的價(jià)值和意義取決于智能體在采取這個(gè)行動(dòng)時(shí)所面對(duì)的狀態(tài)。


  • 如果這里的行動(dòng)指的是和某人結(jié)婚,那么您在 18 歲的時(shí)候和一位 35 歲的結(jié)婚可能會(huì)與您在 90 歲的時(shí)候與一位 35 歲的結(jié)婚大有不同,這兩個(gè)結(jié)果可能會(huì)有著不同的動(dòng)機(jī),而且會(huì)進(jìn)一步導(dǎo)致不同的結(jié)果。

  • 如果這里的行動(dòng)時(shí)大喊一聲「Fire」,那么在一個(gè)人群密集的影院和在一眾持槍者旁邊大喊這句話則有不同的意義。如果不了解具體的語境,我們就不能預(yù)測(cè)行動(dòng)會(huì)導(dǎo)致的結(jié)果。


我們用上述的 Q 函數(shù)將狀態(tài)-行動(dòng)對(duì)映射到我們希望它能夠產(chǎn)生的價(jià)值上。Q 函數(shù)將智能體的狀態(tài)和行動(dòng)作為輸入,將它們映射到可能的獎(jiǎng)勵(lì)上。


強(qiáng)化學(xué)習(xí)是通過一系列狀態(tài)-行動(dòng)對(duì)來運(yùn)行智能體的過程,觀察狀態(tài)-行動(dòng)對(duì)所導(dǎo)致的結(jié)果,調(diào)整 Q 函數(shù)的預(yù)測(cè),直到它能夠準(zhǔn)確地預(yù)測(cè)出智能體應(yīng)該采取的最佳行動(dòng)。這種預(yù)測(cè)被稱作策略。


強(qiáng)化學(xué)習(xí)是一種嘗試,它對(duì)于大量的狀態(tài)-行動(dòng)對(duì)以及與之關(guān)聯(lián)的獎(jiǎng)勵(lì)的復(fù)雜概率分布進(jìn)行建模。這是強(qiáng)化學(xué)習(xí)與馬爾科夫決策過程(https://deeplearning4j.org/markovchainmontecarlo)配合使用的一個(gè)原因,馬爾科夫決策過程是一個(gè)從復(fù)雜的分布中進(jìn)行采樣,以推斷它的屬性的一種方法。這和啟發(fā) Stan Ulam 來發(fā)明蒙特卡羅方法的問題是很相似的;即在紙牌游戲中通過給定的手牌嘗試推斷獲勝的機(jī)會(huì)。


任何統(tǒng)計(jì)方法,其本質(zhì)上都是無知的。有些現(xiàn)象(例如生物學(xué)、政治學(xué)或者與棋類游戲有關(guān)的現(xiàn)象)的巨大復(fù)雜性使得從最初原則去推斷是不可能的。唯一的方法就是通過統(tǒng)計(jì)去研究它們,從表面去衡量事件,并嘗試建立它們之間的關(guān)聯(lián),即便我們不懂得它們相關(guān)聯(lián)的機(jī)制。就像深度神經(jīng)網(wǎng)絡(luò)一樣,強(qiáng)化學(xué)習(xí)就是這樣的方法,依靠采樣來從數(shù)據(jù)中抽取信息。


強(qiáng)化學(xué)習(xí)是迭代的。在大多數(shù)有趣的應(yīng)用中,它起始的時(shí)候都并不明白當(dāng)前的狀態(tài)-行動(dòng)對(duì)會(huì)產(chǎn)生怎樣的獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)算法通過在一次又一次的狀態(tài)中運(yùn)行以學(xué)到這些關(guān)聯(lián),就像運(yùn)動(dòng)員或者音樂家在一次又一次的狀態(tài)迭代中提升他們的水平一樣。


機(jī)器學(xué)習(xí)與時(shí)間之間的關(guān)系


也許你會(huì)認(rèn)為強(qiáng)化學(xué)習(xí)算法與實(shí)踐的關(guān)系與人類有所不同。我們可以在相同的狀態(tài)下采取不同的行動(dòng)運(yùn)行算法,直至我們可以可以推斷哪個(gè)行動(dòng)是狀態(tài)對(duì)應(yīng)的最佳行動(dòng)。事實(shí)上,我們給算法設(shè)定了它們自己的土撥鼠日(http://www.imdb.com/title/tt0107048/0),它們從一個(gè)蠢蛋開始,然后慢慢獲得智慧。


由于人類從來不會(huì)經(jīng)歷電影之外的那種土撥鼠日,所以強(qiáng)化學(xué)習(xí)有可能比人類學(xué)到更多、更好。你可能會(huì)說,與人類相比,這些強(qiáng)化學(xué)習(xí)算法的真正優(yōu)勢(shì)并不在于它們的固有本質(zhì),而在于它們能夠并行地存在于很多芯片上的能力,然后夜以繼日不知疲倦地進(jìn)行訓(xùn)練,因此能夠?qū)W到更多。一個(gè)在圍棋游戲上訓(xùn)練的算法,例如 AlphaGo,它能夠玩的游戲比任何人類有望在 100 個(gè)有生之年玩得還要多。


深度神經(jīng)網(wǎng)絡(luò)和深度強(qiáng)化學(xué)習(xí)


神經(jīng)網(wǎng)絡(luò)適合用在什么地方呢?神經(jīng)網(wǎng)絡(luò)是能夠?qū)W會(huì)映射狀態(tài)-行動(dòng)對(duì)和獎(jiǎng)勵(lì)的智能體。就像所有的神經(jīng)網(wǎng)絡(luò)一樣,它們使用參數(shù)來逼近與輸入輸出相關(guān)的函數(shù),它們的學(xué)習(xí)通過沿著錯(cuò)誤降低的方向迭代地調(diào)整參數(shù)或者權(quán)重構(gòu)成。


在強(qiáng)化學(xué)習(xí)中,卷積網(wǎng)絡(luò)可以被用來識(shí)別智能體的狀態(tài);例如,馬里奧所在的屏幕,或者無人機(jī)前面的地形。也就是說,它們起到了典型的圖像識(shí)別的作用。


但是卷積網(wǎng)絡(luò)在強(qiáng)化學(xué)習(xí)中能夠得到比在監(jiān)督學(xué)習(xí)中更多的解釋。在監(jiān)督學(xué)習(xí)中,網(wǎng)絡(luò)給一副圖片賦予一個(gè)標(biāo)簽;也就是說,它將名稱映射到像素上。


事實(shí)上,卷積網(wǎng)絡(luò)會(huì)根據(jù)概率對(duì)最適合圖片的標(biāo)簽進(jìn)行排序。給定一張?bào)H子的圖片時(shí),卷積網(wǎng)絡(luò)可能會(huì)以 80% 的可能性將其判斷為驢子,以 50% 的概率將其判斷為馬,以 30% 的概率將其判斷為狗。


在強(qiáng)化學(xué)習(xí)中,給定代表一個(gè)狀態(tài)的圖片,卷積網(wǎng)絡(luò)可以給出一個(gè)在這個(gè)狀態(tài)下可以采取的行動(dòng)的排序;例如,它可能預(yù)測(cè)運(yùn)行向右跑的動(dòng)作會(huì)得 5 分,跳躍的動(dòng)作會(huì)得 7 分,向左跑會(huì)得 0 分。


給期望的獎(jiǎng)勵(lì)賦予價(jià)值之后,Q 函數(shù)就會(huì)簡(jiǎn)單地選擇具有最高的 Q 價(jià)值的狀態(tài)-行動(dòng)對(duì)。


在強(qiáng)化學(xué)習(xí)的起始階段,神經(jīng)網(wǎng)絡(luò)的參數(shù)可能會(huì)被隨機(jī)初始化。利用從環(huán)境中獲得的反饋,神經(jīng)網(wǎng)絡(luò)可以使用期望獎(jiǎng)勵(lì)和實(shí)際獎(jiǎng)勵(lì)之間的差距來調(diào)整網(wǎng)絡(luò)參數(shù),以提升狀態(tài)-行動(dòng)對(duì)的解釋性。


這種反饋回路與監(jiān)督學(xué)習(xí)中的誤差反向傳播類似。然而,監(jiān)督學(xué)習(xí)開始的時(shí)候就已經(jīng)含有神經(jīng)網(wǎng)絡(luò)嘗試預(yù)測(cè)的真實(shí)標(biāo)簽。它的目標(biāo)就是去創(chuàng)建能夠映射不同的圖片與對(duì)應(yīng)的名字的模型。


強(qiáng)化學(xué)習(xí)依靠環(huán)境來為算法提供與每個(gè)新行動(dòng)對(duì)應(yīng)的標(biāo)量數(shù)字。環(huán)境返回的獎(jiǎng)勵(lì)可以使變化的、延遲的或者受已知變量影響的,這會(huì)給反饋回路引入噪聲。


這會(huì)得到關(guān)于 Q 函數(shù)的更完整的表達(dá),它不僅僅考慮由一個(gè)行動(dòng)產(chǎn)生的即時(shí)獎(jiǎng)勵(lì),而且還能夠?qū)ⅹ?jiǎng)勵(lì)順序地延遲到幾個(gè)時(shí)間步長(zhǎng)的深度。


就像人類一樣,Q 函數(shù)也是遞歸的。就像調(diào)用濕體函數(shù) human() 一樣,human() 函數(shù)自身又包含另一個(gè) human() 函數(shù),我們是里面的所有結(jié)果,給一個(gè)給定的狀態(tài)-行動(dòng)對(duì)調(diào)用 Q 函數(shù),需要我們調(diào)用一個(gè)嵌套的 Q 函數(shù)來預(yù)測(cè)下一個(gè)狀態(tài)的價(jià)值,它反過來又要依賴之后的狀態(tài)的 Q 函數(shù),以此類推。


代碼


RL4J 的例子在這里可以獲得(https://github.com/deeplearning4j/dl4j-examples/tree/master/rl4j-examples)。?


package org.deeplearning4j.examples.rl4j;

import java.io.IOException;
import org.deeplearning4j.rl4j.learning.HistoryProcessor;
import org.deeplearning4j.rl4j.learning.async.a3c.discrete.A3CDiscrete;
import org.deeplearning4j.rl4j.learning.async.a3c.discrete.A3CDiscreteConv;
import org.deeplearning4j.rl4j.mdp.ale.ALEMDP;
import org.deeplearning4j.rl4j.network.ac.ActorCriticFactoryCompGraphStdConv;
import org.deeplearning4j.rl4j.util.DataManager;

/**
* @author saudet
*
* Main example for A3C with The Arcade Learning Environment (ALE)
*
*/
public class A3CALE {

? ?public static HistoryProcessor.Configuration ALE_HP =
? ? ? ? ? ?new HistoryProcessor.Configuration(
? ? ? ? ? ? ? ? ? ?4, ? ? ? //History length
? ? ? ? ? ? ? ? ? ?84, ? ? ?//resize width
? ? ? ? ? ? ? ? ? ?110, ? ? //resize height
? ? ? ? ? ? ? ? ? ?84, ? ? ?//crop width
? ? ? ? ? ? ? ? ? ?84, ? ? ?//crop height
? ? ? ? ? ? ? ? ? ?0, ? ? ? //cropping x offset
? ? ? ? ? ? ? ? ? ?0, ? ? ? //cropping y offset
? ? ? ? ? ? ? ? ? ?4 ? ? ? ?//skip mod (one frame is picked every x
? ? ? ? ? ?)
;

? ?public static A3CDiscrete.A3CConfiguration ALE_A3C =
? ? ? ? ? ?new A3CDiscrete.A3CConfiguration(
? ? ? ? ? ? ? ? ? ?123, ? ? ? ? ? ?//Random seed
? ? ? ? ? ? ? ? ? ?10000, ? ? ? ? ?//Max step By epoch
? ? ? ? ? ? ? ? ? ?8000000, ? ? ? ?//Max step
? ? ? ? ? ? ? ? ? ?8, ? ? ? ? ? ? ?//Number of threads
? ? ? ? ? ? ? ? ? ?32, ? ? ? ? ? ? //t_max
? ? ? ? ? ? ? ? ? ?500, ? ? ? ? ? ?//num step noop warmup
? ? ? ? ? ? ? ? ? ?0.1, ? ? ? ? ? ?//reward scaling
? ? ? ? ? ? ? ? ? ?0.99, ? ? ? ? ? //gamma
? ? ? ? ? ? ? ? ? ?10.0 ? ? ? ? ? ?//td-error clipping
? ? ? ? ? ?)
;

? ?public static final ActorCriticFactoryCompGraphStdConv.Configuration ALE_NET_A3C =
? ? ? ? ? ?new ActorCriticFactoryCompGraphStdConv.Configuration(
? ? ? ? ? ? ? ? ? ?0.00025, //learning rate
? ? ? ? ? ? ? ? ? ?0.000, ? //l2 regularization
? ? ? ? ? ? ? ? ? ?null, null, false
? ? ? ? ? ?)
;

? ?public static void main(String[] args) throws IOException {

? ? ? ?//record the training data in rl4j-data in a new folder
? ? ? ?DataManager manager = new DataManager(true);

? ? ? ?//setup the emulation environment through ALE, you will need a ROM file
? ? ? ?ALEMDP mdp = null;
? ? ? ?try {
? ? ? ? ? ?mdp = new ALEMDP("pong.bin");
? ? ? ?} catch (UnsatisfiedLinkError e) {
? ? ? ? ? ?System.out.println("To run this example, uncomment the \"ale-platform\" dependency in the pom.xml file.");
? ? ? ?}

? ? ? ?//setup the training
? ? ? ?A3CDiscreteConv<ALEMDP.GameScreen> a3c = new A3CDiscreteConv(mdp, ALE_NET_A3C, ALE_HP, ALE_A3C, manager);

? ? ? ?//start the training
? ? ? ?a3c.train();

? ? ? ?//save the model at the end
? ? ? ?a3c.getPolicy().save("ale-a3c.model");

? ? ? ?//close the ALE env
? ? ? ?mdp.close();
? ?}
}


原文鏈接:https://deeplearning4j.org/deepreinforcementlearning



Yoshua Bengio團(tuán)隊(duì)最新強(qiáng)化學(xué)習(xí)研究:智能體通過與環(huán)境交互,「分離」變化的獨(dú)立可控因素


原文來源:arXiv

作者:Valentin Thomas、Emmanuel Bengio?、William Fedus、Jules Pondard、Philippe Beaudoin、Hugo Larochelle、Joelle Pineau、Doina Precup、Yoshua Bengio


「雷克世界」編譯:嗯~阿童木呀


人們普遍認(rèn)為,一個(gè)良好的表征(representation)在于能夠?qū)ψ兓臐撛诳山忉屝砸蛩剡M(jìn)行分離。然而,對(duì)于什么樣的訓(xùn)練框架可以實(shí)現(xiàn)這一目標(biāo),仍然是一個(gè)懸而未決的問題。


盡管以往的大多數(shù)研究重點(diǎn)主要集中于靜態(tài)設(shè)置(例如,使用圖像),但我們假設(shè),如果允許學(xué)習(xí)者與其環(huán)境進(jìn)行交互的話,就可以從中發(fā)現(xiàn)一些因果因素。


智能體可以嘗試不同的操作并觀察其所產(chǎn)生的效果。更具體地說,我們假設(shè)這些因素中的一些與環(huán)境的某些可獨(dú)立控制的方面相對(duì)應(yīng),即對(duì)于環(huán)境中的每一個(gè)這樣的方面來說,都存在一個(gè)策略和可學(xué)習(xí)的特征,從而使得該策略可以在該特征中產(chǎn)生相應(yīng)的變化,同時(shí)對(duì)其他特征進(jìn)行最小程度的更改,從而對(duì)所觀察到數(shù)據(jù)中的統(tǒng)計(jì)變化進(jìn)行解釋。


我們提出了一個(gè)特定的目標(biāo)函數(shù)以找到這些因素,并通過實(shí)驗(yàn)驗(yàn)證,它確實(shí)可以在沒有任何外部獎(jiǎng)勵(lì)信號(hào)的情況下,對(duì)環(huán)境的獨(dú)立可控制方面進(jìn)行分離。


在解決強(qiáng)化學(xué)習(xí)問題時(shí),想要將好的結(jié)果從隨機(jī)策略中區(qū)分開來往往需要具有正確的特征表征即使使用函數(shù)近似(function approximation),相較于盲目地去嘗試解決給定的問題,學(xué)習(xí)正確的特征將可能會(huì)帶來更快的收斂性(Jaderberg 等人于2016年提出)。



?我們架構(gòu)的計(jì)算模型。其中,st是第一個(gè)狀態(tài),由其編碼ht和噪聲分布z產(chǎn)生。φ是生成的,φ用于對(duì)在環(huán)境中運(yùn)行的策略πφ進(jìn)行計(jì)算。序列ht、ht’通過選擇性損失和ht上的可選擇性自編碼器損失,用于對(duì)我們的模型進(jìn)行更新。


在監(jiān)督學(xué)習(xí)研究(Bengio于2009年、Goodfellow等人于2016年提出)和強(qiáng)化學(xué)習(xí)研究(Dayan于1993年、Precup于2000年提出)領(lǐng)域中存在著這樣一種觀點(diǎn),學(xué)習(xí)一個(gè)好的,而非新的表征對(duì)于解決大多數(shù)現(xiàn)實(shí)世界中的問題來說具有至關(guān)重要的作用。


而另一種觀點(diǎn)是,這些表征通常不需要被顯式地進(jìn)行學(xué)習(xí),這種學(xué)習(xí)可以通過內(nèi)部獎(jiǎng)勵(lì)機(jī)制來進(jìn)行引導(dǎo),而這種獎(jiǎng)勵(lì)機(jī)制通常稱為“內(nèi)在動(dòng)機(jī)(intrinsic motivation)”(Barto等人、Oudeyer和Kaplan于2009年、Salge等人于2013年、Gregor等人于2017年提出)。


在以前研究成果的基礎(chǔ)上(Thomas等人于2017年提出),我們構(gòu)建了一個(gè)表征學(xué)習(xí)機(jī)制,它與內(nèi)在動(dòng)機(jī)機(jī)制和因果關(guān)系密切相關(guān)。該機(jī)制顯式地將智能體對(duì)其環(huán)境的控制與智能體所學(xué)習(xí)到的環(huán)境表征聯(lián)系起來。更具體地說,這種機(jī)制的假設(shè)是,環(huán)境中變化的潛在因素大部分可以由另一個(gè)變化的智能體獨(dú)立控制。



(a)對(duì)隨機(jī)可控因素φ進(jìn)行采樣時(shí),對(duì)1000次變化h’—h及其核密度估計(jì)的采樣。我們觀察到我們的算法在4種主要模式下對(duì)這些表征進(jìn)行分離,每種模式都對(duì)應(yīng)于智能體所實(shí)際采取的行動(dòng)


(b)潛在空間中的分離結(jié)構(gòu)。x軸和y軸是分離的,這樣我們就可以通過查看其潛在的編碼h = f(s)來恢復(fù)任何觀測(cè)值中智能體的x和y位置。當(dāng)智能體位于橙色塊上時(shí),這個(gè)網(wǎng)格上的缺失點(diǎn)其所不能到達(dá)的唯一位置。


我們?yōu)檫@個(gè)機(jī)制提出了一個(gè)通用且容易計(jì)算的目標(biāo),可以用于任何一個(gè)使用函數(shù)近似學(xué)習(xí)潛在空間的強(qiáng)化學(xué)習(xí)算法中。


我們的研究結(jié)果表明,我們的機(jī)制可以推動(dòng)模型學(xué)習(xí)以一種有意義的方式對(duì)輸入進(jìn)行分離,并學(xué)習(xí)對(duì)要采取多種行動(dòng)才能得以的改變的因素進(jìn)行表征,此外,研究結(jié)果還表明,這些表征可以在已學(xué)習(xí)的潛在空間中執(zhí)行基于模型的預(yù)測(cè),而不是在低級(jí)輸入空間(例如像素)中。


學(xué)習(xí)分離表征


Hinton和Salakhutdinov于2006年提出的,用于學(xué)習(xí)表征的規(guī)范的深度學(xué)習(xí)框架就是一個(gè)典型的自編碼框架。然而,這并不一定意味著已學(xué)習(xí)的潛在空間會(huì)對(duì)變化的不同因素進(jìn)行分離。出于這些問題的考慮,我們提出了本文中所闡述的方法。



(a)智能體所實(shí)際完成的3步軌跡;


(b)空間φ(h0, z), z ~ N (0, 1)的PCA視圖。每個(gè)箭頭指向由不同的φ所形成的預(yù)測(cè)Tθ(h0,φ)的重構(gòu)。


(a)中的策略使用的是綠色箭頭開始處的φ。需要注意的是它的預(yù)測(cè)是如何對(duì)實(shí)際的最終狀態(tài)進(jìn)行準(zhǔn)確預(yù)測(cè)的。


其他作者提出了一些用于分離變化的潛在因素的機(jī)制。諸如變分自編碼器(Kingma和Welling于2014年提出)、生成對(duì)抗網(wǎng)絡(luò)(Goodfellow等人于2014年提出)或非線性版本的ICA(Dinh等人于2014年、Hyvarinen和Morioka于2016年提出)等之類的許多深度生成式模型,試圖通過假設(shè)它們的聯(lián)合分布(對(duì)所觀察到的s進(jìn)行邊緣化處理)是因式分解后的結(jié)果(即它們是邊緣獨(dú)立的),對(duì)變化的潛在因素進(jìn)行分離。


在本文中,我們沿著另一個(gè)方向進(jìn)行探討,試圖利用學(xué)習(xí)智能體在環(huán)境中行動(dòng)的能力,以便對(duì)表征施加進(jìn)一步的約束。我們假設(shè),交互是學(xué)習(xí)如何對(duì)智能體所面臨的觀察流的各種因果因素進(jìn)行分離的關(guān)鍵所在,并且這種學(xué)習(xí)可以在一種無監(jiān)督的方式下完成。


可以這樣說,到目前為止,將表征延展到模型的獨(dú)立可控特征中取得了一些令人鼓舞的成功。 我們的特征的可視化清楚地展示了簡(jiǎn)單環(huán)境中的不同可控方面,但是,我們的學(xué)習(xí)算法也存在一定的缺陷,即它是不穩(wěn)定的。甚至可以這樣說,我們方法的優(yōu)勢(shì)似乎也可能是它的弱點(diǎn)所在,因?yàn)橄惹暗莫?dú)立迫使已學(xué)習(xí)表征中的關(guān)注點(diǎn)進(jìn)行非常嚴(yán)格地分離,而這些應(yīng)該是可以緩和的。


與此同時(shí),一些不穩(wěn)定性的來源似乎也減緩了我們的進(jìn)程:學(xué)習(xí)一個(gè)有關(guān)可控方面的條件分布,往往會(huì)產(chǎn)生少于預(yù)期的模式。學(xué)習(xí)隨機(jī)策略,通常會(huì)非常樂觀地收斂域一個(gè)單一的動(dòng)作中,由于模型具有多個(gè)部分因此往往需要對(duì)許多超參數(shù)進(jìn)行調(diào)整。盡管如此,對(duì)于我們目前所采取的方法和措施,我們?nèi)匀粓?bào)以希望。分離會(huì)發(fā)生,但對(duì)我們的優(yōu)化過程以及我們目前的目標(biāo)函數(shù)進(jìn)行詳細(xì)的了解將是推動(dòng)進(jìn)一步發(fā)展的關(guān)鍵點(diǎn)所在。


人工智能賽博物理操作系統(tǒng)

AI-CPS OS

人工智能賽博物理操作系統(tǒng)新一代技術(shù)+商業(yè)操作系統(tǒng)“AI-CPS OS:云計(jì)算+大數(shù)據(jù)+物聯(lián)網(wǎng)+區(qū)塊鏈+人工智能)分支用來的今天,企業(yè)領(lǐng)導(dǎo)者必須了解如何將“技術(shù)”全面滲入整個(gè)公司、產(chǎn)品等“商業(yè)”場(chǎng)景中,利用AI-CPS OS形成數(shù)字化+智能化力量,實(shí)現(xiàn)行業(yè)的重新布局、企業(yè)的重新構(gòu)建和自我的煥然新生。


AI-CPS?OS的真正價(jià)值并不來自構(gòu)成技術(shù)或功能,而是要以一種傳遞獨(dú)特競(jìng)爭(zhēng)優(yōu)勢(shì)的方式將自動(dòng)化+信息化、智造+產(chǎn)品+服務(wù)數(shù)據(jù)+分析一體化,這種整合方式能夠釋放新的業(yè)務(wù)和運(yùn)營(yíng)模式。如果不能實(shí)現(xiàn)跨功能的更大規(guī)模融合,沒有顛覆現(xiàn)狀的意愿,這些將不可能實(shí)現(xiàn)。


領(lǐng)導(dǎo)者無法依靠某種單一戰(zhàn)略方法來應(yīng)對(duì)多維度的數(shù)字化變革。面對(duì)新一代技術(shù)+商業(yè)操作系統(tǒng)AI-CPS OS顛覆性的數(shù)字化+智能化力量,領(lǐng)導(dǎo)者必須在行業(yè)、企業(yè)與個(gè)人這三個(gè)層面都保持領(lǐng)先地位:

  • 重新行業(yè)布局:你的世界觀要怎樣改變才算足夠?你必須對(duì)行業(yè)典范進(jìn)行怎樣的反思?

  • 重新構(gòu)建企業(yè):你的企業(yè)需要做出什么樣的變化?你準(zhǔn)備如何重新定義你的公司?

  • 重新打造自己:你需要成為怎樣的人?要重塑自己并在數(shù)字化+智能化時(shí)代保有領(lǐng)先地位,你必須如何去做?

  • AI-CPS OS是數(shù)字化智能化創(chuàng)新平臺(tái),設(shè)計(jì)思路是將大數(shù)據(jù)、物聯(lián)網(wǎng)、區(qū)塊鏈和人工智能等無縫整合在云端,可以幫助企業(yè)將創(chuàng)新成果融入自身業(yè)務(wù)體系,實(shí)現(xiàn)各個(gè)前沿技術(shù)在云端的優(yōu)勢(shì)協(xié)同。AI-CPS OS形成的數(shù)字化+智能化力量與行業(yè)、企業(yè)及個(gè)人三個(gè)層面的交叉,形成了領(lǐng)導(dǎo)力模式,使數(shù)字化融入到領(lǐng)導(dǎo)者所在企業(yè)與領(lǐng)導(dǎo)方式的核心位置:

  • 精細(xì)種力量能夠使人在更加真實(shí)、細(xì)致的層面觀察與感知現(xiàn)實(shí)世界和數(shù)字化世界正在發(fā)生的一切,進(jìn)而理解和更加精細(xì)地進(jìn)行產(chǎn)品個(gè)性化控制、微觀業(yè)務(wù)場(chǎng)景事件和結(jié)果控制。

  • 智能:模型隨著時(shí)間(數(shù)據(jù))的變化而變化,整個(gè)系統(tǒng)就具備了智能(自學(xué)習(xí))的能力。

  • 高效:企業(yè)需要建立實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)的數(shù)據(jù)采集傳輸、模型預(yù)測(cè)和響應(yīng)決策能力,這樣智能就從批量性、階段性的行為變成一個(gè)可以實(shí)時(shí)觸達(dá)的行為。

  • 不確定性:數(shù)字化變更顛覆和改變了領(lǐng)導(dǎo)者曾經(jīng)仰仗的思維方式、結(jié)構(gòu)和實(shí)踐經(jīng)驗(yàn),其結(jié)果就是形成了復(fù)合不確定性這種顛覆性力量。主要的不確定性蘊(yùn)含于三個(gè)領(lǐng)域:技術(shù)、文化、制度。

  • 邊界模糊:數(shù)字世界與現(xiàn)實(shí)世界的不斷融合成CPS不僅讓人們所知行業(yè)的核心產(chǎn)品、經(jīng)濟(jì)學(xué)定理和可能性都產(chǎn)生了變化,還模糊了不同行業(yè)間的界限。這種效應(yīng)正在向生態(tài)系統(tǒng)、企業(yè)、客戶、產(chǎn)品快速蔓延。

  • AI-CPS OS形成的數(shù)字化+智能化力量通過三個(gè)方式激發(fā)經(jīng)濟(jì)增長(zhǎng):

  • 創(chuàng)造虛擬勞動(dòng)力,承擔(dān)需要適應(yīng)性和敏捷性的復(fù)雜任務(wù),即“智能自動(dòng)化”,以區(qū)別于傳統(tǒng)的自動(dòng)化解決方案;

  • 對(duì)現(xiàn)有勞動(dòng)力和實(shí)物資產(chǎn)進(jìn)行有利的補(bǔ)充和提升,提高資本效率

  • 人工智能的普及,將推動(dòng)多行業(yè)的相關(guān)創(chuàng)新,開辟嶄新的經(jīng)濟(jì)增長(zhǎng)空間


  • 給決策制定者和商業(yè)領(lǐng)袖的建議:

  • 超越自動(dòng)化,開啟新創(chuàng)新模式:利用具有自主學(xué)習(xí)和自我控制能力的動(dòng)態(tài)機(jī)器智能,為企業(yè)創(chuàng)造新商機(jī);

  • 迎接新一代信息技術(shù),迎接人工智能:無縫整合人類智慧與機(jī)器智能,重新

    評(píng)估未來的知識(shí)和技能類型;

  • 制定道德規(guī)范:切實(shí)為人工智能生態(tài)系統(tǒng)制定道德準(zhǔn)則,并在智能機(jī)器的開

    發(fā)過程中確定更加明晰的標(biāo)準(zhǔn)和最佳實(shí)踐;

  • 重視再分配效應(yīng):對(duì)人工智能可能帶來的沖擊做好準(zhǔn)備,制定戰(zhàn)略幫助面臨

    較高失業(yè)風(fēng)險(xiǎn)的人群;

  • 開發(fā)數(shù)字化+智能化企業(yè)所需新能力:員工團(tuán)隊(duì)需要積極掌握判斷、溝通及想象力和創(chuàng)造力等人類所特有的重要能力。對(duì)于中國(guó)企業(yè)來說,創(chuàng)造兼具包容性和多樣性的文化也非常重要。


  • 子曰:“君子和而不同,小人同而不和?!??《論語·子路》云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、區(qū)塊鏈和 人工智能,像君子一般融合,一起體現(xiàn)科技就是生產(chǎn)力。


    如果說上一次哥倫布地理大發(fā)現(xiàn),拓展的是人類的物理空間。那么這一次地理大發(fā)現(xiàn),拓展的就是人們的數(shù)字空間。在數(shù)學(xué)空間,建立新的商業(yè)文明,從而發(fā)現(xiàn)新的創(chuàng)富模式,為人類社會(huì)帶來新的財(cái)富空間。云計(jì)算,大數(shù)據(jù)、物聯(lián)網(wǎng)和區(qū)塊鏈,是進(jìn)入這個(gè)數(shù)字空間的船,而人工智能就是那船上的帆,哥倫布之帆!


    新一代技術(shù)+商業(yè)的人工智能賽博物理操作系統(tǒng)AI-CPS OS作為新一輪產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力,將進(jìn)一步釋放歷次科技革命和產(chǎn)業(yè)變革積蓄的巨大能量,并創(chuàng)造新的強(qiáng)大引擎。重構(gòu)生產(chǎn)、分配、交換、消費(fèi)等經(jīng)濟(jì)活動(dòng)各環(huán)節(jié),形成從宏觀到微觀各領(lǐng)域的智能化新需求,催生新技術(shù)、新產(chǎn)品、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式。引發(fā)經(jīng)濟(jì)結(jié)構(gòu)重大變革,深刻改變?nèi)祟惿a(chǎn)生活方式和思維模式,實(shí)現(xiàn)社會(huì)生產(chǎn)力的整體躍升。



    產(chǎn)業(yè)智能官??AI-CPS


    用“人工智能賽博物理操作系統(tǒng)新一代技術(shù)+商業(yè)操作系統(tǒng)“AI-CPS OS”:云計(jì)算+大數(shù)據(jù)+物聯(lián)網(wǎng)+區(qū)塊鏈+人工智能)在場(chǎng)景中構(gòu)建狀態(tài)感知-實(shí)時(shí)分析-自主決策-精準(zhǔn)執(zhí)行-學(xué)習(xí)提升的認(rèn)知計(jì)算和機(jī)器智能;實(shí)現(xiàn)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)、DT驅(qū)動(dòng)業(yè)務(wù)、價(jià)值創(chuàng)新創(chuàng)造的產(chǎn)業(yè)互聯(lián)生態(tài)鏈。


    長(zhǎng)按上方二維碼關(guān)注微信公眾號(hào):?AI-CPS,更多信息回復(fù):


    新技術(shù)“云計(jì)算”、“大數(shù)據(jù)”、“物聯(lián)網(wǎng)”、“區(qū)塊鏈”、“人工智能新產(chǎn)業(yè):智能制造”、智能金融”、“智能零售”、“智能駕駛”、智能城市新模式:“財(cái)富空間、“工業(yè)互聯(lián)網(wǎng)”、“數(shù)據(jù)科學(xué)家”、“賽博物理系統(tǒng)CPS”、“供應(yīng)鏈金融”


    官方網(wǎng)站:AI-CPS.NET


    本文系“產(chǎn)業(yè)智能官”(公眾號(hào)ID:AI-CPS)收集整理,轉(zhuǎn)載請(qǐng)注明出處!



    版權(quán)聲明產(chǎn)業(yè)智能官(公眾號(hào)ID:AI-CPS推薦的文章,除非確實(shí)無法確認(rèn),我們都會(huì)注明作者和來源。部分文章推送時(shí)未能與原作者取得聯(lián)系。若涉及版權(quán)問題,煩請(qǐng)?jiān)髡呗?lián)系我們,與您共同協(xié)商解決。聯(lián)系、投稿郵箱:erp_vip@hotmail.com






    總結(jié)

    以上是生活随笔為你收集整理的【强化学习】强化学习的基本概念与代码实现的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。