日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【强化学习】从强化学习基础概念开始

發(fā)布時(shí)間:2025/3/20 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【强化学习】从强化学习基础概念开始 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在開(kāi)始探索強(qiáng)化學(xué)習(xí)的諸多算法之前,我們先來(lái)了解一下它所涉及到的具體概念。這些概念將作為基石,一直陪伴著我們的學(xué)習(xí)之旅。為了能夠?qū)⑦@些概念熟記在心,我們這一期做成強(qiáng)化學(xué)習(xí)概念小卡片,一張一張給大家展示和幫助大家理解。

作者&編輯 | 行健 言有三

1 基礎(chǔ)概念怎么學(xué)

經(jīng)常有同學(xué)拿到一本書(shū)不知道該怎么學(xué)習(xí),尤其是涉及到理工科的教材,往往充滿了各種新的名詞和概念,章節(jié)之間有的彼此關(guān)聯(lián),有的彼此獨(dú)立。面對(duì)這樣一本類(lèi)似于“概念網(wǎng)絡(luò)”組織起來(lái)的書(shū),如何入手更快呢? 我們知道,書(shū)籍的寫(xiě)作過(guò)程是一章一章完成的,作者在大腦里構(gòu)建的知識(shí)地圖,或者說(shuō)知識(shí)網(wǎng)絡(luò)確是一個(gè)完整的整體,作者在開(kāi)始寫(xiě)書(shū)的時(shí)候就對(duì)整個(gè)知識(shí)網(wǎng)絡(luò)有全貌的理解和認(rèn)識(shí)。在這樣的一個(gè)知識(shí)網(wǎng)絡(luò)里面,會(huì)有很多不同的知識(shí)節(jié)點(diǎn),作為整個(gè)知識(shí)體系的節(jié)點(diǎn),來(lái)連接構(gòu)建出整個(gè)知識(shí)網(wǎng)絡(luò)的全貌。雖然按部就班的去看書(shū)的每一章節(jié),可以讓你看到這些節(jié)點(diǎn)的具體內(nèi)容,但是要想把整個(gè)書(shū)的知識(shí)網(wǎng)絡(luò)熟絡(luò)于心,那需要額外的努力。俗話說(shuō),書(shū)讀百遍,其義自見(jiàn)。古人也知道,一本書(shū)讀一遍是不夠的。可是面對(duì)日益爆炸增長(zhǎng)的知識(shí),我們?nèi)绾慰焖俚恼莆兆髡叩闹R(shí)網(wǎng)絡(luò),成了我們有必要學(xué)習(xí)的“知識(shí)提取”方法論。在這里,我們提出,這些知識(shí)節(jié)點(diǎn)往往來(lái)自于概念的獨(dú)立構(gòu)建和相互融合的衍生,所以,基于這一點(diǎn),我們要關(guān)注這些位于作者知識(shí)網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn),一開(kāi)始就來(lái)學(xué)習(xí)這些基礎(chǔ)概念,從而高屋建瓴,打好基礎(chǔ)。對(duì)這些概念的辨識(shí),需要一定功力,閱讀的功力往往從翻開(kāi)書(shū)的那一刻就體現(xiàn)出來(lái)了。如果把一本書(shū)比作一位老師,目錄便是他的骨架,支撐起整本書(shū)的靈魂。在目錄里,去尋找那些你看不懂,想不清楚的名詞,這些名詞就是你需要認(rèn)知的第一份“概念草稿圖”的組成。

對(duì)于一個(gè)領(lǐng)域的知識(shí)而言,無(wú)非分為上圖所示的幾個(gè)基本方面的內(nèi)容。知識(shí)體系中有哪些是事實(shí)(fact)作為依據(jù),有哪些是基于事實(shí)進(jìn)行的分析(analysis)和分析,有哪些作為過(guò)程(process),包含事實(shí)本身的過(guò)程和分析處理加工事實(shí)的過(guò)程,有哪些是基于這些事實(shí)(fact)和過(guò)程(process)進(jìn)行假設(shè),定義的概念(concept),從而產(chǎn)生推理和結(jié)論,最終構(gòu)建出新的對(duì)象( project ) 或者實(shí)體(instance),或者新的學(xué)科(subject)。在此基礎(chǔ)上,當(dāng)其他人獲取和繼承到這份知識(shí)后,會(huì)去創(chuàng)造出價(jià)值,這些價(jià)值包含創(chuàng)新的idea和情緒思維的體驗(yàn),更包含藝術(shù)(art)層面的,研究(study)層面的,理論(theory)層面的,學(xué)術(shù)(scholar)層面的,以及個(gè)體的成長(zhǎng)(growth)和提升方面。同時(shí)知識(shí)在繼承過(guò)程中本身也會(huì)完成一次新的衍生和增長(zhǎng)(growth)。

我們將這些對(duì)知識(shí)本身的討論和學(xué)習(xí),叫做“元學(xué)習(xí)”。元學(xué)習(xí)能夠幫助我們?nèi)肽救值念I(lǐng)會(huì)知識(shí)精華,將知識(shí)薈萃提取成我們的自己的精神感悟和思想認(rèn)識(shí),而不是記憶中的細(xì)枝末節(jié)。如果你還在記憶知識(shí),那很多情況,你只能夠簡(jiǎn)單的應(yīng)用,還達(dá)不到對(duì)知識(shí)進(jìn)行創(chuàng)造性的衍生和自我獨(dú)特的見(jiàn)解。當(dāng)然,我們還是推崇刻苦練習(xí)基本功,在繼承知識(shí)這件事情上,從來(lái)沒(méi)有捷徑,只是效率和境界的不同。

接下來(lái),我們對(duì)強(qiáng)化學(xué)習(xí)的概念體系進(jìn)行結(jié)構(gòu)和認(rèn)識(shí),將這些知識(shí)放進(jìn)我們的知識(shí)框架的背包當(dāng)中,從而方便我們后期取用、組合、應(yīng)用、以及產(chǎn)生新的創(chuàng)造,達(dá)到學(xué)習(xí)知識(shí)的終極目標(biāo)。

2 強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念

(1) 系統(tǒng)

什么是系統(tǒng)?系統(tǒng)是一個(gè)抽象定義。它所對(duì)應(yīng)的具體實(shí)體可以是任何組成的物質(zhì)存在。強(qiáng)調(diào)物質(zhì)存在是系統(tǒng)存在的必要前提。系統(tǒng)大到星系宇宙,小到細(xì)胞、分子、原子。我們對(duì)所研究的對(duì)象作出邊界定義后,就構(gòu)成了系統(tǒng)。

(2) 環(huán)境

環(huán)境是排除系統(tǒng)研究實(shí)體或研究變量之外的部分。在強(qiáng)化學(xué)習(xí)中,環(huán)境指排除智能體之外的所有組成。

(3) 智能體

智能體是強(qiáng)化學(xué)習(xí)中的主要研究對(duì)象,我們希望智能體能夠通過(guò)環(huán)境的檢驗(yàn)來(lái)實(shí)現(xiàn)系統(tǒng)的目標(biāo)。

(4) 交互

交互專(zhuān)指智能體與環(huán)境的交互。目前強(qiáng)化學(xué)習(xí)中的研究中,多數(shù)系統(tǒng)與外部沒(méi)有直接交互。在一些游戲戰(zhàn)中,人類(lèi)玩家可以看作一個(gè)外部系統(tǒng)和環(huán)境進(jìn)行交互,聯(lián)合智能體一起對(duì)環(huán)境進(jìn)行探索。可以認(rèn)為人類(lèi)玩家是系統(tǒng)外部角色,不過(guò)在改變和影響系統(tǒng)本身方面,人類(lèi)玩家和智能體是一樣的。這一點(diǎn),你可以理解為在系統(tǒng)之外“沒(méi)有上帝存在”。

(5) 動(dòng)作

動(dòng)作指智能體和環(huán)境產(chǎn)生交互的所有行為的集合。

(6) 狀態(tài)

狀態(tài)指智能體當(dāng)前的所處的環(huán)境情況,自身歷史狀態(tài)情況,以及目標(biāo)完成情況。這里目標(biāo)是指系統(tǒng)在開(kāi)始構(gòu)建之初,為智能體所定義的目標(biāo)。

(7) 策略

策略是說(shuō)智能體在允許的動(dòng)作集合中,通過(guò)對(duì)動(dòng)作進(jìn)行組合,先后使用次序的調(diào)整,從而探索出不同的使用動(dòng)作組合和次序來(lái)實(shí)現(xiàn)目標(biāo)。換言之,如何從當(dāng)前的狀態(tài),通過(guò)動(dòng)作,轉(zhuǎn)換到最佳的下一個(gè)狀態(tài)。

(8) 試錯(cuò)

試錯(cuò)是早期強(qiáng)化學(xué)習(xí)的主要方向。通過(guò)試錯(cuò)來(lái)探索最優(yōu)策略。目前強(qiáng)化學(xué)習(xí)研究的方向轉(zhuǎn)為獎(jiǎng)勵(lì)函數(shù)的優(yōu)化。

(9) 記憶

智能體對(duì)過(guò)往經(jīng)驗(yàn)的總結(jié)歸納和采用的方式。

(10) 獎(jiǎng)勵(lì)

獲得環(huán)境正反饋后,智能體獲得環(huán)境中設(shè)計(jì)的獎(jiǎng)勵(lì),另外,還有一種獎(jiǎng)勵(lì)就是對(duì)環(huán)境本身的適應(yīng)和開(kāi)發(fā)。

(11) 價(jià)值函數(shù)

如何做才能最大化獎(jiǎng)勵(lì)。價(jià)值函數(shù)始終是約束最優(yōu)策略的產(chǎn)生和策略探索的方式。

(12) 探索

去嘗試找到不同策略下的獎(jiǎng)勵(lì)的過(guò)程。

(13) 應(yīng)用

利用已有的探索成果來(lái)和環(huán)境交互。

(14) 馬爾科夫決策過(guò)程

馬爾科夫決策過(guò)程是包含動(dòng)作,轉(zhuǎn)換函數(shù),獎(jiǎng)勵(lì)的過(guò)程。

在有了這些基礎(chǔ)概念之后,我們需要對(duì)這些概念進(jìn)行組合,或者改變順序的安排來(lái)定義一套具體的算法。在之后的專(zhuān)欄中,我們要學(xué)會(huì)寫(xiě)出算法的偽代碼。這些概念就是偽代碼的基礎(chǔ)。另外,符號(hào)化和嚴(yán)格的數(shù)學(xué)定義也非常重要,之后,數(shù)學(xué)符號(hào)的引入和證明都將推出,但這些定義往往和理論宗派有關(guān),不同的科學(xué)家對(duì)這些問(wèn)題的看法和角度并不太一樣。下周我們會(huì)分享這些內(nèi)容,數(shù)學(xué)定義也會(huì)相繼給出。

3 強(qiáng)化學(xué)習(xí)中的六類(lèi)問(wèn)題

雖然強(qiáng)化學(xué)習(xí)給出了一個(gè)非常通用的解決問(wèn)題的思路,但是面對(duì)具體問(wèn)題,在不同場(chǎng)景下,強(qiáng)化學(xué)習(xí)又會(huì)有不同的側(cè)重。這些側(cè)重點(diǎn)主要體現(xiàn)在一下六類(lèi)問(wèn)題的不同探索點(diǎn)上:

(1) Learning

如何通過(guò)學(xué)習(xí)去解決問(wèn)題,智能體從未知的環(huán)境中通過(guò)策略學(xué)習(xí)提高。

(2) Planing

如何通過(guò)規(guī)劃去解決問(wèn)題,已知基于環(huán)境的模型,智能體通過(guò)模型進(jìn)行計(jì)算,并且不需要外部交互,智能體能夠提高策略的表現(xiàn)。這類(lèi)問(wèn)題的典型案例是 alphaGo。在已知圍棋的規(guī)則下,去尋找最優(yōu)結(jié)果。

(3) Explorition

如何通過(guò)探索去解決問(wèn)題,智能體通過(guò)試錯(cuò)獲取環(huán)境信息。


(4) Exploitation

如何利用已知信息去解決問(wèn)題,智能體利用獲取的信息獲取最大獎(jiǎng)勵(lì)。

(5) prediction

如何借助預(yù)測(cè)未來(lái)去解決問(wèn)題,通過(guò)評(píng)估和預(yù)測(cè)未來(lái),給出最佳策略。

(6) Control

如何通過(guò)控制未來(lái)去解決問(wèn)題,通過(guò)控制和改變未來(lái),找到最佳策略。

六類(lèi)問(wèn)題本身并不獨(dú)立,我們?cè)谶@里把六類(lèi)問(wèn)題抽象出來(lái)看,每類(lèi)問(wèn)題下都有很多經(jīng)典的應(yīng)用。后續(xù)我們介紹具體算法的時(shí)候會(huì)一一討論和學(xué)習(xí),反復(fù)強(qiáng)化。

4 強(qiáng)化學(xué)習(xí)中的算法

有了上述六類(lèi)問(wèn)題,我們?cè)倏纯慈绾瓮ㄟ^(guò)方法或者方法的組合去定義解決問(wèn)題的算法。

借助是否使用了Policy、Value fuction、Model 不同的方法組合,強(qiáng)化學(xué)習(xí)算法可以分為Value-based,Policy-Based,Model-Based,Model-Free這三種。具體涉及到的算法在下圖中可以看到。

總結(jié)

最后,我們小結(jié)一下,這次我們著重分享了強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念,這些我們給出了解釋性的定義。對(duì)這概念,我們可能并沒(méi)有具體的數(shù)學(xué)定義,這在解決問(wèn)題的過(guò)程中非常不方便,那么如何將我們的概念通過(guò)數(shù)學(xué)證明的方式嚴(yán)格定義下來(lái)呢?下一節(jié),和未來(lái)許多節(jié),我們都將努力的去定義這些概念,消化和理解這些概念。

有三AI夏季劃

有三AI夏季劃進(jìn)行中,歡迎了解并加入,系統(tǒng)性成長(zhǎng)為中級(jí)CV算法工程師。

轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系

侵權(quán)必究

往期精選

  • 【強(qiáng)化學(xué)習(xí)】強(qiáng)化學(xué)習(xí)專(zhuān)欄上線,60多篇文章等你follow

  • 【強(qiáng)化學(xué)習(xí)】數(shù)據(jù)科學(xué),從計(jì)算到推理

  • 【圖像分割應(yīng)用】醫(yī)學(xué)圖像分割(一)——腦區(qū)域分割

  • 【圖像分割應(yīng)用】醫(yī)學(xué)圖像分割(二)——心臟分割

  • 【NLP】自然語(yǔ)言處理專(zhuān)欄上線,帶你一步一步走進(jìn)“人工智能技術(shù)皇冠上的明珠”。

  • 【NLP】用于語(yǔ)音識(shí)別、分詞的隱馬爾科夫模型HMM

  • 【NLP】用于序列標(biāo)注問(wèn)題的條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)

總結(jié)

以上是生活随笔為你收集整理的【强化学习】从强化学习基础概念开始的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。