EnforceLearning-在线学习-被动强化学习/评价学习
前言:
?????????畫圖挺好:深度學(xué)習(xí)進(jìn)階之路-從遷移學(xué)習(xí)到強(qiáng)化學(xué)習(xí)
? ? ? ? ?固定知識(shí)系統(tǒng):專家系統(tǒng)給出了知識(shí)節(jié)點(diǎn)和規(guī)則。專家系統(tǒng)一次性構(gòu)建成型。運(yùn)行方式為基于知識(shí)的推理。
? ? ? ? ?專家系統(tǒng)使用粒度描述準(zhǔn)確性,依靠分解粒度解決矛盾,并反饋知識(shí)和推理規(guī)則更新。專家系統(tǒng)與機(jī)器學(xué)習(xí)有本質(zhì)區(qū)別,但從機(jī)器學(xué)習(xí)的角度看,專家系統(tǒng)是一個(gè)給出了規(guī)則/函數(shù)又給了函數(shù)參數(shù)的學(xué)習(xí)模型,是一個(gè)推理系統(tǒng),其直接影響是泛化性能極差,容易導(dǎo)致矛盾。這樣,每一個(gè)專家系統(tǒng)的更新都涉及到知識(shí)節(jié)點(diǎn)(規(guī)則參數(shù))的分解重構(gòu),形式上等價(jià)于函數(shù)復(fù)合化。
? ? ? ? ?專家系統(tǒng)的此時(shí)最先進(jìn)代表方向?yàn)橹R(shí)圖譜,知識(shí)圖譜包含了特定領(lǐng)域的知識(shí)圖和基于知識(shí)圖的推理機(jī)制。專家系統(tǒng)的推理機(jī)制基于歸納法,而知識(shí)思想為遍歷。機(jī)器學(xué)習(xí)則對(duì)知識(shí)進(jìn)行歸納到假設(shè)空間,并稱之為模型。
? ? ? ? ?固定框架系統(tǒng):機(jī)器學(xué)習(xí)系統(tǒng)把知識(shí)系統(tǒng)映射到一個(gè)函數(shù)空間,由專家設(shè)置函數(shù)集形式-依據(jù)假設(shè)空間(框架)。機(jī)器學(xué)習(xí)系統(tǒng)基于定義域內(nèi)數(shù)據(jù)使用優(yōu)化方法進(jìn)行參數(shù)學(xué)習(xí)。運(yùn)行方式為數(shù)學(xué)計(jì)算。
? ? ? ? ?機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)也遵循了模式識(shí)別的一般構(gòu)架與過程。一般在特定或者廣泛的應(yīng)用領(lǐng)域,先給出目標(biāo)/評(píng)價(jià)函數(shù),以期待完成預(yù)期的結(jié)果。再依據(jù)目標(biāo)/評(píng)價(jià)函數(shù)設(shè)計(jì)滿足目標(biāo)函數(shù)的規(guī)則系統(tǒng)/數(shù)學(xué)模型,以期待能完成目標(biāo)函數(shù)所要求的功能。而應(yīng)對(duì)與每個(gè)領(lǐng)域,由實(shí)體到數(shù)學(xué)模型的轉(zhuǎn)化,產(chǎn)生了一個(gè)特征描述的專家過程,把領(lǐng)域?qū)嶓w表示為學(xué)習(xí)系統(tǒng)可以接受的輸入數(shù)據(jù)。
? ? ? ? 監(jiān)督與非監(jiān)督:機(jī)器學(xué)習(xí)劃分出的非監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí),在于是否使用了示例來(lái)指導(dǎo)數(shù)學(xué)模型的優(yōu)化過程。監(jiān)督學(xué)習(xí)給出了形式化的目標(biāo)函數(shù),形式化的數(shù)學(xué)模型,形式化的特征提取過程,并且給出了同倫映射空間模型參數(shù)的一些閾值確界,學(xué)習(xí)過程是通過閾值確界通過目標(biāo)函數(shù)約束來(lái)優(yōu)化數(shù)學(xué)模型的過程。非監(jiān)督學(xué)習(xí)沒有給出模型參數(shù)閾值,但依然有形式化的目標(biāo)函數(shù),形式化的數(shù)學(xué)模型和形式化的特征提取過程,主要通過目標(biāo)函數(shù)和數(shù)學(xué)模型精細(xì)結(jié)構(gòu)調(diào)整來(lái)達(dá)到預(yù)期目標(biāo)。
??????? 傳統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng)是一個(gè)模型逐漸優(yōu)化的學(xué)習(xí)系統(tǒng),學(xué)習(xí)的終極目標(biāo)是收斂到一個(gè)最優(yōu)解,期待是確定的數(shù)學(xué)模型。傳統(tǒng)的ML系統(tǒng)方法期待模型直接學(xué)習(xí)到模式的空間結(jié)構(gòu),并得到空間結(jié)構(gòu)的等價(jià)模型映射,相對(duì)于任意模型,學(xué)習(xí)到的模型是e精度最優(yōu)的,即是e精度最接近的,這就意味著最大的準(zhǔn)確率和最大的泛化性能。
? ? ? ? 固定數(shù)據(jù)集-環(huán)境-空間假設(shè):專家系統(tǒng)和機(jī)器學(xué)習(xí)模型依賴于人類專家的固定環(huán)境-數(shù)據(jù)定義域假設(shè)。都是一個(gè)運(yùn)行時(shí)固定系統(tǒng),即離線學(xué)習(xí)系統(tǒng),是完全的經(jīng)驗(yàn)?zāi)P?/strong>。專家系統(tǒng)通過專家構(gòu)建成型,而機(jī)器學(xué)習(xí)系統(tǒng)通過專家構(gòu)建假設(shè)空間映射到函數(shù)模型再經(jīng)過數(shù)據(jù)訓(xùn)練調(diào)優(yōu)成型,運(yùn)行時(shí)都不再修改。
? ? ? ? 在線學(xué)習(xí)系統(tǒng):以模型作為Agent,有時(shí)需要面對(duì)新的環(huán)境,或者在固有環(huán)境中存在未被專家所歸納的因素,或者定義域界限產(chǎn)生了擴(kuò)延,離線模型可能產(chǎn)生新的構(gòu)架錯(cuò)誤、經(jīng)驗(yàn)錯(cuò)誤。截?cái)噱e(cuò)誤。因此,需要模型有一定的可修正能力,產(chǎn)生在線模型。跨越到連接主義的范疇,強(qiáng)化學(xué)習(xí)是一個(gè)反饋式學(xué)習(xí)系統(tǒng),其期待是一個(gè)不斷根據(jù)反饋進(jìn)行優(yōu)化的模型,是在線學(xué)習(xí)模型。
??????? 專家系統(tǒng)由專家構(gòu)建明確的推理規(guī)則和知識(shí)節(jié)點(diǎn),模型約束為邏輯約束;監(jiān)督學(xué)習(xí)構(gòu)建明確的函數(shù)模型和模型參數(shù),模型約束為拓?fù)浼s束;非監(jiān)督學(xué)習(xí)形式與監(jiān)督學(xué)習(xí)不同而結(jié)果相同。強(qiáng)化學(xué)習(xí)系統(tǒng)附加了一個(gè)強(qiáng)化規(guī)則/函數(shù),用于實(shí)時(shí)更新模型。
????????專家系統(tǒng)、機(jī)器學(xué)習(xí)系統(tǒng)可以構(gòu)建一個(gè)反饋系統(tǒng)的外圍,構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng),以應(yīng)對(duì)交互和反饋、以及時(shí)序輸入和在線模型更新。
? ? ? ? 關(guān)于探索:作為可在線學(xué)習(xí)的主動(dòng)強(qiáng)化學(xué)習(xí)與被動(dòng)強(qiáng)化學(xué)習(xí),區(qū)別在于是否采用了“策略探索”方法。參考小品文:強(qiáng)化學(xué)習(xí)的分類。被動(dòng)強(qiáng)化學(xué)習(xí)使用價(jià)值評(píng)價(jià),通過在線更新模型參數(shù)修改最優(yōu)解;主動(dòng)強(qiáng)化學(xué)習(xí)使用策略評(píng)價(jià),對(duì)行為策略進(jìn)行尋優(yōu),相當(dāng)于直接修改了函數(shù)空間,因此不再是標(biāo)準(zhǔn)歸納學(xué)習(xí)。? ? ? ? ?
? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? 2016年的 NIPS 會(huì)議上,吳恩達(dá) 給出了一個(gè)未來(lái) AI方向的技術(shù)發(fā)展圖
?
被動(dòng)強(qiáng)化學(xué)習(xí):
????????直接抄書.....
摘抄于:AI:A Modern approach 第三版
??????? reinforcement learning-RL又稱為評(píng)價(jià)學(xué)習(xí),在傳統(tǒng)ML領(lǐng)域不存在此種概念,接近于在線弱監(jiān)督學(xué)習(xí)。在連接主義學(xué)習(xí)中,ML劃分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)RL。
?
???????? 本章主要講Agent如何從成功與失敗中、回報(bào)與懲罰中進(jìn)行學(xué)習(xí)。
???????? reinforcement learning的任務(wù)是利用觀察到的回報(bào)來(lái)學(xué)習(xí)針對(duì)每個(gè)環(huán)境的最優(yōu)或者接近最優(yōu)策略。在此,Agent沒有完整的環(huán)境模型或者回報(bào)函數(shù) 兩者的先驗(yàn)知識(shí)。RL囊括了人工智能的全部,一個(gè)Agent被置于一個(gè)環(huán)境中,并學(xué)會(huì)在其間游刃有余。
??????? 強(qiáng)化學(xué)習(xí),致使Agent面臨一個(gè)未知的馬爾科夫過程。? ? ? ?
被動(dòng)強(qiáng)化學(xué)習(xí):
???????? 在完全可觀察環(huán)境的狀態(tài)下使用基于狀態(tài)表示的被動(dòng)學(xué)習(xí)。在被動(dòng)學(xué)習(xí)中,Agent的策略是Pi是固定的:在狀態(tài)s中,它總是執(zhí)行行動(dòng)Pi(s)。
???????? 其目標(biāo)只是簡(jiǎn)單的學(xué)習(xí):該策略有多好,即是學(xué)習(xí)效用函數(shù)U(s).
???????? 被動(dòng)學(xué)習(xí)的任務(wù)類似于 策略評(píng)價(jià) 任務(wù)。
???
1、直接效用估計(jì)
???????? 由widrow和hoff在1950s末末期在自適應(yīng)控制理論里面提出的 直接效用估計(jì)。思想為:認(rèn)為一個(gè)狀態(tài)的效用是從該狀態(tài)開始往后的期望總回報(bào),二每次實(shí)驗(yàn)對(duì)于每個(gè)被訪問狀態(tài)提供了該值的一個(gè)樣本。
????
???????? 直接效用估計(jì)使RL成為監(jiān)督學(xué)習(xí)的一個(gè)實(shí)例,其中每一個(gè)學(xué)習(xí)都以狀態(tài)為輸入,以觀察得到的未來(lái)回報(bào)為輸出。此時(shí),RL已經(jīng)被簡(jiǎn)化為 標(biāo)準(zhǔn)歸納學(xué)習(xí)問題。
???????? 后記:作為作準(zhǔn)歸納學(xué)習(xí)的直接效用估計(jì),是穩(wěn)定的且收斂的。
?
2、自適用動(dòng)態(tài)規(guī)劃
??? ? ? 直接效用估計(jì)DUE.(direct utility estimatation )將RL簡(jiǎn)化為歸納學(xué)習(xí)問題(決策樹?),基于它忽略了一個(gè)重要的信息來(lái)源:狀態(tài)的效用并非相互獨(dú)立的。每個(gè)狀態(tài)的回報(bào)等于它自己的回報(bào)加上其后記狀態(tài)的期望效用,即是,效用值服從固定策略的貝爾曼方程:
????????????
?????????????????????????????????????????????? ? ? ? ?? ? ? ? ? ? 動(dòng)態(tài)規(guī)劃方程
?
?? ?? ? 忽略了狀態(tài)之間的聯(lián)系,直接效用估計(jì)錯(cuò)失了學(xué)習(xí)的機(jī)會(huì)。并且,直接效用估計(jì)可視為在比實(shí)際大得多的假設(shè)空間中搜索U,其中包括了違反Berman方程組的函數(shù),因此DUE.算法收斂的非常慢。
??????? 自適應(yīng)動(dòng)態(tài)規(guī)劃ADP.(Adaptive Dynamic program),Agent通過學(xué)習(xí)連接狀態(tài)的轉(zhuǎn)移模型,并使用動(dòng)態(tài)規(guī)劃方法來(lái)求解Markov過程,來(lái)利用狀態(tài)效用之間的約束。
??????? 后記:作為規(guī)劃過程的自適應(yīng)動(dòng)態(tài)規(guī)劃,整個(gè)過程是不穩(wěn)定的,且收斂性更不確定。
?
3、時(shí)序差分學(xué)習(xí)
????????? 時(shí)序差分學(xué)習(xí)TD.(Timporal-difference)
???????? 求解前一節(jié)內(nèi)在的MDP并不是讓Berman方程來(lái)承擔(dān)學(xué)習(xí)問題的唯一方法。另外一種方法是:使用觀察到的轉(zhuǎn)移來(lái)調(diào)整觀察到的狀態(tài)的效用,使得它滿足約束方程。
???????? ................................
???????? ADP方法和TD方法實(shí)際上是緊密相關(guān)的。二者都試圖對(duì)效用估計(jì)進(jìn)行局部調(diào)整,以使每一狀態(tài)都與其后繼狀態(tài)相“一致”。一個(gè)差異在于 TD調(diào)整一個(gè)狀態(tài)使其與所有已觀察的后繼狀態(tài)相一致,而ADP則調(diào)整該狀態(tài)使其與所有可能出現(xiàn)的后繼狀態(tài)相一致,根據(jù)概率進(jìn)行加權(quán)。.......
????? ?? ..................
??????? 演化出的近似ADP算法可以提高幾個(gè)數(shù)量級(jí)的運(yùn)算速度,然后......
?
?后記:
???? ? 時(shí)序差分學(xué)習(xí)的學(xué)習(xí)對(duì)象是所有已觀察狀態(tài),所以預(yù)計(jì)的結(jié)果是有偏的。
???
總結(jié)
以上是生活随笔為你收集整理的EnforceLearning-在线学习-被动强化学习/评价学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小米AX3600电路由使用体验-小米路由
- 下一篇: EnforceLearning-主动强化