日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【强化学习】MOVE37-Introduction(导论)/马尔科夫链/马尔科夫决策过程

發布時間:2025/3/15 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【强化学习】MOVE37-Introduction(导论)/马尔科夫链/马尔科夫决策过程 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

寫在前面的話:從今日起,我會邊跟著硅谷大牛Siraj的MOVE 37系列課程學習Reinforcement Learning(強化學習算法),邊更新這個系列。課程包含視頻和文字,課堂筆記會按視頻為單位進行整理。

課程表地址:https://github.com/llSourcell/Move_37_Syllabus

帶字幕課程視頻地址:https://www.bilibili.com/video/av31518766

?

本課作為導論,大致普及了一下機器學習和強化學習的概念和用途。其次,捎帶介紹了一下最常見的監督學習和非監督學習。對機器學習稍有了解的同學們,對這兩個概念應該不陌生。如果對此毫無概念的同學們,可以看我下面的簡單說明。

?

機器學習(Machine Learning)

首先,我們要明白,所謂的機器學習就是試圖找出輸入輸出量之間的一個固定關系,以期對以后所有的輸入量都能相應地去預測一個輸出量。用數學語言來說,就是從一堆已知的x和y之間找出映射f。打個比方,如果我們發現每次穿裙子(x)就一定會下雨(y),那么這個因果關系就是f;由此,我們就可以根據f這個關系,也就是某天穿沒穿裙子,來推斷會不會下雨。

?

監督學習 (Supervised Learning)

這里舉一個水果分類的例子。這里機器學習算法所要完成的工作,就是要得到水果和水果名稱之間的關系。

?

?

第一步是訓練算法,第二步是用測試數據來檢驗算法的完善度。圖中可以看到,這里訓練算法時輸入的數據是預先分過類的(即打過標簽的),所以事先需要人工參與,把未分類的原始數據進行分類。此即是“監督”二字的要義所在,需要人工“監督”才能完成算法的訓練。

?

非監督學習 (Unsupervised Learning)

同樣是以水果舉例。

?

?

同樣分為兩步,區別在于,這里輸入的數據是未分類過的(也未打標簽)。機器學習算法需要自己完成分類的工作,并從中找出數據中的模式(往往是我們無法解釋和說明的)。非監督學習通常可以用于聚類——識別各個類別之下數據的相似性并由此分類,也可以用于異常識別——例如排除數據集中的異常值(視頻中的例子是欺詐性交易)。

?

?

這里,一句話總結:監督學習適用于事后對數據闡釋性分析和對未來的預測,非監督學習則更適合發現數據的內在規律結構

然而,實際情況中的影響因素往往更復雜,要解決的問題也往往不止是確定既有的固定關系。有時,需要我們在沒有訓練數據的情況根據實際情況去不斷優化策略(有點類似于我們人類的熟能生巧)。因此,這里引進了另一個概念:“強化學習”。

?

強化學習 (Reinforcement Learning)

這里以選擇最優運輸路線為例。

?

?

可知影響運輸結果的因素有很多,包括天氣、道路擁堵、交通工具、食品保存等等。同時,我們也沒有先驗數據來訓練算法和檢驗算法的優越性。那么這里的強化學習算法,就引入了一個新的維度時間,來幫助我們在實際情況中通過不斷迭代來優化算法。

?

?

強化學習算法可以說是介于監督算法和非監督算法之間。它既不像非監督算法一樣完全不使用標簽,也不像監督算法一樣預先打好標簽,這里的標簽是延時(delayed)打上的。就像圖中所標出的那樣,每個環節的標簽T(也可以稱為反饋)由下一個環節來標記。

我個人的理解是,所謂的強化學習算法的核心,就是一個環環相扣的負反饋系統。學過生物的同學大概能理解的意思,生物內部環境的穩態就是通過負反饋機制來實現的。

?

?

而當模式識別網絡(神經網絡)和基于強化學習框架的實時環境結合在一起,就是所謂深度強化學習。我的理解是,和非監督學習算法類似,前者相當于Step1的模式識別部分,而后者相當于Step2——不斷提供反饋來優化算法。

至于這一算法有多牛逼嘛,看阿爾法狗就知道了。

-----------------------------------------------------?

介紹完這些基本概念后,下面就進入正題了。有一些數學知識必須了解。

?

馬爾科夫鏈 (Markov Chain)

對于強化學習來說,馬爾科夫鏈是個很重要的概念。正是基于這個概念,才發展出算法和外界之間溝通反饋的方式。

馬爾科夫鏈究竟是什么呢?簡單來說,就是用來描述一連串相互關聯的事件(狀態)的一種抽象模型。其中每個事件(狀態)已經發生的前提下,接著會發生哪個事件(切換到哪個狀態)的概率分布是已知的。

?

?

好吧,如果概率統計里沒學過這一課的同學,估計此時已經百分百暈了。拿現實中的例子來舉例,就比方說,天氣預報吧。首先我們假定只有兩種天氣:晴天和雨天,并且前一天下雨后第二天放晴的概率是0.2,繼續下雨的概率是0.8;前一天晴天第二天下雨的概率是0.4,繼續放晴是0.6。那么,根據今天的天氣,我們是不是能把未來七天每天放晴和下雨的概率都算出來了?OK,這未來七天的天氣狀態,就是一條簡單的馬爾科夫鏈。

必須注意兩點,一、我們計算出來的只是概率分布,依舊無法確定給出每天的天氣;二、每天的天氣概率情況只取決于前一天的天氣。

現在可以結合一下視頻里的示意圖來看了,這里的轉移矩陣(Transition Matrix)給出了狀態間互相轉移的概率分布,右下角則展示了每多走一步后我們來到A、B、C三個節點的可能性。

?

馬爾科夫決策過程(Markov Decision Process)

馬爾科夫決策過程是馬爾科夫鏈的擴展,在原基礎上加入了行動(Action)獎勵/反饋(Reward)。相應的轉移矩陣也產生了變化,下一個狀態的概率分布 不僅取決于上一個狀態還取決于采取的行動。而從環境得到的反饋則告訴我們這一步到底是好(正向反饋)還是壞(負向反饋)——所謂趨利避害,下次就可以避免在同一狀態下采取同樣的行動。那么最終在不斷最大化獎勵的過程中,我們就獲取了最優策略

?

?

關于馬爾科夫決策過程的具體闡述

(摘自文章:一文讀懂AlphaGo背后的強化學習:它的背景知識與貝爾曼方程的原理)

假定我們知道狀態 s,如果未來的狀態條件獨立于過去的狀態,那么狀態 s 就具有馬爾科夫性質。這意味著s描述了所有過去的狀態直到現在的狀態。如果這很難理解,那我們就用一個例子來解釋,讓這個問題顯得更簡單一點。假設一個球飛過空中,如果它的狀態是由它的位置和速度決定,并足以描述它當前的位置和接下來的位置(不考慮物理模型和外界影響)。因此,這一狀態就具備馬爾科夫性質。但是,如果我們只知道這個球的位置不知道它的速度,它的狀態就不再是馬爾科夫。因為現在的狀態并不是所有以前狀態的歸納,我們需要以前的時間點所得到的信息去構建合適的球的模型。

強化學習通常可以建模為一個馬爾科夫決策過程,即MDP(Markov Decision Process)。MDP是一個有向圖,它有節點和邊的狀態,可以描述馬爾科夫狀態之間的轉變,下面是一個簡單的例子:

一個簡單的馬爾科夫決策過程

這個MDP展示了學習馬爾科夫決策的過程。在最開始你在一個“不理解”的狀態中,接下來,你有兩個可能的動作,學習或者不學習。如果你選擇不學習,則有100%的可能性返回到不理解的狀態里。但是,如果你選擇學習,只有20%的可能性讓你回到最開始的地方,即80%的可能性變成理解的狀態。

實際上,我確定轉換到理解狀態的可能性超過80%,MDP的核心其實很簡單,在一個狀態你可以采取一系列的動作,在你采取行動之后,這里有一些你能轉化去什么狀態的分布。在采取不學習動作的例子中,這個轉化也能被很好的確定。

強化學習的目標是去學習怎么花更多的時間在更有價值的狀態上,為了有一個更有價值的狀態,我們需要MDP提供更多的信息。

你不需要一個MDP來告訴自己餓了要吃飯,但是強化學習的機制是需要它的

這個MDP增加了獎勵機制,你每轉化到一個狀態,就會獲得一次獎勵。在這個例子中,由于接下來狀態是饑餓,你會得到一個負面的獎勵,如果接下來狀態是餓死,那會得到一個更負面的獎勵。如果你吃飽了,就會獲得一個正面的獎勵。現在我們的MDP已經完全成型,我們可以開始思考如何采取行動去獲取能獲得的最高獎勵。

由于這個MDP是十分簡單的,我們很容易發現待在一個更高獎勵的區域的方式,即當我們饑餓的時候就吃。在這個模型中,當我們處于吃飽狀態的時候沒有太多其它的選擇,但是我們將會不可避免的再次饑餓,然后立馬選擇進食。強化學習感興趣的問題其實具有更大更復雜的馬爾科夫決策過程,并且在我們開始實際探索前,我們通常不知道這些策略。

?

OK,以上就是導論課的所有內容。

有理解不當或闡述的錯誤的地方,還望大牛們不吝指正。

感謝閱讀~

轉載于:https://www.cnblogs.com/mandylu2018/p/9694533.html

總結

以上是生活随笔為你收集整理的【强化学习】MOVE37-Introduction(导论)/马尔科夫链/马尔科夫决策过程的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。