當前位置：首頁 >

【强化学习】强化学习专栏上线，60多篇文章等你follow

發布時間：2025/3/20 30 豆豆

生活随笔收集整理的這篇文章主要介紹了【强化学习】强化学习专栏上线，60多篇文章等你follow 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大家好，今天行健在有三AI開設新專欄《強化學習》。在這個專欄中，我們會分為五大模塊去講解強化學習涉及到的方方面面，包括強化學習基礎理論宗派，經典算法，編程實踐，前沿理論和文獻，強化學習應用領域，強化學習與其他機器學習理論交叉領域綜述等內容。

強化學習作為AI領域不同于監督學習和非監督學習之外的第三種存在，其發展前景和強大的處理問題的能力，在AI走向通用人工智能的道路上，有著非同尋常的價值。為了進一步了解和掌握這一算法的實質屬性和能力邊界，我們需要大量的基礎研究和實踐驗證，相信隨著這一專欄的不斷更新，我們能夠領略到強化學習的獨特魅力，同時也更加深刻的知曉其應用的領域，范疇和條件。如果你準備好了，那就和我們一起出發吧。

作者 | 行健

編輯 | 行健&言有三

1 什么是強化學習

強化學習的思想源于行為心理學（behavioural psychology）的研究。

1911年科學家Thorndike提出了效用法則（Law of Effect）：一定情境下讓動物感到舒服的行為，就會與此情景加強聯系，當此情景再現時，動物的這種行為也更易再現；相反，讓動物感覺不舒服的行為，會減弱與此情景的聯系，此情景再現時，此行為將很難再現。歷史上曾經有過“巴普洛夫狗”的實驗，一方面巴普洛夫給狗提供信號，一方面給予及時獎勵。狗在信號和獎勵之間建立了行為映射，從而強化了狗對信號的響應，最終使得狗能夠自發的響應信號。

強化學習不僅直接模仿了生物學習的智能模式，而且也不像其它大多數機器學習方法中，智能體需要被告訴去選擇哪種動作，使用強化學習方法的智能體能夠通過嘗試不同的動作（action），自主地發現并選擇產生最大回報（rewards）的動作。這樣一來，強化學習使得智能體可以根據自己的經驗進行自主地學習，既不需要任何預備知識也不依賴任何外部智能“老師”的幫助。

2 強化學習能夠做什么

圖2.1?強化學習類比于兒童學習

強化學習的核心機制：用試錯（trail-and-error）來學會在給定的情境下選擇最恰當的行為。即通過試錯學習如何最佳地匹配狀態（states）和動作（actions），以期獲得最大的回報（rewards）。

“如何最佳的匹配狀態和動作”，強化學習所解決的這樣很具有普遍性的問題使得強化學習在機器人學，最優控制，棋類對弈，策略博弈，飛行控制，導彈制導，預測決策，金融投資以及城市交通控制等領域都有大量的應用。

從計算機實現的角度看，大多數機器學習的方法都需要事先知道要解決的問題是“什么”，以及問題“怎么樣”來解決。再通過編寫程序來告訴計算機如何求解。在實際情形下，知道“做什么”遠比知道“怎么做”的情形多得多。

例如，對于這樣一個問題：一個城市交通網絡由多個十字路口以及它們之間的道路組成，每一個十字路口的交通燈由一個Agent控制，那么這多個Agent應該如何協作控制紅綠燈的時段長短，使得進入該城市交通網絡的所有車輛在最短時間內離開該城市交通網絡呢？Agent學習要“做什么”的問題是清晰的：使所有車輛以最短時離開該城市交通網絡；但“怎樣做”卻是復雜和困難的。

強化學習提供了這樣一種美好的前景：只要確定了回報，不必需要規定Agent怎樣完成任務，Agent 將能夠通過試錯學會最佳的控制策略。在前面的多Agent交通控制問題中，只需規定所有車輛通過時間越短獲取的回報越大，那么這多個Agent將自主學會最優的交通燈協作控制策略使得所有車輛在最短時間內通過該城市網絡。盡管直到今天，解決這樣多個十字路口的交通燈控制問題，強化學習依然面臨巨大的計算量和較長的計算時間。但從實現的角度來看，強化學習是一種可以把人從必須考慮“怎么做”中解放出來的機器學習方法，也相信強化學習是能夠使得智能從計算智能進化到人工智能直至生物智能的途徑之一。

3 強化學習算法地圖

強化學習涉及到的理論主要為控制論，最優化，蒙特卡洛搜索等。從強化學習的幾個元素的角度劃分的話，方法主要有下面幾類：

Policy based, 關注點是找到最優策略。

Value based, 關注點是找到最優獎勵總和。

Action based, 關注點是每一步的最優行動。

更細的分類如下圖展示：

圖3.1 強化學習算法地圖

4 專欄目錄和作者簡介

參考教材：《reinforcement learning： An inroduction 2ed edition》

http://incompleteideas.net/book/RLbook2018trimmed.pdf

強化學習的更多相關資料可掃下方有【有三AI-強化學習】二維碼進群獲取。

行健，畢業于廈門大學理論物理專業，長期研究計算機應用于輔助藥物設計，計算機模擬生化反應。目前在國內某電商搜索推薦團隊擔任高級算法工程師，主要研究方向為計算機模擬與復雜系統，強化學習和AutoML。

總結

強化學習在有監督和無監督機器學習之外獨辟蹊徑，借助智能體主動探索、獎勵機制、策略優化等不斷和環境交互，既有博弈的對抗學習過程，又有策略優化的迭代升級思想，這使得強化學習在動態學習，實時在線訓練等場景發揮獨特的作用。為此，我們系統地總結強化學習在過去幾年間的進展，同時也高瞻遠矚，探究新發展方向。

下期預告：【編外篇】數據科學，從計算到推理。

微信群推薦

這是有三AI唯一的強化學習群，將用于討論相關的技術，掃碼不能進群時可以添加有三微信Longlongtogo申請。

有三AI夏季劃

有三AI夏季劃進行中，歡迎了解并加入，系統性成長為中級CV算法工程師。

轉載文章請后臺聯系

侵權必究

往期精選

【GAN優化】GAN優化專欄上線，首談生成模型與GAN基礎
【NLP】自然語言處理專欄上線，帶你一步一步走進“人工智能技術皇冠上的明珠”。
【AutoML】AutoML專欄上線，跟Google一起見證調參黨的末日？
【移動端DL框架】當前主流的移動端深度學習框架一覽
【圖像分割應用】醫學圖像分割（一）——腦區域分割

總結

以上是生活随笔為你收集整理的【强化学习】强化学习专栏上线，60多篇文章等你follow的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【图像分割模型】多分辨率特征融合—Ref
下一篇：【图像分割模型】用BRNN做分割—ReS

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

【强化学习】强化学习专栏上线，60多篇文章等你follow

總結