下一个AI领域的高薪方向:强化学习与智能决策研究班2023年春季招生启事
?世界繁花盛開 我們不必在同一個地方反復死磕?
強化學習是最近5年來人工智能最令人激動的研究領域。如下圖Google的搜索指數可以看到,強化學習的搜索指數最近一些年明顯呈現增長趨勢,而NLP(自然語言處理)和CV(計算機視覺)則相對呈現下降趨勢。
●?圖1. Google全球搜索指數顯示強化學習最近幾年增長顯著,數據截至2022年12月25日
●?圖2. Google全球搜索指數,AI主流領域趨勢對比,數據截至2022年12月25日(藍色為強化學習,紅色為計算機視覺,黃色為NLP)
從2016年開始,AlphaGo走進了我們的視野,展現了強化學習(Reinforcement Learning)的威力,隨后的日子里,AlphaStar在星際爭霸戰勝職業選手,AlphaFold解決蛋白質合成,ChatGPT展現出的強大內容合成能力,背后都離不開強化學習。
●?圖3.?AlphaStar星際爭霸戰勝職業選手
●?圖4.?AlphaFold探索、解析蛋白質結構
而在求職領域,強化學習目前更是廣大公司急需的崗位,薪資更高,對于從業者的經驗要求也更友好。例如,相比CV領域或者NLP領域動輒要求3年以上經驗,由于強化學習是相對更新的領域,所以對于新入行的學習者接受度更高。
●?圖5.?強化學習目前需求量大,薪資相對更高,最主要是對新人更加接納(數據來自拉鉤求職,數據截至2022年12.25日)
有別于深度學習,由于強化學習的研究領域非常廣泛,不同的派別使用的方法也非常不同,這就給大家造成了非常龐大的學習負擔,為此,我們特推出《強化學習與智能決策—一種現代方法》研修班,目的就是幫助大家撥開迷霧,讓大家高效的穿越RL的知識森林。
我們的學習線路會是目前最主流的基于Policy Gradient的Offline-Learning,這就給大家減少了非常多的學習負擔,并且能夠更加專注。而且,我們全程是為了提升大家實際案例的解決能力,代碼量大,非常務實。我們的目標是為大家帶來嚴肅、前沿而又務實的強化學習內容!
●?自學強化學習往往面臨資料過于繁復,無從下手,效率低下的問題
研修班特點
Key Features
●?最具競爭力的課程性價比,大幅度降低學習負擔
●?世界杯賽制,讓AI模型帶你出戰-冠亞季軍可獲得高額獎學金
●?梳理知識脈絡,在龐大而復雜的強化學習體系中,更快地掌握能力
●?前世界名企數據科學家在線原理推導與在線編程
●?高頻密集的在線問答與代碼批閱讓能力掌握在實處
●?雙語教學助力學習者與前沿接軌
AI世界杯足球獎金
Award for AI Word Cup
為了提高大家的學習熱情,我們將模擬世界杯賽制,在最終的結業項目中,每位同學的AI模型代表自己進行比賽,我們將模擬世界杯賽程,選出32強并且一直打到冠亞季軍。
1 - 3名分別獲得如下獎金:
●?冠軍:9800元
●?亞軍:6800元
●?季軍:4800元
●?該圖像為最終結業項目運行實例 -多智能體強化學習足球競賽
●?模擬世界杯賽制,AI帶你出戰
該研修班面向人群
Target Learners
●?希望掌握或者從事強化學習相關工作的程序員、算法工程師、研究生
●?希望解決與智能決策類似相關問題的研究員、工程師、量化研究員
●?希望申請該領域研究生、博士生的相關學習者
掃碼聯系高老師助理?
開啟強化學習之旅
計劃時長與上課方式
Timeline & Teaching
●?2023年1.14日-5.10日,為期20周,合計180課時
●?每周3課時直播研討課,6課時在線答疑課
●?研討課:基于騰訊會議,在線進行原理推理,代碼原理展示
●?答疑課:主講老師基于騰訊會議+code with me協同代碼工具進行遠程調試
授課老師介紹
Mentor
高民權,前IBM數據科學家。從事人工智能相關研究、企業落地多年。曾經作為技術負責人參與落地多個大中華區人工智能產業項目。其落地項目與研究領域包括:人工智能理論原理,計算語言,自然語言處理,社會網絡計算,醫學識別,新能源智能預測,硬件生產自動化等多個方向。從2021年開始重點從事強化學習相關研究工作,研究興趣多智能體強化學習,表征學習與強化學習的結合,強化學習的穩定性與可解釋性。2022 NeurIPS強化學習方向審稿人。
為期20周,每周時間安排
Agenda
●?周日至周五:每周6 - 12小時代碼項目練習,課程組提供服務器及基礎環境
●?周二:12:00? – 13:30 基于騰訊會議的導師在線答疑和在線debug
●?周三:12:00? – 13:30 基于騰訊會議的導師在線答疑和在線debug
●?周四:12:00? – 13:30 基于騰訊會議的導師在線答疑和在線debug
●?周五:12:00? – 13:30 基于騰訊會議的導師在線答疑和在線debug
●?周六:09:30 – 12:40 在線理論+實操課程,為兩次1.5小時課程,中途休息10-15分鐘
課程詳細內容
Syllabus
本課程以項目驅動,我們最終交給大家的能力是能夠高效運行成功復雜案例的能力。我們主要會帶給大家4個項目加1個結業大項目。
●?項目I:基于蒙特卡洛方法的Mujoco機器人控制
●?該圖片與課程項目一致
*注:該課程授課語言為漢語,但PPT,參考文章,資料,代碼及作業均為英文。
Week-1: First-Step on RL, Monte-Carlo Methods, Gym 環境介紹,智能出租車問題解決?
Week-2: Markov Decision Process, The Reinforcement Learning Framework and Paradigm?
Week-3: Temporal-Difference Learning?
Week-4: RL in infinite Space, Discrete on Observation
此階段參考文獻 | References,課程中會為大家講解論文關鍵原理:?
1. Richard S. Sutton and Andrew G. Barto, Reinforcement Learning – An Introduction, 2nd?
2. Greg Brockman et al., OpenAI Gym, 2016
●?項目II:基于DeepQLearning的通過復雜游戲AI
●?該圖片與課程項目一致
Week-5: Q-Learning and Q-Value Iteration?
Week-6: From Q-Learning to DeepQ-Learning, Q-NeuralNetwork?
Week-7: Experience Replay, Fixed-Target, DoubleQ-Learning, Dueling DeepQ-Learning?
Week-8: QLearning Practice on Game and Robotics
此階段參考文獻 | References,課程中會為大家講解論文關鍵原理:?
1.?Volodymyr Mnih1 et al., Human-level control through deep reinforcement learning, 2015?
2.Hado van Hasselt el ai., Deep Reinforcement Learning with Double Q-learning, 2015?
3.Ziyu Wang et al., Dueling Network Architectures for Deep Reinforcement Learning, 2016
●?項目III&IV:基于PolicyGradient的高頻交易模型或高維度復雜機器人控制
●?該圖片與課程項目一致
*注:該課程授課語言為漢語,但PPT,參考文章,資料,代碼及作業均為英文。
Week-9: Policy Gradient, Implementation PG on PyTorch?
Week-10: Proximal Policy Optimization(PPO), Trust Region Policy Optimization (TRPO)?
Week-11: Actor-Critic Methods, GAE?
Week-12: Continuous Controlling, Robotics Controlling?
Week-13: Utility ML-Engine
此階段參考文獻 | References,課程中會為大家講解論文關鍵原理:?
1.?Richard S. Sutton, et al., Policy Gradient Methods for Reinforcement Learning with Function Approximation?
2. Sham Kakade, A Natural Policy Gradient?
3. Volodymyr Mnih, et al., Asynchronous Methods for Deep Reinforcement Learning, 2016?
4. John Schulman et al., Trust Region Policy Optimization, 2017?
5. John Schulman et al., Proximal Policy Optimization Algorithms, 2017?
6. John Schulman et al., HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION, 2018?
7.Tuomas Haarnoja et al., Soft Actor-Critic Algorithms and Applications 2019?
8.Timothy P. Lillicrap et al., CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING, 2019
●?結業項目:GoogleFootballPlayer足球多智能體競賽
●?該圖片與課程項目一致
*注:該課程授課語言為漢語,但PPT,參考文章,資料,代碼及作業均為英文。
Week-14: GoogleFootball Player環境的配置,接口與案例分析?
Week-15:? The Lesson from AlphaGo and AlphaZero, Self-Play Learning?
Week-16:? Multi-Agent Learning, Markov Games, Cooperation, Competitive?
Week-17: 迷你版AlphaZero小項目實戰?
Week-18: Central Training Decentric Execution, HAPPO, HATRPO?
Week-19: 模型設計,調試,性能評估?
Week-20: 賽區劃分,32強選拔賽,32進16,16進8,8進4選拔賽?
Week-21: 4強冠亞季軍排名,頒獎儀式
此階段參考文獻 | References,課程中會為大家講解論文關鍵原理:?
1.?David Silver, Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, 2017?
2. Karol Kurach et al., Google Research Football: A Novel Reinforcement Learning Environment, 2019?
3. Jakub Grudzien Kuba et al., Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning?
4. Muning Wen et al., Multi-Agent Reinforcement Learning is a Sequence Modeling Problem, 2022
5次前沿研討課
Advanced Topics
1. 大型預訓練模型在RL中的應用,DecisionTransformer
研討內容:Transformer在自然語言,計算機視覺等領域都取得了顯著的影響。最近,研究者們嘗試將Transformer等預訓練模型機制融入到強化學習問題中,該研討課程我們將為大家帶來DecisionTransformer以及其他大規模訓練模型在強化學習中的進展。
2. ChatGPT與HumanFeedback Refinforcement Learning
研討內容:ChatGPT在2022年產生了巨大的影響,成為了人類有史以來100萬注冊用戶最快的網絡應用。ChatGPT的背后,不僅僅使用了大規模預訓練模型,其HumanFeedback Reinforcement Learning機制同樣產生了非常大的作用,并且給我們提供了一個創作型AI的良好范例,此次研討課程我們將為大家帶來ChatGPT與其背后的原理和機制。
3. Imitation Learning與機器人控制
研討內容:機器人在真實環境下是無法像在虛擬環境中產生巨量的觀察數據的,那么如何能夠讓真實的機器人快速學習復雜任務?Imitation Learning(模仿學習)是現在研究者們非常關注的領域,通過像人類學習一些特定的初試知識,通過知識的遷移和泛化,能夠讓機器人在復雜任務學習中更快的學習。此次研討課程我們將會為大家帶來Imitation Learning 的機制和最近進展。?
4. Explainable and Trustable Reinforcement Learning
研討內容:由于強化學習是用來解決決策問題(decision-making),所以,如果該問題屬于比較重要,例如機器人、生產制造、金融投資等,若此時出現錯誤,基于目前的深度強化學習方法,我們是無法對其找到合理的原因,并且比較難避免再次發生相似問題。研究者們目前正在著手研究如何讓強化學習模型更加可信賴,更加可解釋,講起用于更加嚴肅、嚴苛和重要的場景。本次研討會我們將會為大家帶來Explainable & Trustable RL的最新進展。?
5. ICLR 2023及2023春強化學習進展選講
研討內容:我們將會以2023年ICLR論文公布為契機,為大家帶來從2022年中旬到2023年春季這將近一年時間強化學習方面的最新進展。
學費
Tuition
●?班型1:RL在線研討班
6000 RMB 或 850$
包含:
-
20周直播課程
20周直播在線答疑+debug
全部代碼、課件、錄播資料、參考資料權限
●?班型2:RL綜合指導班
8000 RMB 或者 1100$
包含:
-
20周直播課程
20周直播在線答疑+debug
全部代碼、課件、錄播資料、參考資料權限
在線服務器
代碼批閱
5次前沿研討課程
注:往期學員可憑借往期學習記錄減免1200元學費,老學員優惠后價格分別為4800元與6800元。
不滿意退款保障權益
Insurance
●?1.15日-1.25日:發起退款后,3天內退還100%學費
●?1.25日- 2.02日:發起退款后,3天內退還75%學費
●?2.03日-2.10日:發起退款后,3天內退還50%學費
●?2.10日-2.17日:發起退款后,3天內退還25%學費
●?超過2.17日,退費期結束
學習背景要求
Requirements
此課程為高階課程,所以我們對學習者較高要求,具體為:
1. 本科畢業2年以上工作經歷或研究生學歷;
2. 面臨工作需求的在校研究生;
3. 計算機、軟件工程、數學、物理、金融、生物等相關專業;
4. 能夠使用Python解決常見問題;
5. 入學測試題正確率需高于70%(因課程內容前沿知識較多,入學測試為全英文)。
入學流程
Procedure
●?第一步:掃描下方二維碼,添加研討班小助理?
●?第二步:通過騰訊問卷進行入學測試、信息填寫
●?第三步:通過入學測試后,課程組向同學發送此次課程協議、具體學生權益以及付款方式
●?第四步:付費成功
●?第五步:添加導師聯系方式,并且加入學習組
●?第六步:配置學習環境
●?第七步:正式開始上課
掃碼聯系高老師助理?
開啟強化學習之旅
這個世界繁花盛開,我們沒有必要在同一個地方反復死磕。
朝著更新的方向邁進,那里充滿更多機遇。
希望我們能再次相遇,開啟新的明天。
更多問題
Connect & QA
若對課程有其他問題,請聯系課程組。
郵箱:reinforcement.learning.camp@gmail.com
總結
以上是生活随笔為你收集整理的下一个AI领域的高薪方向:强化学习与智能决策研究班2023年春季招生启事的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HDOJ 6078-Wavel Sequ
- 下一篇: AI作业2-监督学习