深度学习方法求解平均场博弈论问题
背 景
Mean field games (MFG, 平均場博弈論)和Mean field control (MFC, 平均場控制論)可以模擬大量對象之間的博弈,探索在一個競爭的環境中,對象如何選擇最優的決策。例如股市里大量根據其他用戶行為交易股票的股民,海里游動的魚群,在世界杯現場看足球賽的觀眾等。它們在物理、經濟學和數據科學等各學科中發揮核心作用。雖然MFG的數學理論已經相當成熟,但數值方法的發展并沒有跟上問題規模和海量數據集的增長。由于MFG通常不存在顯式解,有效的數值算法至關重要。大多數現有的數值方法都使用網格,因此容易受到維數災難的限制。
近些年來,結合機器學習方法對MFG和MFC問題進行求解得到了學術界的大量關注。尤其是針對解決具有復雜結構,高維度的問題。本文將介紹基于深度學習求解MFG和MFC的三類方法。
問題定義
MFG和MFC模型包括下列參數:
?
?
?
?
?
?
?
?
?
?
這里神經網絡估計的最優控制和狀態概率分布都與理論值相符合:
1. 最優控制是狀態的線性函數;
2. 狀態的概率分布會向0逐漸移動。
?總結與展望?
本文著重介紹了三種運用深度學習求解MFG和MFC相關問題的方法。第一個方法通過神經網絡直接擬合控制函數,第二種方法通過Deep BSDE求解FBSDE,最后一個方法通過神經網絡去求解偏微分方程,進而求解HJB方程與FKP方程組成的方程組。基于上述方法,學術界已經對多個高維度的復雜問題進行了各種嘗試,取得了一些初步成果 。但是由于神經網絡通常由多個項組成,因此是高度非凸優化問題。在訓練過程中,損失函數中的各項可能會相互競爭,訓練過程可能不是魯棒和足夠穩定的,無法保證收斂到全局最小值。為了解決這個問題,需要開發更加魯棒的網絡結構和訓練算法。
目前MindSpore團隊分別從物理驅動和數據驅動的AI方法出發,致力于在科學計算領域發展新的算法并開發高性能和易用的AI仿真框架,后續有機會再跟大家分享。
同時,我們也歡迎廣大的AI科學計算愛好者和研究者加入我們,共同探索AI科學計算這一新課題。
參考文獻:
[1]?en.wikipedia.org/wiki/Fokker%25E2%2580%2593Planck_equation
[2]?en.wikipedia.org/wiki/Hamilton%25E2%2580%2593Jacobi%25E2%2580%2593Bellman_equation
[3]?papers.ssrn.com/sol3/papers.cfm%3Fabstract_id%3D2557457
[4]?arxiv.org/abs/1811.08782
[5]?DeepBSDE?pnas.org/content/115/34/8505
[6]?Optimal transport and crowd motion?pnas.org/content/117/17/9183
MindSpore官方資料
GitHub?:?https://github.com/mindspore-ai/mindspore
Gitee?:?https?:?//gitee.com/mindspore/mindspore
官方QQ群?:?486831414?
總結
以上是生活随笔為你收集整理的深度学习方法求解平均场博弈论问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: David Silver强化学习课程笔记
- 下一篇: 一文读懂深度学习中的损失函数(Loss