MindSpore AI科学计算系列（8）：深度学习方法求解平均场博弈论问题

本篇是MindSpore AI科学计算系列，将主要分享运用深度学习方法求解平均场博弈论和平均场控制论的问题。

背景

Mean field games (MFG, 平均场博弈论)和Mean field control (MFC, 平均场控制论）可以模拟大量对象之间的博弈，探索在一个竞争的环境中，对象如何选择最优的决策。例如股市里大量根据其他用户行为交易股票的股民，海里游动的鱼群，在世界杯现场看足球赛的观众等。它们在物理、经济学和数据科学等各学科中发挥核心作用。虽然MFG的数学理论已经相当成熟，但数值方法的发展并没有跟上问题规模和海量数据集的增长。由于MFG通常不存在显式解，有效的数值算法至关重要。大多数现有的数值方法都使用网格，因此容易受到维数灾难的限制。

近些年来，结合机器学习方法对MFG和MFC问题进行求解得到了学术界的大量关注。尤其是针对解决具有复杂结构，高维度的问题。本文将介绍基于深度学习求解MFG和MFC的三类方法。

问题定义

MFG和MFC模型包括下列参数：

我们下面给出MFG equilibrium和MFC optimum的严格的数学定义：
FireShot Capture 058 - MindSpore AI科学计算系列（8）：深度学习方法求解平均场博弈论问题 - 知乎 - zhuanlan.zhihu.com.png

神经网络直接估计控制函数求解MFC
FireShot Capture 059 - MindSpore AI科学计算系列（8）：深度学习方法求解平均场博弈论问题 - 知乎 - zhuanlan.zhihu.com.png
Figure 1

实验结果：我们考虑如下的价格影响模型
FireShot Capture 060 - MindSpore AI科学计算系列（8）：深度学习方法求解平均场博弈论问题 - 知乎 - zhuanlan.zhihu.com.png

1. 交易初期，交易员们持有股票的数量均值较高，方差也较大，此时市场的流动性较高；
2. 持有的股票越多，交易员就会越倾向于卖出股票；
3. 在交易后期，卖股票的频率会加快；
4. 在交易终止时刻，大量的持有股票会带来高昂的损失。

Figure 2: Control learnt (dots) vs exact solution (lines)

Figure 3: Learnt empirical state distribution

Deep BSDE方法求解Forward-Backward SDE

寻找一个MFG equilibrium的问题可以转化为求解forward-backward SDEs的问题，通常有如下表示：

给定满足概率分布的初始条件和终止条件。针对以上问题可以使用Deep BSDE方法求解：对于 Y 过程的初始值和波动率，按比例惩罚它们与终止条件之间的差距。数学描述如下：
FireShot Capture 061 - MindSpore AI科学计算系列（8）：深度学习方法求解平均场博弈论问题 - 知乎 - zhuanlan.zhihu.com.png
Figure 4: Learnt value (in blue) vs benchmark values (in red)

这里可以看到神经网络给出的初始时刻的值与真实值非常接近。

Deep Galerkin Method求解MFG

在MFG equilibrium的定义中，最优控制在某些合适的条件下可以转化为：

上述两个PDE分别描述了群体状态概率分布 m(t,x) 和值函数 u(t,x) 的演化过程，分别被称为 Kolmogorov-Fokker-Planck (KFP) 方程和Hamilton-Jacobi-Bellman (HJB) 方程。这两个方程式相互耦合的，所以不能单独求解。DGM方法通过两个神经网络分别估计状态概率分布 m(t,x) 和值函数 u(t,x) ，然后基于FBSDE系统定义损失函数：

这里我们可以看出DGM方法的通用性，它的应用场景不仅仅局限于FBSDE，原则上讲，对于任何形式的偏微分方程，在给定边界条件的情况下，我们都可以运用DGM进行求解。这里主要的难度在于存在多项损失函数，对于各项损失函数前面系数的选择显得尤为重要，否则SGD等优化方法会很容易停留在局部最优解。

实验结果：我们考虑满足以下MFG的群体交易模型

该问题的HJB方程可以表示为
FireShot Capture 062 - MindSpore AI科学计算系列（8）：深度学习方法求解平均场博弈论问题 - 知乎 - zhuanlan.zhihu.com.png
Figure 6: Optimal control (dashed line) vs learnt control (full line)

这里神经网络估计的最优控制和状态概率分布都与理论值相符合：

1. 最优控制是状态的线性函数；
2. 状态的概率分布会向0逐渐移动。

总结与展望

本文着重介绍了三种运用深度学习求解MFG和MFC相关问题的方法。第一个方法通过神经网络直接拟合控制函数，第二种方法通过Deep BSDE求解FBSDE,最后一个方法通过神经网络去求解偏微分方程，进而求解HJB方程与FKP方程组成的方程组。基于上述方法，学术界已经对多个高维度的复杂问题进行了各种尝试，取得了一些初步成果。但是由于神经网络通常由多个项组成，因此是高度非凸优化问题。在训练过程中，损失函数中的各项可能会相互竞争，训练过程可能不是鲁棒和足够稳定的，无法保证收敛到全局最小值。为了解决这个问题，需要开发更加鲁棒的网络结构和训练算法。

目前MindSpore团队分别从物理驱动和数据驱动的AI方法出发，致力于在科学计算领域发展新的算法并开发高性能和易用的AI仿真框架，后续有机会再跟大家分享。同时，我们也欢迎广大的AI科学计算爱好者和研究者加入我们，共同探索AI科学计算这一新课题。

参考文献：
1. https://en.wikipedia.org/wiki/Fokker%E2%80%93Planck\_equation
2.https://en.wikipedia.org/wiki/Hamilton%E2%80%93Jacobi%E2%80%93Bellman\_equation
3. https://papers.ssrn.com/sol3/papers.cfm?abstract\_id=2557457
4. https://arxiv.org/abs/1811.08782
5. DeepBSDE https://www.pnas.org/content/115/34/8505
6. Optimal transport and crowd motion https://www.pnas.org/content/117/17/9183

文章转载于:知乎
作者:于璠

推荐阅读

旋转目标检测表征新方法
Kaggle第一人 | 详细解读2021Google地标识别第一名解决方案（建议全文背诵）
快到起飞 | PP-LCNet在CPU上让模型起飞，精度提升且比MobileNetV3+快3倍
更多嵌入式AI技术相关内容请关注嵌入式AI专栏。

背景

问题定义

总结与展望

推荐阅读

目录