学术报告预告：强化学习与金融决策学术讲座

发布时间：

2026-05-19

发布人：

张犇

浏览量:

时间：2026年5月24日晚8:00-10:00

地点：腾讯会议：877 924 4987

会议密码：836893

报告一：基于策略随机化的数据驱动Merton 策略

报告人：贾颜玮，博士，香港中文大学

摘要：我们研究了不完全市场中的 Merton 期望效用最大化问题，该市场的特征在于除了股票价格过程之外，还存在一个因子过程，并且模型基元（model primitives）的函数形式是未知的。我们所考虑的代理人（agent）是一个价格接受者，他只能获取股票和因子的价值过程以及瞬时波动率。我们提出了一个辅助问题，在该问题中，代理人可以根据一类特定的高斯分布调用策略随机化，并证明了其最优高斯策略的均值即可解决原始的Merton 问题。引入随机化策略后，我们便进入了近期由 Wang et al. (2020) 以及 Jia and Zhou (2022a,b, 2023) 所开发的连续时间强化学习（RL）领域，这使我们能够以数据驱动的方式求解该辅助问题，而无需对模型基元进行估计。具体而言，我们建立了一个策略改进定理，并以此为基础设计了在线和离线 actor-critic 强化学习算法，用于学习 Merton 策略。本研究的一个关键见解是，广义上的强化学习，特别是策略随机化，其效用不仅仅局限于探索（exploration）的目的——它们还可以被用作一种技术工具，来解决那些仅靠纯确定性策略无法解决的问题。最后，我们在随机波动率环境中进行了模拟与实证研究，证明了与传统的基于模型的代入法（plug-in method）相比，所设计的强化学习算法具有决定性的表现优势。这是与 Min Dai、Yuchao Dong 和 Xunyu Zhou 合作完成的工作。

个人简介：贾颜玮博士于2020年在新加坡国立大学获得博士学位，并于2016年毕业于清华大学获得理学学士学位。在2023年加入香港中文大学系统工程与工程管理系之前，他曾在哥伦比亚大学工业工程与运筹学系担任副研究科学家及兼职助理教授。他的研究兴趣主要集中在金融工程与决策问题，重点关注金融科技和数据分析。他近期的研究致力于发展连续时间强化学习的基础理论，并应用于解决金融工程中的问题，例如资产配置和算法交易。

报告二：脉冲控制的双层随机化框架

报告人：董玉超，长聘副教授，同济大学

摘要：本文针对一类一般脉冲控制问题，提出并分析了一种随机化策略。该随机化问题的解可表征为复合算子的不动点，此复合算子由正则化非局部算子与正则化停时算子共同构成。借助该方法，我们推导出半线性哈密顿- 雅可比 - 贝尔曼（HJB）方程。通过引入基于泊松复合测度的等价随机化策略，本文建立了验证定理，据此证明了解的唯一性；同时采用迭代法证得解的存在性。解的存在唯一性结论保证了该随机化问题定义合理。随后本文证明，当随机化参数趋于零时，所构建的随机化脉冲控制问题可收敛至经典脉冲控制问题。结合值函数具备局部正则性这一性质，证实该理论框架不仅能实现稳健逼近，也为强化学习算法的搭建奠定了理论基础。在此框架下，本文提出一种离线强化学习算法。该算法的策略改进步骤可直接由解存在性证明中的迭代方法推导得出，且具备几何收敛速率。选取经典算例开展数值实验，结果表明该强化学习算法能够有效学习随机化问题的最优解，并可高精度逼近经典脉冲控制问题的最优解。针对状态过程中波动率参数开展敏感性分析，清晰印证了算法在探索与利用之间的权衡特性。

个人简介：董玉超博士毕业于复旦大学数学科学学院，之后在复旦大学，法国昂热大学，新加坡国立大学从事博士后研究。2021年1月加入同济大学数学科学学院，现为长聘副教授。董玉超博士的研究方向为随机最优控制理论及其在金融数学中的应用。其研究工作发表在包括AMO，SICON, SIAP, MaFi, SIMA 等国际知名期刊上。

学术报告预告：强化学习与金融决策学术讲座

友情链接