摩根大通---深度强化学习在股票择时交易的应用

作者：chen_h
微信号 & QQ：862251340
微信公众号：coderpai

在八月一号，金融时报发布了一个关于摩根大通（JP Morgan Chase）优化交易程序的文章，如果你没有订阅金融时报，也可以访问 Business Insider 的文章。这个优化的目的是交易大型订单的时候，尽量减少对市场价格的影响。

这是一个非常复杂的系统，它是由下面的几部分组成：

这个系统算法的核心是 RL 算法，它根据市场的反映来学习最佳的择时交易动作（选择最优价格，交易持续时间和订单大小）。根据摩根大通做的技术报告，这个系统的强化学习算法同时用到了 Sarsa（On-Policy TD Control）和 Q-learning（Off-Policy Temporal Difference Control Algorithm）。技术报告，可以关注微信公众号 coderpai，后台回复 JPM 获得

摩根大通---深度强化学习在股票择时交易的应用

算法状态由价格序列，预期的价差成本，价格填充概率，订单大小以及交易时间长短，交易总量的百分比等等。奖励由立即奖励（差价）和最终奖励（交易结束）组，订单持续时间和市场惩罚（显然这些是负面的奖励机制）。

摩根大通---深度强化学习在股票择时交易的应用

因为状态和动作空间太大了，不能被存储在表格中处理，所有动作被存储在深度神经网络的权重中。我们假设这个深度神经网络是通过随机梯度下降来进行权重更新的，如下：

摩根大通---深度强化学习在股票择时交易的应用

摩根大通相信这是华尔街第一个实时交易 AI 应用程序。该系统的最新进展会在里斯本的 QuantMinds 会议上进行展示（2018年5月）。

原文来源：Medium