作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai


在八月一号,金融时报发布了一个关于摩根大通(JP Morgan Chase)优化交易程序的文章,如果你没有订阅金融时报,也可以访问 Business Insider 的文章。这个优化的目的是交易大型订单的时候,尽量减少对市场价格的影响。

这是一个非常复杂的系统,它是由下面的几部分组成:

摩根大通---深度强化学习在股票择时交易的应用

这个系统算法的核心是 RL 算法,它根据市场的反映来学习最佳的择时交易动作(选择最优价格,交易持续时间和订单大小)。根据摩根大通做的技术报告,这个系统的强化学习算法同时用到了 Sarsa(On-Policy TD Control)和 Q-learning(Off-Policy Temporal Difference Control Algorithm)。技术报告,可以关注微信公众号 coderpai,后台回复 JPM 获得

摩根大通---深度强化学习在股票择时交易的应用

摩根大通---深度强化学习在股票择时交易的应用

算法状态由价格序列,预期的价差成本,价格填充概率,订单大小以及交易时间长短,交易总量的百分比等等。奖励由立即奖励(差价)和最终奖励(交易结束)组,订单持续时间和市场惩罚(显然这些是负面的奖励机制)。

摩根大通---深度强化学习在股票择时交易的应用

因为状态和动作空间太大了,不能被存储在表格中处理,所有动作被存储在深度神经网络的权重中。我们假设这个深度神经网络是通过随机梯度下降来进行权重更新的,如下:

摩根大通---深度强化学习在股票择时交易的应用

摩根大通相信这是华尔街第一个实时交易 AI 应用程序。该系统的最新进展会在里斯本的 QuantMinds 会议上进行展示(2018年5月)。


原文来源:Medium

相关文章:

  • 2021-09-03
  • 2021-07-11
  • 2022-01-02
  • 2021-04-21
猜你喜欢
  • 2021-09-22
  • 2022-12-23
  • 2022-12-23
  • 2021-11-07
  • 2021-04-17
  • 2022-02-07
  • 2021-12-23
相关资源
相似解决方案