【发布时间】:2017-01-02 00:19:12
【问题描述】:
在 OpenAI Gym 中,我想知道在同一状态下不同动作的下一个状态。例如,我想得到 s_1, s_2 我的环境的动态是:
(s, a_1) -> s_1, (s, a_2) -> s_2
我找不到撤消操作或在不更改环境的情况下向我显示下一个状态的方法。我有什么明显的遗漏吗?
如果有帮助,我这样做是为了区分 LQR 的动态和奖励,并使用 InvertedPendulum 环境。
【问题讨论】:
标签: python reinforcement-learning openai-gym