【发布时间】:2020-05-20 20:42:40
【问题描述】:
我正在尝试为模拟问题创建一个健身房环境。在我的健身房环境中,我有一组非法状态,我不希望我的代理进入它们。将此类逻辑添加到我的环境中的最简单方法是什么,我应该使用包装类吗?我不太明白,我尝试通过继承一个类来扩展MultiDiscrete 空间并覆盖MulriDiscrete.sample 函数以阻止环境进入非法状态,但是有没有更有效的方法来做吗?
【问题讨论】:
标签: reinforcement-learning openai-gym