【发布时间】:2021-12-20 10:58:14
【问题描述】:
(数字是与每个链接关联的“id”)
我创建了一个健身房环境。
我的观察空间是: 整数类型的 Box(0,2, shape=(,144))。
有 144 个可能的链接
0 = 无链接
1 = 我们连接的链接
2 = 被对手连接的链接
我的行动空间是: 离散(144) 我们选择了要连接的链接号。
一开始所有144个链接都可以连接 随着游戏的进行,链接已连接,我们无法在已连接的链接上玩。
我的奖励是:
- 如果我们连接一个链接,+100
- -1000 如果对手关闭一个盒子
- 如果我们关闭一个盒子,+1000
- -10000 如果对手赢得比赛
- 如果我们赢了比赛,+10000
- -100000000 如果我们采取不合理的行动
这是我用来训练代理的代码:
env = DotsAndBoxesEnv()
state = env.reset()
model = A2C('MlpPolicy', env, verbose=1, tensorboard_log=logPath)
model.learn(total_timesteps=1000000)
问题是代理在我训练它时只使用非法动作。 更准确地说,他一遍又一遍地演奏同一个号码。
我怎样才能改进他的训练?
【问题讨论】:
标签: python deep-learning reinforcement-learning openai-gym stable-baselines