【发布时间】:2022-01-15 11:10:15
【问题描述】:
我有一个与自定义环境交互的深度强化学习代理,并且我使用 tensorboard 显示每一集的奖励值。 曲线是这样的
由于某种原因,它每次在第 17 步之后跳到第 80 步,我不明白为什么,我什至不知道我应该在这里复制粘贴代码的哪一部分。
有人知道为什么会这样吗?
【问题讨论】:
标签: tensorflow deep-learning tensorflow2.0 reinforcement-learning tensorboard