【发布时间】:2018-12-23 13:05:54
【问题描述】:
我需要为我的 RL 问题创建一个状态空间,它有大约 10 个状态变量,每个状态变量包含大约 2 或 3 个变量值。这将使状态空间大约有 600,000 个状态。如何在 python 中实现?
【问题讨论】:
标签: reinforcement-learning q-learning
我需要为我的 RL 问题创建一个状态空间,它有大约 10 个状态变量,每个状态变量包含大约 2 或 3 个变量值。这将使状态空间大约有 600,000 个状态。如何在 python 中实现?
【问题讨论】:
标签: reinforcement-learning q-learning
鉴于您的问题中的状态数量,也许您应该考虑使用某种function approximation 而不是使用表格表示。
如果您最终决定使用包含 600k 行和与操作一样多的列的表,那么 pandas DataFrame 可能会起作用。
【讨论】:
env(s,a),它获取当前状态s 和给定动作a,并返回下一个状态s',一个标志表明情节是否已经结束,有时还有一个奖励(奖励可以看作是一个独立的函数)。