Pybrain强化学习；状态维度答案

【问题标题】：Pybrain reinforcement learning; dimension of statePybrain强化学习；状态维度
【发布时间】：2017-04-07 05:35:45
【问题描述】：

我正在做一个项目，使用 Pybrain 包将强化学习与交通灯模拟相结合。我已经阅读了教程并实现了我自己的 Environment 和 Task 子类。我使用ActionValueNetwork 作为控制器，因为我希望我的状态是一个具有连续值的向量，这样它就可以包含诸如每条车道上等待的汽车数量、每条车道的总等待时间等信息。

我将ActionValueNetwork 的输入维度设置为我的状态向量的维度，这表明可以将向量用作状态变量。当我使用 Q-learner 或 SARSA 学习器时，代码一开始运行良好，但一旦调用方法 learn()，我就会收到一条错误消息。该函数包含行

state = int(state)

错误信息是

TypeError: only length-1 arrays can be converted to Python scalars

这表明只能使用标量形状的状态。

pybrain 强化学习环境是否支持向量形状状态？如果是这样，我该如何修改我的代码，使其能够与他们的 Q-learning 或其他方法的实现一起使用？

【问题讨论】：

标签： python neural-network pybrain reinforcement-learning q-learning

【解决方案1】：

与此同时，我发现了我的问题。我使用的是Q() 学习器，但应该使用实现neural-fitted Q-learning algorithm 的NFQ() 学习器。现在可以了。

【讨论】：