【发布时间】:2011-10-29 05:49:55
【问题描述】:
我正在尝试让代理学习在强化学习设置中最好地执行某些任务所需的鼠标移动(即奖励信号是学习的唯一反馈)。
我希望使用 Q-learning 技术,但虽然我找到了 a way to extend this method to continuous state spaces,但我似乎无法弄清楚如何解决连续动作空间的问题。
我可以强制所有鼠标移动具有一定的幅度并且仅在一定数量的不同方向上,但是任何使动作离散的合理方法都会产生巨大的动作空间。由于标准 Q-learning 要求智能体评估所有可能的动作,因此这种近似并不能解决任何实际意义上的问题。
【问题讨论】:
标签: algorithm machine-learning reinforcement-learning q-learning