【发布时间】:2017-12-27 03:23:37
【问题描述】:
我目前正在阅读 Sutton 的 Reinforcement Learning: An introduction 书。阅读第 6.1 章后,我想为此设置实现 TD(0) RL 算法:
这样做我想知道如何执行此步骤A <- action given by π for S:我可以为当前状态S 选择最佳操作A?由于值函数V(S) 仅取决于状态而不取决于我不知道的操作,因此如何做到这一点。
我发现 this 问题(我从哪里得到图像)处理相同的练习 - 但这里的动作只是随机选择的,而不是由动作策略 π 选择的。
编辑:或者这是伪代码不完整,所以我也必须以另一种方式近似action-value function Q(s, a)?
【问题讨论】:
标签: reinforcement-learning temporal-difference