【发布时间】:2018-08-03 05:38:02
【问题描述】:
我目前正在制作一个 Deep q-network,我对我的 Q-network 如何知道我给它的奖励有点困惑。
例如,我有这个具有策略和时间差异的状态动作函数:
然后我就有了我的 Q 网络:
我输入我的状态,我在同一个观察中得到 4 个不同的 q 值。从理论上讲我如何奖励我的 Q 网络,因为我唯一的输入是状态而不是奖励。
希望有人能给我解释一下!
【问题讨论】:
-
如果“我如何奖励我的 Q-net”你的意思是“我使用哪个损失来训练我的 Q-net”,答案是:TD 错误,即
r + gamma*Q(s',pi(s')) - Q(s,a),其中s'是下一个状态,pi是您的策略。
标签: neural-network deep-learning reinforcement-learning q-learning