通过博文2017 Fall CS294 Lecture 6: Actor-critic introduction,一文中插播的Reinforcement Learning: An introduction(Sutton1998)书中的一页截图,对于
这两个概念应该有了深刻的理解。
我们接着定义optimal policy下的
接着可以很容易地得到:
Bellman equation for
Bellman optimality equation for
利用上面两个equation(for
但是!直接通过解bellman optimality equation来求解RL problem虽说看起来简单,实际上却很难真正派上用场。原因是:
所以,这就是为什么这篇博文的名字叫做“awkward Bellman optimality equation”的原因~