sample model比distribution model模型更容易获得

对Tabular方法的总结

对于人工智能问题,value function, backing up value updates, and GPI是非常有用的组织规范。

上图说到了两个维度,第三个维度是on-policy与off-policy方法。

相关文章: