强化学习之模型无关控制方法

强化学习之模型无关控制方法
（1）如何理解强化学习中的控制和预测这两个名词？
在强化学习中我们经常会遇到预测（prediction）和控制（control）这两个词。预测问题指的是求解在给定策略（policy）下的价值函数（value function）的过程；而控制问题指的是如何获得一个尽量好的策略来最大化累计奖励（accumulated return）。因此，强化学习的过程常常是在解决预测问题的基础上，进而解决控制问题。举迷宫的例子如下：
预测问题：
强化学习之模型无关控制方法
已知这样一个迷宫游戏，走出迷宫之前每一步的奖励都是-1，那么在“不管位置如何每次随机从4个方向选择一个进行移动”的策略下，每一个位置的价值如何？

控制问题：
同样的迷宫游戏，在所有可能的策略下最优的价值函数是什么？
强化学习之模型无关控制方法
最优策略是什么？

（2）epsilon-greedy算法可以保证每轮都改进策略pi，但是否可以保证不会收敛到局部最优？
epsilon-greedy应该不能保证不会收敛到局部最优，事实上贪心算法应该都是考虑局部最优

（3）蒙特卡洛控制 VS 时序差分控制
强化学习之模型无关控制方法
补充：
TD的优势应该在于可以做off-policy和on-policy，而从理论上虽然MC也都可以做，但是MC在off-policy中因为每一步都需要累乘重要性采样的权重，可能导致累乘的结果特别大或特别小带来问题。

MC与TD各自的优势：
MC的优势：1）不需要建模value function，2）对价值的采样是unbiased，3）算法实现比较简单
TD 的优势：1）不需要整个episode采样，仅需要一个片段就可以学习，也可以在infinite horizon 场景下工作，2）一般效果都比较好，应用比MC广泛，3）variance低

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

如果大家喜欢这篇文章的话，希望大家收藏、转发、关注、评论、点赞，转载请注明出自这里。 PS：本随笔属个人学习小结，文中内容有参考互联网上的相关文章。如果您博文的链接被我引用，我承诺不会参杂经济利益；如果有版权纠纷，请私信留言。其中如果发现文中有不正确的认知或遗漏的地方请评论告知，谢谢！还是那句话：不是我喜欢copy，是站在巨人的肩膀上~~