(1)如何理解强化学习中的控制和预测这两个名词?
在强化学习中我们经常会遇到预测(prediction)和控制(control)这两个词。预测问题指的是求解在给定策略(policy)下的价值函数(value function)的过程;而控制问题指的是如何获得一个尽量好的策略来最大化累计奖励(accumulated return)。因此,强化学习的过程常常是在解决预测问题的基础上,进而解决控制问题。举迷宫的例子如下:
预测问题:
已知这样一个迷宫游戏,走出迷宫之前每一步的奖励都是-1,那么在“不管位置如何每次随机从4个方向选择一个进行移动”的策略下,每一个位置的价值如何?
控制问题:
同样的迷宫游戏,在所有可能的策略下最优的价值函数是什么?
最优策略是什么?
(2)epsilon-greedy算法可以保证每轮都改进策略pi,但是否可以保证不会收敛到局部最优?
epsilon-greedy应该不能保证不会收敛到局部最优,事实上贪心算法应该都是考虑局部最优
(3)蒙特卡洛控制 VS 时序差分控制
补充:
TD的优势应该在于可以做off-policy和on-policy,而从理论上虽然MC也都可以做,但是MC在off-policy中因为每一步都需要累乘重要性采样的权重,可能导致累乘的结果特别大或特别小带来问题。
MC与TD各自的优势:
MC的优势 :1)不需要建模value function,2)对价值的采样是unbiased,3)算法实现比较简单
TD 的优势 :1)不需要整个episode采样,仅需要一个片段就可以学习,也可以在infinite horizon 场景下工作,2)一般效果都比较好,应用比MC广泛,3)variance低
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
如果大家喜欢这篇文章的话,希望大家收藏、转发、关注、评论、点赞,转载请注明出自这里。 PS:本随笔属个人学习小结,文中内容有参考互联网上的相关文章。如果您博文的链接被我引用,我承诺不会参杂经济利益;如果有版权纠纷,请私信留言。其中如果发现文中有不正确的认知或遗漏的地方请评论告知,谢谢! 还是那句话:不是我喜欢copy,是站在巨人的肩膀上~~