强化学习 —— （5）Sparse Reward

1. Reward 问题

通常情况下，agent每一步操作有一个reward对应，但是，当reward非常稀疏时怎么办，可能三四步甚至更多才能产生reward。

环境有一个固定的reward，为了引导agent，需要我们自己设计规则制定reward。在设计类游戏中，人为指定的规则为：
强化学习 —— （5）Sparse Reward

强化学习 —— （5）Sparse Reward

在Intrinsic Curiosity Module中，输入三个值： $a_t, s_t, s_{t+1}$ ，如果 $\hat{s}_{t+1}$ 与 $s_{t+1}$ 相差越大，则得到的奖励越大，鼓励agent采取不同的行为。

当然，为了保证每一个探索的action都是重要的，所以另外需要Feature Ext从state中抽取的特征，利用这个特征来对探索的action是否重要进行评估。
强化学习 —— （5）Sparse Reward

强化学习 —— （5）Sparse Reward

没有办法从环境中得到reward怎么办？

将问题变成一个监督学习的问题，从现有的“专家”系统中学习action。
强化学习 —— （5）Sparse Reward

但是这个可能会有个问题，agent不知道极端情况下该怎么执行action，相当于没有负样本的情况。

强化学习 —— （5）Sparse Reward
默认experts是最佳的，设计一个reward funtion，计算结果永远要好于agent。

强化学习 —— （5）Sparse Reward