1. Reward 问题

通常情况下,agent每一步操作有一个reward对应,但是,当reward非常稀疏时怎么办,可能三四步甚至更多才能产生reward。

1.2. reward shaping

环境有一个固定的reward,为了引导agent,需要我们自己设计规则制定reward。在设计类游戏中,人为指定的规则为:
强化学习 —— (5)Sparse Reward

1.2.1 增加好奇模块

强化学习 —— (5)Sparse Reward
强化学习 —— (5)Sparse Reward
在Intrinsic Curiosity Module中,输入三个值:at,st,st+1a_t, s_t, s_{t+1},如果s^t+1\hat{s}_{t+1}st+1s_{t+1}相差越大,则得到的奖励越大,鼓励agent采取不同的行为。

当然,为了保证每一个探索的action都是重要的,所以另外需要Feature Ext从state中抽取的特征,利用这个特征来对探索的action是否重要进行评估。
强化学习 —— (5)Sparse Reward

1.3. Curriculum Learning

强化学习 —— (5)Sparse Reward

2. Imitation learning

没有办法从环境中得到reward怎么办?

2.1 Behavior Cloning

将问题变成一个监督学习的问题,从现有的“专家”系统中学习action。
强化学习 —— (5)Sparse Reward

但是这个可能会有个问题,agent不知道极端情况下该怎么执行action,相当于没有负样本的情况。

2.2 Inverse Reinforcement Learning

强化学习 —— (5)Sparse Reward
默认experts是最佳的,设计一个reward funtion,计算结果永远要好于agent。

强化学习 —— (5)Sparse Reward

相关文章: