经常是错误的动作,没有reward,只能随机动作,很慢

引导的reward

Sparse Reward

 

需要领域知识,与实际任务相关

Sparse Reward

好奇心reward——期待状态变化——重要的状态

network2是要从两个状态之间的到action,说明是重要的

Sparse Reward

Sparse Reward

train data要有顺序,从易到难——ML的通用技巧

Sparse Reward

 

阶层学习——大目标到小而具体的目标

 

Sparse Reward

Sparse Reward

 

 

Sparse Reward

黄色的是上层agent的目标,紫色的是上层agent给下层agent提出的目标。

 

 

 

相关文章:

  • 2021-03-27
  • 2021-07-31
  • 2021-07-24
  • 2022-12-23
  • 2021-04-01
  • 2021-08-04
  • 2022-03-02
  • 2022-12-23
猜你喜欢
  • 2021-07-19
  • 2021-07-14
  • 2021-08-18
  • 2021-10-17
  • 2021-09-08
  • 2021-11-26
相关资源
相似解决方案