1. 蒙特卡洛MC和时序差分TD的区别
深度强化学习 task03-2
蒙特卡洛(回合更新):一个序列产生之后计算总收益,然后再更新
时序差分(单步更新):每走一步进行一次更新
强化学习主要采用的是蒙特卡洛的回合更新的方式
2. 具体计算方法

深度强化学习 task03-2
具体代码为
深度强化学习 task03-2
计算输出action时用到类似交叉熵损失的方法,但由于真实的action未知,因此在交叉熵前乘一个权重(奖励分数),分数越高的输出这样的action概率越大,代码为
深度强化学习 task03-2
深度强化学习 task03-2
3.on policy 和 off policy
on policy:一边互动一边学习
off policy:先看别人下棋自己再学
主要采用off policy
由于预先不知道各action的出现概率分布 p ( x ) p(x) p(x),只能以另一种概率 q ( x ) q(x) q(x)进行采样,因此对期望做一个转化
深度强化学习 task03-2

相关文章:

  • 2021-10-29
  • 2021-04-19
  • 2022-12-23
  • 2021-05-29
  • 2021-12-12
  • 2021-12-28
  • 2021-12-20
猜你喜欢
  • 2021-12-11
  • 2021-08-27
  • 2021-04-04
  • 2021-04-16
  • 2021-09-02
  • 2021-09-29
相关资源
相似解决方案