目录

三个基本概念——哪些是可变的

Actor的决策——神经网络分类器

一次game——trajectory发生的概率

trajectory的reward和reward的期望

action的梯度

n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。

参数更新

n次游戏的收集结果只用一次,之后使用更新后的action

实现的时候类似于一个分类器

让reward细化到每个action 的两个简单技巧


三个基本概念——哪些是可变的

强化学习——On-policy

Actor的决策——神经网络分类器

强化学习——On-policy

一次game——trajectory发生的概率

强化学习——On-policy

trajectory的reward和reward的期望

强化学习——On-policy

action的梯度

n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。

强化学习——On-policy

参数更新

n次游戏的收集结果只用一次,之后使用更新后的action

强化学习——On-policy

实现的时候类似于一个分类器

强化学习——On-policy

让reward细化到每个action 的两个简单技巧

强化学习——On-policy

强化学习——On-policy

强化学习——On-policy强化学习——On-policy

 

相关文章:

  • 2021-12-19
  • 2021-12-14
  • 2021-07-30
  • 2021-09-13
  • 2021-03-28
  • 2022-01-22
  • 2021-05-15
  • 2021-08-27
猜你喜欢
  • 2021-05-23
  • 2021-11-04
  • 2021-04-25
  • 2021-12-04
  • 2021-09-24
  • 2021-07-04
  • 2021-10-23
相关资源
相似解决方案