立即学习:https://edu.csdn.net/course/play/4916/88702?utm_source=blogtoedu

Q-learning迭代计算实例

 

学习笔记(06):决胜AI-强化学习实战系列视频课程-QLearning迭代计算实例

 

Rs_a表示即时奖励

 

1, 设计奖惩矩阵

从一个状态开始,直到它达到终止状态,称为1个episode.

 

实例计算:

学习笔记(06):决胜AI-强化学习实战系列视频课程-QLearning迭代计算实例

 

学习笔记(06):决胜AI-强化学习实战系列视频课程-QLearning迭代计算实例

 

因为最开始Q初始化的都是0,

所以一开始, 对于下一个动作的奖励计算时,使用的是max{0,0,0}

 

 

 

 

 

相关文章:

  • 2021-09-23
  • 2021-12-21
  • 2022-12-23
  • 2021-09-29
  • 2021-06-04
  • 2021-10-22
  • 2021-04-05
猜你喜欢
  • 2021-06-15
  • 2021-12-10
  • 2022-01-10
  • 2021-04-22
  • 2022-01-01
  • 2021-05-22
  • 2021-07-15
相关资源
相似解决方案