立即学习:https://edu.csdn.net/course/play/4916/88701?utm_source=blogtoedu

Q-Learning

学习笔记(05):决胜AI-强化学习实战系列视频课程-QLearning基本原理

 

 

奖励设置(目标是能够达到5):

学习笔记(05):决胜AI-强化学习实战系列视频课程-QLearning基本原理

 

(暂时设置: 除了能够达到5的动作,都设置为0)

学习笔记(05):决胜AI-强化学习实战系列视频课程-QLearning基本原理

 

通常每一行代表一个state,

每一列代表一个action

-1,代表走不到那个地方

可以走到的地方,用奖励来填充

 

 

做强化学习,第一步把reward的矩阵做好

 

 

 

相关文章:

  • 2021-09-23
  • 2022-12-23
  • 2021-12-21
  • 2021-07-11
  • 2021-06-04
  • 2021-04-05
  • 2021-09-23
猜你喜欢
  • 2021-06-15
  • 2022-01-10
  • 2021-05-07
  • 2022-01-01
  • 2021-04-22
  • 2021-05-22
  • 2021-07-15
相关资源
相似解决方案