立即学习:https://edu.csdn.net/course/play/4916/88701?utm_source=blogtoedu
Q-Learning
奖励设置(目标是能够达到5):
(暂时设置: 除了能够达到5的动作,都设置为0)
通常每一行代表一个state,
每一列代表一个action
-1,代表走不到那个地方
可以走到的地方,用奖励来填充
做强化学习,第一步把reward的矩阵做好
立即学习:https://edu.csdn.net/course/play/4916/88701?utm_source=blogtoedu
Q-Learning
奖励设置(目标是能够达到5):
(暂时设置: 除了能够达到5的动作,都设置为0)
通常每一行代表一个state,
每一列代表一个action
-1,代表走不到那个地方
可以走到的地方,用奖励来填充
做强化学习,第一步把reward的矩阵做好
相关文章: