参考:https://www.cnblogs.com/dragonir/p/6224313.html

前述: 

强化学习:q-learning算法 强化学习:q-learning算法

强化学习:q-learning算法 强化学习:q-learning算法

强化学习:q-learning算法 

训练的越多,Q矩阵被优化得越好!

强化学习:q-learning算法 

强化学习:q-learning算法

例子: 

第一次episode: 

 强化学习:q-learning算法

强化学习:q-learning算法

想象中:当agent处于状态5,只能去(5,1) (5,4) (5,5)

强化学习:q-learning算法

Q矩阵更新为:

强化学习:q-learning算法

第二次episode:

强化学习:q-learning算法

3能去 (3,1) (3,2)  (3,4)   随机地,我们选择(3,1)

想象中:agent处于1状态,能去(1,3) (1,5)

强化学习:q-learning算法

此时,Q矩阵刷新为:

强化学习:q-learning算法

然后

强化学习:q-learning算法

强化学习:q-learning算法

更多次episode

强化学习:q-learning算法

强化学习:q-learning算法

强化学习:q-learning算法

相关文章: