学习地址

1 马尔可夫决策过程

价值函数和行为价值函数

学习笔记:强化学习在机器人中的应用

价值函数的递归性质

学习笔记:强化学习在机器人中的应用

随机策略、确定性策略

学习笔记:强化学习在机器人中的应用

二、算法:Policy Iteration策略迭代、价值迭代

策略迭代

学习笔记:强化学习在机器人中的应用

价值迭代

学习笔记:强化学习在机器人中的应用

三 无模型强化学习Model-free RL

学习笔记:强化学习在机器人中的应用
学习笔记:强化学习在机器人中的应用
学习笔记:强化学习在机器人中的应用

红白机游戏

学习笔记:强化学习在机器人中的应用

相关文章: