强化学习——MDP与Q表格

1.强化学习MDP四元组<S,A,P,R>

为了方便理解，这里引入了人和熊的例子，当人碰到熊的时候为了生存，在某一时刻是赶紧跑还是躺下装死。

强化学习——MDP与Q表格

状态转移概率仅取决于当前的状态和之前的状态都没有关系，此过程取决于智能体和环境的动作

2.状态转移与序列决策

强化学习——MDP与Q表格

3.Model-free试错探索

针对环境是未知的或随机的

强化学习——MDP与Q表格

4.Q表格

根据长时间人与熊的活动总结出一个价值表格，这个表格即为Q表格

强化学习——MDP与Q表格

举例说明：

普通车闯红灯得到的reward是负数，而救护车闯红灯得到的reward也是负数，但是救护车最后是为了把病人送到医院，

其获得的reward结合之前闯红灯的共同构成了未来总收益，出于对未来总收益的考虑，救护车闯红灯是值得的。

强化学习——MDP与Q表格

举例说明：股票购买。如果有时候目光放的太长远在存在弊端，如果是一个无期限没有尽头的任务，把未来很远的预测作

为当前的状态价值不合理，所以引入衰减因子。

强化学习——MDP与Q表格

举例说明（衰减因子）：小乌龟到达目的地，要避开悬崖，如果掉入悬崖，则reward=-100并回到原点

强化学习——MDP与Q表格

Q表格最开始初始化为0，当agent和environment不断的交互，得到不同的轨迹，当交互此时足够多的时候可以估算出每个state下

每个action的平均总收益更新Q表格

强化学习——MDP与Q表格