1.强化学习MDP四元组<S,A,P,R>

为了方便理解,这里引入了人和熊的例子,当人碰到熊的时候为了生存,在某一时刻是赶紧跑还是躺下装死。

强化学习——MDP与Q表格

强化学习——MDP与Q表格

状态转移概率仅取决于当前的状态和之前的状态都没有关系,此过程取决于智能体和环境的动作

2.状态转移与序列决策

强化学习——MDP与Q表格

3.Model-free试错探索

针对环境是未知的或随机的

强化学习——MDP与Q表格

4.Q表格

根据长时间人与熊的活动总结出一个价值表格,这个表格即为Q表格

强化学习——MDP与Q表格

举例说明:

普通车闯红灯得到的reward是负数,而救护车闯红灯得到的reward也是负数,但是救护车最后是为了把病人送到医院,

其获得的reward结合之前闯红灯的共同构成了未来总收益,出于对未来总收益的考虑,救护车闯红灯是值得的。

强化学习——MDP与Q表格

举例说明:股票购买。如果有时候目光放的太长远在存在弊端,如果是一个无期限没有尽头的任务,把未来很远的预测作

为当前的状态价值不合理,所以引入衰减因子。

强化学习——MDP与Q表格

举例说明(衰减因子):小乌龟到达目的地,要避开悬崖,如果掉入悬崖,则reward=-100并回到原点

强化学习——MDP与Q表格

强化学习——MDP与Q表格

Q表格最开始初始化为0,当agent和environment不断的交互,得到不同的轨迹,当交互此时足够多的时候可以估算出每个state下

每个action的平均总收益更新Q表格

强化学习——MDP与Q表格

相关文章: