1.强化学习MDP四元组<S,A,P,R>
为了方便理解,这里引入了人和熊的例子,当人碰到熊的时候为了生存,在某一时刻是赶紧跑还是躺下装死。
状态转移概率仅取决于当前的状态和之前的状态都没有关系,此过程取决于智能体和环境的动作
2.状态转移与序列决策
3.Model-free试错探索
针对环境是未知的或随机的
4.Q表格
根据长时间人与熊的活动总结出一个价值表格,这个表格即为Q表格
举例说明:
普通车闯红灯得到的reward是负数,而救护车闯红灯得到的reward也是负数,但是救护车最后是为了把病人送到医院,
其获得的reward结合之前闯红灯的共同构成了未来总收益,出于对未来总收益的考虑,救护车闯红灯是值得的。
举例说明:股票购买。如果有时候目光放的太长远在存在弊端,如果是一个无期限没有尽头的任务,把未来很远的预测作
为当前的状态价值不合理,所以引入衰减因子。
举例说明(衰减因子):小乌龟到达目的地,要避开悬崖,如果掉入悬崖,则reward=-100并回到原点
Q表格最开始初始化为0,当agent和environment不断的交互,得到不同的轨迹,当交互此时足够多的时候可以估算出每个state下
每个action的平均总收益更新Q表格