大三小学期进阶课程第二十一课：reinforcement learning and data driven approaches

第21课、reinforcement learning and data driven approaches

解决规划问题，不能一上来就开始data driven，而是一步步来从rule based这些基本规则开始
RL的本质是建立mapping 的过程，是遇到了问题再解决的思路
(1)我遇到一个case，但我解决不了
(2)看是不是什么地方解决不了
(3)把这个地方进行拓展
RL的思想就是不断的通过在目标不变的情况下，随机地去找一个action，然后看结果怎么样，不好的话就进行修正，或者说策略进行修正，逐渐收敛到一个mapping，使得这个mapping能够optimize reward function given all states
RL的问题就是在学习的过程中成绩会不断提高，但在真的遇到一个没见过的case的情况下难以解决问题
observed state：

(1)有些时候环境感知并不是完全感知的，有些hidden的状态并不是完全能够知道的
(2)用POMDP这个model去model一些uncertainty
(3)图的意思就是看到老虎之后应该向左还是向右还是跑到他嘴里的模型
end to end imitation learning

(1)证明在一定情况下，在一定data量的情况下，可以得到一个能接受的结果
(2)本质上来讲，还是一个imitation learning
distribution shifting problem蝴蝶效应问题

(1)在研究的时候，一个一点点的变化，就会引起周围环境的发生很剧烈的变化
(2)所以在进行训练的时候，随着数据量的增加，本身系统是很脆弱的，因为没法证明他有李亚普诺富稳定性，即到t时间的时候无法控制它的误差
其他问题

(1)容易产生平均值，而无法得到最优值
如何进行修正：

(1)我们通过寻找一个action的mapping，使得他的那个maximize的reward function，这是整个RL中最关心的问题
(2)data driven只是加速总结，让系统变得更快