提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

 

 


前言

  7月份和老师沟通后,确定了基本的研究方向:智能控制,具体一点就是强化学习在无人机、飞行器、航天器控制方面的应用,然后踏上了机器学习的心酸路程。10月份,终于结束了第一阶段的学习。

  这个系列缝合了李宏毅老师、莫烦老师、刘建平老师等的知识,在此感谢这三位老师并强烈推荐这三位老师的教学视频或博客。


一、强化学习是什么?

强化学习(一)

  强化学习是和监督学习、非监督学习并列的第三种机器学习方法。

  强化学习的学习思路和人比较类似,是在实践中学习,比如学习走路,如果摔倒了,那么我们大脑后面会给一个负面的奖励值,说明走的姿势不好。然后我们从摔倒状态中爬起来,如果后面正常走了一步,那么大脑会给一个正面的奖励值,我们会知道这是一个好的走路姿势。

强化学习(一)

  上面的大脑代表我们算法执行个体,智能体(Agent),下面的地球代表环境(environment)Agent选择一个合适的动作(Action) AtA_t后,环境的状态(State)会发生改变,环境状态变为St+1S_(t+1),同时我们得到了我们采取动作AtA_t的延时奖励(Reward) ????t+1R_(t+1)

  然后Agent可以继续选择下一个合适的动作,然后环境的状态又会改变,又有新的奖励值。。。这就是强化学习的思路。

强化学习(一)

基于概率(Policy-Based):通过与环境交互,输出下一步要采取的各种动作的概率,然后根据概率采取行动,例如Policy Gradients。相当于learning a actor。

基于价值(Value-Based):通过与环境交互,输出的是所有动作的价值,我们会根据最高价值选择动作,Q learningDQN。相当于learning a critic。

当然还有两种方法的结合体Actor-critic

 

相关文章: