强化学习（一）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、强化学习是什么？

前言

7月份和老师沟通后，确定了基本的研究方向：智能控制，具体一点就是强化学习在无人机、飞行器、航天器控制方面的应用，然后踏上了机器学习的心酸路程。10月份，终于结束了第一阶段的学习。

这个系列缝合了李宏毅老师、莫烦老师、刘建平老师等的知识，在此感谢这三位老师并强烈推荐这三位老师的教学视频或博客。

一、强化学习是什么？

强化学习（一）

强化学习是和监督学习、非监督学习并列的第三种机器学习方法。

强化学习的学习思路和人比较类似，是在实践中学习，比如学习走路，如果摔倒了，那么我们大脑后面会给一个负面的奖励值，说明走的姿势不好。然后我们从摔倒状态中爬起来，如果后面正常走了一步，那么大脑会给一个正面的奖励值，我们会知道这是一个好的走路姿势。

强化学习（一）

上面的大脑代表我们算法执行个体，智能体(Agent)，下面的地球代表环境(environment)。Agent选择一个合适的动作(Action) AtA_t后，环境的状态(State)会发生改变，环境状态变为St+1S_(t+1)，同时我们得到了我们采取动作AtA_t的延时奖励(Reward) ????t+1R_(t+1)。

然后Agent可以继续选择下一个合适的动作，然后环境的状态又会改变，又有新的奖励值。。。这就是强化学习的思路。

强化学习（一）

基于概率(Policy-Based)：通过与环境交互，输出下一步要采取的各种动作的概率，然后根据概率采取行动，例如Policy Gradients。相当于learning a actor。

基于价值(Value-Based)：通过与环境交互，输出的是所有动作的价值，我们会根据最高价值选择动作，Q learning，DQN等。相当于learning a critic。

当然还有两种方法的结合体Actor-critic。