《强化学习》基础知识（一）

强化学习解决什么问题
⼀句话概括强化学习能解决的问题：序贯决策问题。
强化学习如何解决问题，和监督学习的区别
与之相对的是监督学习，监督学习解决的是智能感知的问题。比如手写体数字识别，通过多样化的标签数据来训练智能体，让智能体学习到输入样本的抽象特征并分类。
强化学习要解决序贯决策问题，不关心输入长什么样，只关心当前状态下应该采取什么动作才能实现最终的目标，即让整个任务序列达到最优。智能体通过动作和环境交互，环境返给智能体当前状态的回报，智能体根据回报评估采取的动作：有利于实现目标的动作被保留，不利于目标的动作被衰减。通过带有回报的交互数据训练智能体
强化学习分类
1）根据是否依赖（环境和智能体）模型分为基于模型的RL和无模型的RL。智能体在探索环境时已知转移概率，回报函数，折扣因子等。基于模型效率更高，无模型更具通用性
2）根据策略的更新和学习方法分为基于值函数的RL、基于策略搜索的RL和AC（actor-critic）的RL。基于值函数指学习值函数，最终策略通过值函数贪婪最大得到，任意状态s下，值函数最大的动作a为当前最优策略Π(a|s)。基于策略搜索是将策略参数化，学习实现目标的最有参数，通过梯度更新。基于AC是联合使用值函数和策略搜索办法
3）根据回报函数是否已知分为正向RL和逆向RL。逆向RL指回报函数未知，需要先通过学习得到
4）根据策略是否随机分为确定性策略RL和随机性策略RL
强化学习仿真环境
常用物理引擎：OpenAI gym、ODE、Bullet、Physx、Havok等
常用图像引擎：OpenGL
相关的概率学知识
随机策略指给定状态s时动作集上的一个分布（很多动作以及各自的概率），常用Π表示
1）随机变量：随机取不同值的变量，当前动作a（向左，向右，向前，向后……）
2）概率分布：随变量取不同值的可能性大小。离散型a用点的概率表示，连续型a用概率密度函数描述
3）条件概率：Π(a|s)在当前状态采取某个动作a的概率。当给定随机变量后，状态s处的累计回报G(s)也是随机变量，其分布有随机策略Π决定。状态值函数定义为该累计回报的期望。
4）期望和方差：函数f(x)关于某分布P(x)的期望公式，对于离散型随机变量为

对于连续型随机变量为

期望的运算是线性的

方差是衡量利用当前概率分布采样时，采样值差异的大小，为

强化学习中最常用的概率分布就是最常用的随机策略
1）贪婪策略

贪婪策略是一个确定性策略，每次都一样，只有让动作值函数最大的动作处取概率1，其他动作概率为0
2）ε-greedy策略

ε-greedy策略是RL最基本最常用的随机策略，让动作值函数最大的动作概率为上，其他动作概率为下。该策略平衡了利用（expoitation）和探索（exploration）。其中选取动作值函数最大的动作为利用，其他动作仍有概率被选取为探索部分。
3）高斯策略

由确定性部分u和零均值的高斯随机噪声ε组成。高斯策略也平衡了利用和探索，其中利用用确定性部分完成，探索用随机噪声完成。高斯策略在连续系统的强化学习中应用广泛。
4）玻尔兹曼分布

是随机策略，对于动作空间是离散或者并不大的情况，可以采用。含义是，动作值函数大的动作被选中的概率大，动作值函数小的动作被选中的概率小。