-
强化学习解决什么问题
⼀句话概括强化学习能解决的问题:序贯决策问题。 -
强化学习如何解决问题,和监督学习的区别
与之相对的是监督学习,监督学习解决的是智能感知的问题。比如手写体数字识别,通过多样化的标签数据来训练智能体,让智能体学习到输入样本的抽象特征并分类。
强化学习要解决序贯决策问题,不关心输入长什么样,只关心当前状态下应该采取什么动作才能实现最终的目标,即让整个任务序列达到最优。智能体通过动作和环境交互,环境返给智能体当前状态的回报,智能体根据回报评估采取的动作:有利于实现目标的动作被保留,不利于目标的动作被衰减。通过带有回报的交互数据训练智能体 -
强化学习分类
1)根据是否依赖(环境和智能体)模型分为基于模型的RL和无模型的RL。智能体在探索环境时已知转移概率,回报函数,折扣因子等。基于模型效率更高,无模型更具通用性
2)根据策略的更新和学习方法分为基于值函数的RL、基于策略搜索的RL和AC(actor-critic)的RL。基于值函数指学习值函数,最终策略通过值函数贪婪最大得到,任意状态s下,值函数最大的动作a为当前最优策略Π(a|s)。基于策略搜索是将策略参数化,学习实现目标的最有参数,通过梯度更新。基于AC是联合使用值函数和策略搜索办法
3)根据回报函数是否已知分为正向RL和逆向RL。逆向RL指回报函数未知,需要先通过学习得到
4)根据策略是否随机分为确定性策略RL和随机性策略RL -
强化学习仿真环境
常用物理引擎:OpenAI gym、ODE、Bullet、Physx、Havok等
常用图像引擎:OpenGL -
相关的概率学知识
随机策略指给定状态s时动作集上的一个分布(很多动作以及各自的概率),常用Π表示
1)随机变量:随机取不同值的变量,当前动作a(向左,向右,向前,向后……)
2)概率分布:随变量取不同值的可能性大小。离散型a用点的概率表示,连续型a用概率密度函数描述
3)条件概率:Π(a|s)在当前状态采取某个动作a的概率。当给定随机变量后,状态s处的累计回报G(s)也是随机变量,其分布有随机策略Π决定。状态值函数定义为该累计回报的期望。
4)期望和方差:函数f(x)关于某分布P(x)的期望公式,对于离散型随机变量为
对于连续型随机变量为
期望的运算是线性的
方差是衡量利用当前概率分布采样时,采样值差异的大小,为
强化学习中最常用的概率分布就是最常用的随机策略
1)贪婪策略
贪婪策略是一个确定性策略,每次都一样,只有让动作值函数最大的动作处取概率1,其他动作概率为0
2)ε-greedy策略
ε-greedy策略是RL最基本最常用的随机策略,让动作值函数最大的动作概率为上,其他动作概率为下。该策略平衡了利用(expoitation)和探索(exploration)。其中选取动作值函数最大的动作为利用,其他动作仍有概率被选取为探索部分。
3)高斯策略
由确定性部分u和零均值的高斯随机噪声ε组成。高斯策略也平衡了利用和探索,其中利用用确定性部分完成,探索用随机噪声完成。高斯策略在连续系统的强化学习中应用广泛。
4)玻尔兹曼分布
是随机策略,对于动作空间是离散或者并不大的情况,可以采用。含义是,动作值函数大的动作被选中的概率大,动作值函数小的动作被选中的概率小。
相关文章: